РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Формат коллекции обучающих данных для задачи извлечения и классификации мнений из поисковой выдачи

Формат данных собранных по блогосфере:
 
<?xml version="1.0" encoding="windows-1251"?>
  <document>
    <ID>
      3
    </ID>
    <link>
      http://vlasoff-shyrka.ya.ru/replies.xml?item_no=3
    </link>
    <date>
      2011-02-06T20:59:15Z
    </date>
    <object>
      Fujifilm FinePix F300EXR
    </object>
    <text>
      v lasoff-shyrka написал отзыв опубликовано на Маркете полное
разочарование :-(( Достоинства: НЕт Недостатки: Сервис. Как мне
правильно сказали в одном магазине: качество у разных компаний
схожее- весь вопрос в подходе к клиенту и сервисе. А вот сервис у
фуджи на нуле. Принес гарантийный аппарат- через месяц накрылся
механизм приближения- кстати он очень слабый у них. Так вот там
умельцы отказались брать в ремон- даже не посмотрев на аппарат-
предположив что я туда варенье наливал. И где же сервис? Ужасно
тормозит при передаче фоток на диск Неудобная загрузка и выгрузка
батареи. Комментарий: Конечно можо рискнуть и купить фуджи- но тут
уж как повезет, а вот если что то никто вам его не отремонтирует.
Так что советую рассмотреть производителей с более качественным
сервисом.
    </text>
  <score-2>
    1
  </score-2>
  <score-3>
    1
  </score-3>
  <score-5>
    2
  </score-5>
  <type main="+">
    C
  </type>
  <real_object>
    Fujifilm FinePix F300EXR
  </real_object>
  </document>

Где:

  • ID - идентификатор отзыва;
  • link - ссылка на исходный текст;
  • date - дата отзыва.
  • object - предполагаемый объект, о котором идет речь (может быть не верным);
  • text - текст отзыва;
  • score-N - общая оценка текста по шкале N (наиболее вероятно, объекта указанного в тэге real_object);
  • type - предметная область, о которой текст. Может принимать значения F(фильмы), B(книги), C(цифровые камеры). Атрибут main показывает, является ли эта область основной;
  • real_object - настоящий объект, о котором идет речь в тексте;
Тэги type и real_object связаны и идут парами. Таких пар может быть больше одной, если в тексте речь идет о разных объектах.