| |
Формат коллекции обучающих данных для задачи извлечения и классификации мнений из поисковой выдачи
Формат данных собранных по блогосфере:
<?xml version="1.0" encoding="windows-1251"?>
<document>
<ID>
3
</ID>
<link>
http://vlasoff-shyrka.ya.ru/replies.xml?item_no=3
</link>
<date>
2011-02-06T20:59:15Z
</date>
<object>
Fujifilm FinePix F300EXR
</object>
<text>
v lasoff-shyrka написал отзыв опубликовано на Маркете полное
разочарование :-(( Достоинства: НЕт Недостатки: Сервис. Как мне
правильно сказали в одном магазине: качество у разных компаний
схожее- весь вопрос в подходе к клиенту и сервисе. А вот сервис у
фуджи на нуле. Принес гарантийный аппарат- через месяц накрылся
механизм приближения- кстати он очень слабый у них. Так вот там
умельцы отказались брать в ремон- даже не посмотрев на аппарат-
предположив что я туда варенье наливал. И где же сервис? Ужасно
тормозит при передаче фоток на диск Неудобная загрузка и выгрузка
батареи. Комментарий: Конечно можо рискнуть и купить фуджи- но тут
уж как повезет, а вот если что то никто вам его не отремонтирует.
Так что советую рассмотреть производителей с более качественным
сервисом.
</text>
<score-2>
1
</score-2>
<score-3>
1
</score-3>
<score-5>
2
</score-5>
<type main="+">
C
</type>
<real_object>
Fujifilm FinePix F300EXR
</real_object>
</document>
Где:
-
ID - идентификатор отзыва;
-
link - ссылка на исходный текст;
-
date - дата отзыва.
-
object - предполагаемый объект, о котором идет речь (может быть не верным);
-
text - текст отзыва;
-
score-N - общая оценка текста по шкале N (наиболее вероятно, объекта указанного в тэге real_object);
-
type - предметная область, о которой текст. Может принимать значения F(фильмы), B(книги), C(цифровые камеры). Атрибут main показывает, является ли эта область основной;
-
real_object - настоящий объект, о котором идет речь в тексте;
Тэги type и real_object связаны и идут парами. Таких пар может быть больше одной, если в тексте речь идет о разных объектах.
|