| |
Формат коллекций тестовых данных для задачи классификации отзывов
Формат данных собранных по блогосфере:
<?xml version="1.0" encoding="windows-1251"?>
<document>
<ID>
11347
</ID>
<link>
http://vikilt.livejournal.com/12619.html
</link>
<date>
2011-02-06T20:59:15Z
</date>
<object>
Плохая училка
</object>
<text>
Недавно посмотрел фильм "Очень плохая училка" и наконец, увидел этого самого Джастина Тимберлейка о котором так много было
звона и сильно удивился. В фильме персонаж Кэмерон Диос как только видит этого Джастина начинает млеть и интенсивно намокать,
хотя сам персонаж никаких эротический эмоций кроме смеха и недоумения не вызывает. Дальше он там, в фильме поёт песенку,
которая тоже оставляет желать лучшего. Девушки, неужели вам действительно нравятся такие чахлые додики сомнительной наружности?
</text>
</document>
Где:
-
ID - идентификатор отзыва;
-
link - ссылка на исходный текст;
-
date - дата отзыва.
-
object - предполагаемый объект, о котором идет речь (может быть не верным);
-
text - текст отзыва;
|