| |
Формат коллекций тестовых данных для задачи классификации отзывов
Формат данных собранных по блогосфере:
<?xml version="1.0" encoding="windows-1251"?>
<document>
<post id="1">
<link>
http://vikilt.livejournal.com/12619.html
</link>
<date>
Mon, 15 Oct 2012 09:00:41 GMT
</date>
<title>
Плохая училка
</title>
<text>
Недавно посмотрел фильм "Очень плохая училка" и наконец, увидел этого самого Джастина Тимберлейка о котором так много было
звона и сильно удивился. В фильме персонаж Кэмерон Диос как только видит этого Джастина начинает млеть и интенсивно намокать,
хотя сам персонаж никаких эротический эмоций кроме смеха и недоумения не вызывает. Дальше он там, в фильме поёт песенку,
которая тоже оставляет желать лучшего. Девушки, неужели вам действительно нравятся такие чахлые додики сомнительной наружности?
</text>
</post>
</document>
Где:
-
id - идентификатор отзыва;
-
link - ссылка на исходный текст;
-
date - дата отзыва;
-
title - заголовок поста;
-
text - текст отзыва;
|