РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Формат коллекций данных для обучения в задаче классификации отзывов

Формат данных в коллекциях Имхонета:
<?xml version="1.0" encoding="UTF-8"?>
<table>
<columns>
<column number="0">
<name>score</name>
</column>
<column number="1">
<name>content_id</name>
</column>
<column number="2">
<name>element_id</name>
</column>
<column number="3">
<name>user_id</name>
</column>
<column number="4">
<name>text</name>
</column>
</columns>

Где:

  • score - оценка, поставленная пользователем по 10 балльной шкале Если у отзыва стоит оценка 0, это значит, что он не оценен;
  • content_id - идентификатор контента (1,2 книги, 3 фильмы);
  • element_id - идентификатор книги или фильма, о котором идет речь;
  • user_id - идентификатор пользователя, оставившего отзыв;
  • text - текст отзыва.
Пример данных:
<row rowNumber="24157">
<value columnNumber="0">9</value>
<value columnNumber="1">1</value>
<value columnNumber="2">169250</value>
<value columnNumber="3">183535</value>
<value columnNumber="4">Лёгкая, интересная, остроумная книга, а если и есть маленькие неточности, я их не замечаю. Детектив всё-таки.
</value>
</row>

Формат данных в коллекции Яндекс.Маркета:
	<?xml version="1.0" encoding="UTF-8"?>
	<columns>
	<column number="0">
	<name>ID</name>
	</column>
	<column number="1">
	<name>MODEL_ID</name>
	</column>
	<column number="2">
	<name>AUTHOR_ID</name>
	</column>
	<column number="3">
	<name>CR_TIME</name>
	</column>
	<column number="4">
	<name>RATING</name>
	</column>
	<column number="5">
	<name>TEXT</name>
	</column>
	<column number="6">
	<name>PRO</name>
	</column>
	<column number="7">
	<name>CONTRA</name>
	</column>
	<column number="8">
	<name>RANK</name>
	</column>
	</columns>

Где:

  • ID - идентификатор отзыва;
  • MODEL_ID - идентификатор модели камеры;
  • AUTHOR_ID - идентификатор пользователя, оставившего отзыв;
  • CR_TIME - дата написания отзыва;
  • RATING - оценка поставленная пользователем по 5 балльной шкале;
  • TEXT - текст отзыва;
  • PRO - текст, содержащий достоинства описываемой модели;
  • CONTRA - текст, содержащий недостатки описываемой модели;
  • RANK - полезность отзыва (число от 0 до 1, показывающее полезность этого отзыва для других людей).
Пример данных:
<row rowNumber="0">
<value columnNumber="0">1328131</value>
<value columnNumber="1">926707</value>
<value columnNumber="2">48983640</value>
<value columnNumber="3">2009-05-03</value>
<value columnNumber="4">4</value>
<value columnNumber="5"> Хороший выбор для опытного фотолюбителя.</value>
<value columnNumber="6"> Большой выбор режимов съемки,12-кратный оптический зум,естественная цветопередача,большой ЖК-экран.</value>
<value columnNumber="7"> Невысокая скорость подзарядки фотовспышки.</value>
<value columnNumber="8">0.59375</value>
</row>