| |
Формат коллекций данных для обучения в задаче классификации отзывов
Формат данных в коллекциях Имхонета:
<?xml version="1.0" encoding="UTF-8"?>
<table>
<columns>
<column number="0">
<name>score</name>
</column>
<column number="1">
<name>content_id</name>
</column>
<column number="2">
<name>element_id</name>
</column>
<column number="3">
<name>user_id</name>
</column>
<column number="4">
<name>text</name>
</column>
</columns>
Где:
-
score - оценка, поставленная пользователем по 10 балльной шкале. Если у отзыва стоит оценка 0, это значит, что он не оценен;
-
content_id - идентификатор контента (1,2 книги, 3 фильмы);
-
element_id - идентификатор книги или фильма, о котором идет речь;
-
user_id - идентификатор пользователя, оставившего отзыв;
-
text - текст отзыва.
Пример данных:
<row rowNumber="24157">
<value columnNumber="0">9</value>
<value columnNumber="1">1</value>
<value columnNumber="2">169250</value>
<value columnNumber="3">183535</value>
<value columnNumber="4">Лёгкая, интересная, остроумная книга, а если и есть маленькие неточности, я их не замечаю. Детектив всё-таки.
</value>
</row>
Формат данных в коллекции Яндекс.Маркета:
<?xml version="1.0" encoding="UTF-8"?>
<columns>
<column number="0">
<name>ID</name>
</column>
<column number="1">
<name>MODEL_ID</name>
</column>
<column number="2">
<name>AUTHOR_ID</name>
</column>
<column number="3">
<name>CR_TIME</name>
</column>
<column number="4">
<name>RATING</name>
</column>
<column number="5">
<name>TEXT</name>
</column>
<column number="6">
<name>PRO</name>
</column>
<column number="7">
<name>CONTRA</name>
</column>
<column number="8">
<name>RANK</name>
</column>
</columns>
Где:
-
ID - идентификатор отзыва;
-
MODEL_ID - идентификатор модели камеры;
-
AUTHOR_ID - идентификатор пользователя, оставившего отзыв;
-
CR_TIME - дата написания отзыва;
-
RATING - оценка поставленная пользователем по 5 балльной шкале;
-
TEXT - текст отзыва;
-
PRO - текст, содержащий достоинства описываемой модели;
-
CONTRA - текст, содержащий недостатки описываемой модели;
-
RANK - полезность отзыва (число от 0 до 1, показывающее полезность этого отзыва для других людей).
Пример данных:
<row rowNumber="0">
<value columnNumber="0">1328131</value>
<value columnNumber="1">926707</value>
<value columnNumber="2">48983640</value>
<value columnNumber="3">2009-05-03</value>
<value columnNumber="4">4</value>
<value columnNumber="5"> Хороший выбор для опытного фотолюбителя.</value>
<value columnNumber="6"> Большой выбор режимов съемки,12-кратный оптический зум,естественная цветопередача,большой ЖК-экран.</value>
<value columnNumber="7"> Невысокая скорость подзарядки фотовспышки.</value>
<value columnNumber="8">0.59375</value>
</row>
|