![]()
| ![]() |
Дорожка по извлечению мнений из поисковой выдачиЗадачаОсновной задачей в рамках данной дорожки яляется поиск по коллекции блогов информации о заданном товаре. Основное отличие от стандартного ad-hoc поиска заключается в поиске постов с содержанием оценки заданного товара (или его частей), и выдачу таких постов в порядке убывания вероятности содержания оценки. Общая процедура проведения дорожки стандартна. Коллекции для обученияИсходный набор данных:
Система участник получает два набора данных с Имхонета (книги и фильмы) и один набор данных с Яндекс.Маркета (цифровые фотокамеры). Каждый отзыв, собранный с Имхонета, имеет пользовательскую оценку от 1 до 10 баллов. Отзывы, собранные с Яндекс.Маркета, имеет оценку от 1 до 5. Эти оценки участники могут использовать для обучения своих алгоритмов. Кроме того для обучения будут доступны размеченные данные из блогов, которые использовались для тестирования в прошлом году:
Тестовая коллекцияДля формирования тестовой коллекции предполагается использование выдачи сервиса Яндекс.Блоги в трех предметных областях: книги, фильмы, цифровые фотокамеры. В каждой из вышеуказанных областей будет сформирован пул из нескольких тысяч запросов (~3000), для которых будет извлечена выдача сервиса (не более 200 документов на запрос). Формулировка задания для участвующей системыЗадачей участников является поиск и извлечение документов по каждому из запросов по двум критериям:
Ответом системы на каждый запрос являются 10 наиболее релевантных документов, упорядоченных по мере снижения релевантности запросу в соответствии с вышеуказанными критериями. Методология оценки Случайный выбор 100-200 запросов из общего пула. Каждому запросу соответствует набор документов (не более 200), часть из которых могут быть нерелевантны запросу или не содержать никакой субъективной оценки объекта из запроса или его частей.
-1 Документ не оценивался по тем или иным причинам. Если текст содержит информацию не только по сущности из запроса, но и выражает некоторую оценку по отношению к нему, тогда такой документ должен быть оценен в соответствии со следующими метками:
2 Пост содержит явное выражение мнения или отношения к сущности из запроса и это мнение является в целом негативным. Официальные метрики:
Форматы данных |