РОМИП-2012
Извлечение и анализ мнений
1. Введение В последнее годы в сети Интернет появилось большое количество ресурсов, где все содержимое создается их пользователями. Сюда входят социальные сети, сервисы микроблогов и, собственно, многочисленные блоги. Значительная часть этих ресурсов представляет собой мнения людей о различных событиях, товарах, услугах и т.п. Эти мнения важны как для самих пользователей при принятии решений по поводу товара (услуги), уточнения своих предпочтений, так и для производителей – для отслеживания потребительского качества своих товаров, своего имиджа.
В 2011 году был проведено общественное тестирование систем анализа тональности отзывов пользователей на Российском семинаре по информационному поиску РОМИП-2011. Для экспериментов участникам было предложено три предметные области: отзывы о фильмах, книгах и цифровых камерах. В тестировании приняли участие 12 участников разного уровня (компании, исследователи, студенты), для оценки было прислано более 200 прогонов, представляющих результаты обработки текстов различными методами.
В рамках семинара было показано, что наилучшие результаты в предложенных задачах были получены при применении метода машинного обучения - метода опорных векторов (SVM), что соответствует мировой практике. Комбинирование метода опорных векторов с различными лингвистическими и статистическими признаками улучшает результаты классификации отзывов.
Для дальнейших исследований в этой области в 2012 году в рамках Российского семинара по информационному поиску РОМИП предлагается провести ряд дорожек, связанных с извлечением и анализом мнений пользователей, что позволит получить новые знания о специфике задачи, уточнить постановки задач, выяснить уровень достигаемых результатов.
2. ЗадачиВ 2012 году предлагается проводить эксперименты в двух основных направлениях:
• анализ тональности отзывов пользователей о заданных типах товаров,
• тональность высказываний прямой и косвенной речи, выделяемой из потоков новостей.
Каждая из задач представляет собой отдельную дорожку(или несколько дорожек).
Результаты участников предполагается оценивать на основе сравнения с оценками асессоров. Для настройки алгоритмов участникам предоставляются обучающие коллекции.
Рассмотрим каждую из предлагаемых задач подробнее в зависимости от предметной области.
3. Предметная область товаров и услуг Для анализа тональности в областях товаров предлагается две задачи.
3.1 Извлечение мнений из поисковой выдачи Для проведения данной дорожки предполагается использование выдачи сервиса Яндекс.Блоги. Как и в РОМИП 2011, мы ограничимся работой с тремя предметными областями: книги, фильмы, цифровые фотокамеры. Основной задачей в рамках данной дорожки яляется поиск в коллекции постов для заданного товара, в которых содержится оценка этого товара (или его частей), и выдать такие посты в порядке убывания вероятности содержания оценки в посте.
В каждой из вышеуказанных областей будет сформирован пул из нескольких тысяч запросов (~5000), из которых несколько сотен (~200) будут отобраны для тестирования. Результатом выполнения запросов будет набор отранжированных документов (100-200 штук). Задачей участников является упорядочение выдачи по каждому из запросов по двум критериям:
соответствие извлеченных текстов запросу
субъективность текста по отношению к запросу ( содержится ли какое-либо мнение по отношению к запросу?)
тональность текста (опционально, как отдельная дорожка).
Пример: На картинке приведен пример запроса «canon eos 6d» и несколько результатов по нему. Два документа содержат мнения по запросу «canon eos 6d». Такие отзывы участникам необходимо будет извлечь.
Для каждого запроса система-участник должна вернуть упорядоченный список ответов, из которого будут оцениваться первых 10 результатов. За правильный ответ будет признаватся любой документ, который содержит хотя бы минимальную оценку по отношению к запрашиваемому объекту.
После извлечения мнений по запросу, в качестве отдельного задания можно рассматривать классификацию извлеченных данных на два класса: положительные и отрицательные.
Для обучения своих алгоритмов участникам предоставляются следующие коллекции:• Фильмы, 15718 отзывов с рекомендательного сервиса Имхонет (
http://www.imhonet.ru),
• Книги, 24159 отзывов с Имхонета,
• Цифровые фотокамеры, 10370 отзывов с Яндекс.Маркета.
Каждый отзыв, собранный с Имхонета, имеет пользовательскую оценку от 1 до 10 баллов. Отзывы, собранные с Яндекс.Маркета, имеет оценку от 1 до 5. Эти оценки участники могут использовать для обучения своих алгоритмов.
Кроме того для обучения будут доступны размеченные данные из блогов, которые использовались для тестирования в прошлом году:
• Фильмы, 329 текстов из блогов
• Книги, 275 текстов из блогов
• Цифровые камеры, 270 текстов из блогов
Для каждого текста будут выданы оценки по 2х, 3х и 5 балльной шкале.
Для задачи выделения субъективной информации из коллекции блогов в соответствии с запросом предполагается следующая процедура: Случайный выбор 100-200 запросов из общего пула. Каждому запросу соответствует набор из 100-200 документов, часть из которых могут быть нерелевантны запросу или не содержать никакой субъективной оценки объекта из запроса или его частей.
Таким образом, для каждой пары (запрос, документ) из выбранных 200 запросов должна быть проставлен маркер в соответствии с разметкой в Trec Blog Track 2006:
–1 Документ не оценивался по тем или иным причинам.
0 Нерелевантный документ. Содержание текста не соответствует информационным потребностям пользователя, заданным в запросе.
1 Релевантный документ. В посте содержится полезная информация (достаточная для определения сущности из запроса) относительно запроса, но не выражено никакой субъективной оценки.
Если текст содержит информацию не только по сущности из запроса, но и выражает некоторую оценку по отношению к нему, тогда такой документ должен быть оценен в соответствии со следующими метками:
2 Пост содержит явное выражение мнения или отношения к сущности из запроса и это мнение является в целом негативным.
3 Тоже, что и (2), но содержит как положительное мнение, так и отрицательное
4 Тоже, что и (2), но содержит только положительное мнение.
3.2 Классификация отзывов о товарах по тональности Повторении дорожек РОМИП2011:
http://romip.ru/ru/2011/tracks.html Здесь методология оценки, обучающие коллекции и метрики те же, что и в прошлом году. Основное отличие данной дорожки от новой дорожки (3.1) заключается в том, что посты из блогов, которые оценивают асессоры, являются обязательно оценочными и относятся к одной из трех предметных областей, таким образом система анализа тональности должна только вычислить правильную оценку анализируемого поста, не занимаясь его оценочностью и релевантностью.
4. Общественно-политическая предметная область4.1 Классификация прямой и косвенной речи из новостных лент Целью данной задачи является определения качества работы автоматических систем в предметной области, связанной с новостями. На первом этапе предполагается работа с наиболее вероятными носителями тональности в новостях – с прямой и косвенной речью.
Для проведения данной дорожки из потока новостей будут извлечены сотни тысяч фрагментов прямой речи. Около тысячи таких фрагментов предполагается разметить с помощью асессоров на 3 класса (положительный, отрицательный, нейтральный). Данная коллекция будет выдаваться участникам для обучения их систем.
Оставшаяся часть текстов будет использована для тестирования участников. Для этого каждый участник должен будет оценить весь корпус фрагментов, а организаторы случайным образом выберут 200-500 текстов и на их основе оценят качество работы.
5. Официальные метрики:• Точность, Полнота, F-мера, площадь под кривой AUC
• Аккуратность (Accuracy)
• MAP, NDCG, P@n для задачи извлечения мнений
6. Сроки05.10.12 Манифест, правила, сроки
15.10.12 Объявление дорожек всем заинтересованным лицам
01.11.12 Раздача обучающих данных
15.11.12 Раздача тестовых данных
01.12.12 Прием результатов прогонов
10.12.12 Результаты всех участников
Подача работ по результатам дорожки на Диалог. (Конец января).