РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Дорожка контекстно-зависимого аннотирования текстовых документов

Задача

Дорожка посвящена оценке методов решения задачи контекстно-зависимого аннотирования текстовых документов.

Общая процедура проведения дорожки стандартна.

Коллекция

Исходный набор данных - объединение коллекций BY.web, KM.ru и коллекции нормативных-документов 2007.

Аннотированию подлежат только документы, упоминающиеся в задании.

Формулировка задания для участвующей системы

Система-участник получает колекции и набор заданий вида "запрос и документ" (всего 88497). Система должна предоставить аннотацию этого документа по этому запросу.

Набор заданий был создан на основе множества запросов, которые оценивались при проведении РОМИП'2007 и РОМИП'2008.

Ответом системы для задания является фрагмент текста не более 300 символов без HTML разметки (в том числе, <br> и <p>). Обратите внимание, что асессор в дополнение к аннотации асессор будет видеть заголовок документа (содержимое тега title, до 100 символов). Размер заголовка не учитывается в размере аннотации.

Планируемая методология оценки

  • Задания будут сгруппированы в наборы по запросам. Набор состоит из последовательности заданий, каждое из которых соответствует одному документу.
  • Асессор видит ВСЕ доступные аннотации в случайном порядке (заголовок документа + текст аннотации, обрезанный до 300 символов).
  • Для каждой аннотации асессор выставляет 2 оценки: информативность и читабельность.
    • Информативность характеризует, насколько эта аннотация понятна для принятия решения о полезности документа в контексте этого запроса.
    • Читабельность - ответ на вопрос "Аннотации зачастую состоят из обрывков приложений и отдельных словосочетаний. Мешает ли вам это понимать их смысл?"
  • Оценки по критериям информативность и читабельность выставляются по трехбалльной системе: ПЛОХАЯ, ХОРОШАЯ, ОТЛИЧНАЯ. Однако, технически асессор может указать промежуточные значения (шкала имеет 9 градаций), чтобы подчеркнуть небольшое превосходство одного варианта аннотации над другим.
  • Асессор также должен ответить на два вопроса, характеризующие его понимание о релевантности документа и о роли заголовка:
    • исходя из полученной информации, считаете ли вы, что документ содержит релевантную информацию?
    • приняли ли бы вы такое же решение, используя ТОЛЬКО заголовок документа?
  • Оценка каждого задания производится двумя асессорами
  • При вычислении метрик оценки асессоров (для информативности и читабельности) отображаются в трехзначную шкалу 1/2/3 (градации 1-3 в 1, 4-6 в 2, 7-9 в 3)
  • Планируемые метрики: число оценок каждого типа, средние оценки по каждому из критериев.

Форматы данных