РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Дорожка по классификации Веб-страниц

Задача

Дорожка посвящена оценке методов решения задачи тематической классификации Веб-страниц.

Общая процедура проведения дорожки стандартна.

Коллекция

Исходный набор данных включает в себя коллекцию BY.web и коллекцию DMOZ, используемую в качестве обучающего множества.
Обучающее множество состоит из сайтов, но не обязательно все страницы сайта относятся к одной теме.

Формулировка задания для участвующей системы

Аналогично дорожке по классификации Веб-сайтов, каждой системе-участнику предоставляется обучающее множество, DMOZ коллекция и коллекция BY.web. Но в данном случае для обучения используются сайты, а классифицируются индивидуальные страницы BY.web. Одна и та же страница может быть отнесена сразу к нескольким категориям (до 5 категорий).

Ответом системы для категории является упорядоченный по степени близости документа к категории список документов.

Методология оценки

  • постановка задания ассессору:
    Относится ли данная страница к это этой категории?
    (для категории предоставляется расширенное описание в виде абзаца текста)
  • шкала оценки релевантности:
    • точно/возможно/вероятно/нет/невозможно оценить
    • да/нет/невозможно оценить
  • официальные метрики:
    • точность
    • полнота

Форматы данных