РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Дорожка по классификации Веб-сайтов

Задача

Дорожка посвящена оценке методов решения задачи тематической классификации Веб-сайтов, аналогичной той, что рассматривалась в предыдущих циклах РОМИП (2003, 2004,2005).

Общая процедура проведения дорожки стандартна.

Коллекция

Исходный набор данных включает в себя коллекцию Narod.ru и коллекцию DMOZ, используемую в качестве обучающего множества.

Формулировка задания для участвующей системы

Каждой системе-участнику предоставляется список категорий, обучающая выборка и множество сайтов (не документов!) из коллекции Narod.ru. Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.

Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 5 категорий) для каждого из классифицируемых сайтов. Cайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий.

Множество категорий сформировано на основе подмножества русскоязычных рубрик каталога DMOZ.

Предполагается, что классификации должны подвергаться все сайты коллекции narod.ru, т.е. не только те, что содержатся в файлах вида narod.*, но и в файлах вида narod_training.*.
Поскольку обучающая выборка содержит несколько сайтов из домена narod.ru, то эти сайты будут исключены из ответов при проведении оценки.

Методолгия оценки

  • постановка задания ассессору:
    Ассессор оценивает соответсвие сайта категории или с учетом расширенного описания этой категории.
  • шкала оценки релевантности:
    • точно/возможно/вероятно/нет/невозможно оценить
    • да/нет/невозможно оценить
  • официальные метрики:
    • точность
    • полнота

Форматы данных