РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Дорожка по классификации Веб-сайтов

Задача

Дорожка посвящена оценке методов решения задачи тематической классификации Веб-сайтов, аналогичной той, что рассматривалась в предыдущих циклах РОМИП.

Общая процедура проведения дорожки стандартна.

Коллекция

Исходный набор данных включает в себя коллекцию BY.web и коллекцию DMOZ, используемую в качестве обучающего множества.

Формулировка задания для участвующей системы

Каждой системе-участнику предоставляется список категорий, обучающая выборка и множество сайтов (не документов!) из коллекции BY.web. Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.

Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 5 категорий) для каждого из классифицируемых сайтов. Cайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий.

Множество категорий сформировано на основе подмножества русскоязычных рубрик каталога DMOZ.

Методолгия оценки

  • постановка задания ассессору:
    Ассессор оценивает соответсвие сайта категории или с учетом расширенного описания этой категории.
  • шкала оценки релевантности:
    • точно/возможно/вероятно/нет/невозможно оценить
    • да/нет/невозможно оценить
  • официальные метрики:
    • точность
    • полнота

Форматы данных