РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Дорожка по классификации Веб-сайтов

Рассматривается задача тематической классификации Веб-сайтов, аналогичная той, что рассматривалась в аналогичной дорожке РОМИП'2003.

Общий алгоритм проведения един для всех дорожек. На этой странице уточняются конкретные детали для этой дорожки.

Постановка задачи

Задан список категорий, обучающая выборка и множество сайтов (не документов!). Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.

Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 5 категорий) для каждого из классифицируемых сайтов.

Отметим, что сайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий.

Условия игры

Исходным набором данных является коллекция Narod.ru.

Множество классов сформировано на основе подмножества русскоязычных рубрик каталога DMOZ. В обучающую выборку включались сайты упомянутые в DMOZ, для которых явным образом не запрещено их копирование или использование в некомерческих целях. Обучающая выборка распространяется отдельно от коллекции narod.ru.

Предполагается, что классификации должны подвергаться все сайты коллекции narod.ru, т.е. не только те, что содержатся в файлах вида narod.*, но и в файлах вида narod_training.*.
Поскольку обучающая выборка содержит несколько сайтов из домена narod.ru, то эти сайты будут исключены из ответов при проведении оценки.

Форматы