Дорожка по классификации Веб-сайтовРассматривается задача тематической классификации Веб-сайтов, аналогичная той, что рассматривалась в аналогичной дорожке РОМИП'2003.Общий алгоритм проведения един для всех дорожек. На этой странице уточняются конкретные детали для этой дорожки. Постановка задачиЗадан список категорий, обучающая выборка и множество сайтов (не документов!). Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 5 категорий) для каждого из классифицируемых сайтов. Отметим, что сайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий. Условия игрыИсходным набором данных является коллекция Narod.ru.Множество классов сформировано на основе подмножества русскоязычных рубрик каталога DMOZ. В обучающую выборку включались сайты упомянутые в DMOZ, для которых явным образом не запрещено их копирование или использование в некомерческих целях. Обучающая выборка распространяется отдельно от коллекции narod.ru.
Предполагается, что классификации должны подвергаться все сайты
коллекции narod.ru, т.е. не только те, что содержатся в файлах
вида narod.*, но и в файлах вида narod_training.*. Форматы
|