Дорожка по классификации текстовой информацииРассматривается задача тематической классификации Веб-сайтов.Общий алгоритм проведения един для всех дорожек. На этой странице уточняются конкретные детали для этой дорожки. Системы-участники
Постановка задачиЗадан список категорий, обучающая выборка и множество сайтов (не документов!). Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 3-5 категорий) для каждого из классифицируемых сайтов. Отметим, что сайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий. Условия игрыИсходным набором данных является коллекция Narod.ru.Множество классов сформировано на основе каталога narod.ru, отбирались категории второго уровня в которых встречалось не менее пяти включенных в набор сайтов. Всего было отобрано 164 категории (список категорий с их численными идентификаторами). Обучающая выборка - сайты уже входящие в каталог narod.ru, которые попали в коллекцию narod.ru используемую РОМИП. В распространяемом комплекте обучающая выборка содержится в файлах вида narod_training.*, а тестовые набор сайтов в файлах вида narod.*. Процедура оценкиНа входе известны:
Форматы
Затраты
|