На данный момент мы не планируем больших изменений в правилах проведения
этих дорожек (это утверждение не касается процедуры оценки) по сравнению с
прошлым годом.
Есть открытый вопрос про дорожку классификации Веб-страниц.
Кратко просуммирую формальности:
1. Классификация Веб-сайтов
Коллекция: Narod.Ru
Обучающее множество: DMOZ
http://romip.narod.ru/ru/2004/tracks/web-classification.html
2. Классификация нормативных документов
Коллекция: Legal
Обучающее множество: подвыборка коллекции, построеная на основе каталога
Кодекс
http://romip.narod.ru/ru/2004/tracks/legal-classification.html
3. Классификация Веб страниц
Коллекция: Narod.Ru
Обучающее множество: DMOZ
Правила аналогичны дорожке по классификации Веб-сайтов,
но в данном случае для обучения используются САЙТЫ (не все страницы
одного сайта реально относятся к заявленной тематике), а
классифицироваться должны индивидуальные страницы narod.ru.
Вопрос/проблема:
Число страниц в narod.ru - 700.000+. категорий <250.
Вероятнее всего често построенные пулы для каждой категории
будут размерами минимум в несколько тысяч страниц.
Так много категорий не оценить.
Варианты:
- попросить выдавать численный критерий близости документа к теме
и при построении пула для конкретной категории
учитывать только первые N документов по весу из ответа каждой системы.
- при проверке выбрать подмножество narod.ru и
сузить ответы всех систем на это подмножество
(например, только сайты на букву a)
Как сузить - анонсируется после сбора результатов
(похоже на то, как мы делаем при выборе запросов для оценки)
Комментарии/предложения?
-igor