РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Веб коллекция DMOZ

Описание

Колекция, созданная на основе русскоязычной части каталога dmoz.org с целью получения разумного обучающего множества для задачи классификации Веб сайтов.

В колекцию были включены русскоязычные сайты, упоминающиеся в категориях второго уровня (начиная отсчет с World -> Russian), на страницах которых не было явного запрещения копирования содержимого этих сайтов. Для снижения размеров коллекции до разумных пределов для каждого сайта в коллекцию включалось не более 500 страниц, полученных обходом в ширину, начиная со стартовой страницы.

Статистика по набору данных
  • Число страниц: 300 000
  • Число сайтов: 2 100
  • Кодировка: cp1251 (исключения можно трактовать как мусор)
  • Область применения: обучающее множество
Права на использование

Авторские права принадлежат авторам страниц. В коллекцию не включались сайты, запрещающие копирование своего содержимого.

Распространение этой коллекции оргкомитетом РОМИП ограничено и доступ к ней предоставляется только желающим выполнить задания дорожки классификации Веб-сайтов. В этом случае также необходимо подписать соглашение об использовании.

Список дорожек, в которых использовалась коллекция