РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Веб коллекция Narod.Ru

Описание

Коллекция представляет собой псевдослучайную выборку из примерно 3% сайтов домена narod.ru с исключением всех сайтов, созданных исключительно с использованием стандартных шаблонов narod.ru. В набор включались только HTML документы. Размер ее по отношению ко всему российскому сегменту Интернет невелик, порядка 0.12-0.30%.

Статистика по набору данных
  • Объем HTML данных: 7+ Gb
  • Число страниц: 728 000+
  • Число сайтов: 22 000
  • Кодировка: cp1251 (исключения можно трактовать как мусор)
Права на использование

Права на использование в целях РОМИП предоставлены компанией Яндекс, являющейся владельцем коллекции. Для получения доступа к коллекции необходимо подписать соглашение об использовании.

Формат и парсер

Коллекция распространяется в виде xml файлов, определенного формата, которые разделены на 2 группы - narod.* и narod_training.*. Файлы из второй группы содержат документы, относящиеся к обучающему множеству, использующемуся для дорожки классификации Веб документов.

Список дорожек, в которых использовалась коллекция
  • поиск по коллекции Веб документов
  • поиск по смешанной коллекции
  • поиск по документу-образцу
  • классификация Веб-сайтов
  • классификация Веб-страниц
  • фактографический поиск
  • вопросно-ответный поиск
  • контекстно-зависимое аннотирование текстовых документов
  • Дорожка вопросно-ответного поиска