РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Веб коллекция BY.web

Описание

Коллекция построена компанией Яндекс как выборка из страниц домена .by, присутствовавших в индексе поисковой системы Яндекс по состоянию на май 2007 года. Коллекция строилась по следующему принципу: с каждого известного сайта из домена .by брались все страницы на глубину 3 ссылки от стартовой.

Статистика по набору данных
  • Объем данных: 8 GB
  • Кодировка: cp1251
Особенности коллекции

  • Процент ссылок, ведущих внутрь коллекции, порядка 25%.

Права на использование

Находится в открытом доступе.

Формат

Коллекция распространяется в виде xml файлов, определенного формата .

Список дорожек, в которых использовалась коллекция
  • поиск по коллекции Веб документов
  • поиск по смешанной коллекции
  • классификация Веб-сайтов
  • классификация Веб-страниц