РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Простой формат представления документов

Документы в коллекциях РОМИП представлены в виде XML.

Для каждого документа хранится следующая информация:
  • идентификатор (url для Web коллекции)
  • содержимое (без каких либо модификаций)
  • идентификатор коллекции (метка и дата создания)

Для уменьшения числа файлов в тестовой коллекции один xml файл содержит много отдельных документов.

Содержимое исходного документа хранится в кодировке BASE64 для того, чтобы сохранить его как можно ближе к оригиналу (его разметка может быть далека от XHTML, теоретически там вообще могут быть бинарные данные).

Пример документа оформленного в таком формате (XML файл)

<?xml version="1.0"?>
<romip:dataset xmlns:romip="http://www.romip.ru/data/common">

<collection>
   <collectionID>Название набора данных</collectionID>
   <date>Дата создания (характеризует время модификации 
		оригиналов документов)</date>
</collection>

<document>
  <docID>идентификатор (URL для narod.ru)</docID>
  <docURL>необязательный тег, содержащий полный оригинальный url для этой страницы</docURL>  
  <content encoding="base64">
    содержимое в base64, для того чтобы защититься от всего,
	что может сломать стандартный XML парсер (некорректный 
	HTML, бинарные данные, т.п.)
  </content>
</document>

<document>
  ... следующий документ ...
</document>

...

</romip:dataset>

Стандартный парсер

Для облегчения процесса обработки набора данных конкретной системой-участником с набором мы предоставляем стандартный парсер (очень простой), реализованный на java. Он может быть расширен для преобразования данных в любой удобный для вашей системы формат.

Отметим, что использование этого парсера не является обязательным и вы можите использовать любой другой инструмент.