Тестовые коллекции

Дорожки 2012

Архив

2003

2004

Простой формат представления документов

Документы в коллекциях РОМИП представлены в виде XML.

Для каждого документа хранится следующая информация:

идентификатор (url для Web коллекции)
содержимое (без каких либо модификаций)
идентификатор коллекции (метка и дата создания)

Для уменьшения числа файлов в тестовой коллекции один xml файл содержит много отдельных документов.

Содержимое исходного документа хранится в кодировке BASE64 для того, чтобы сохранить его как можно ближе к оригиналу (его разметка может быть далека от XHTML, теоретически там вообще могут быть бинарные данные).

Пример документа оформленного в таком формате (XML файл)

<?xml version="1.0"?>
<romip:dataset xmlns:romip="http://www.romip.ru/data/common">

<collection>
   <collectionID>Название набора данных</collectionID>
   <date>Дата создания (характеризует время модификации 
		оригиналов документов)</date>
</collection>

<document>
  <docID>идентификатор (URL для narod.ru)</docID>
  <docURL>необязательный тег, содержащий полный оригинальный url для этой страницы</docURL>  
  <content encoding="base64">
    содержимое в base64, для того чтобы защититься от всего,
	что может сломать стандартный XML парсер (некорректный 
	HTML, бинарные данные, т.п.)
  </content>
</document>

<document>
  ... следующий документ ...
</document>

...

</romip:dataset>

Стандартный парсер

Для облегчения процесса обработки набора данных конкретной системой-участником с набором мы предоставляем стандартный парсер (очень простой), реализованный на java. Он может быть расширен для преобразования данных в любой удобный для вашей системы формат.

Отметим, что использование этого парсера не является обязательным и вы можите использовать любой другой инструмент.