РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Формат документов в новостной коллекции

Документы в коллекциях РОМИП представлены в виде XML.

Для каждого новостного документа хранится следующая информация:
  • идентификатор (некая строка)
  • тема новости
  • происхождение:
    • название новостного агенства
    • URL документа в Веб
  • информация о времени публикации
  • содержимое (без каких либо модификаций)

Для уменьшения числа файлов в тестовой коллекции один xml файл содержит много отдельных документов.

Содержимое и заголовок исходного документа хранится в кодировке BASE64.

Пример документа оформленного в таком формате (XML файл)

<?xml version="1.1"?>
<romip:dataset xmlns:romip="http://www.romip.ru/data/common" collectionId="ROMIP-2006-News">

<header>
 <version>1.1</version>
 <license type="yandex" uri="http://romip.ru/license/yandex.html"/>
 <collection-description>
      This is ROMIP news collection....
 </collection-description>
</header>

<document>
  <docID>040404-27793</docID>
  <docURL> URL документа в Веб в base 64</docURL>
  <subject encoding="base64"> тема новости в base64 </subject>
  <agency>название новостного агенства в base64</agency>
  <timestamp>
     <date>20040402</date>
     <daytime>50493</daytime>
  </timestamp>
  <content encoding="base64"> 
      содержимое в base64
  </content>
</document>

<document>
  ... следующий документ ...
</document>
...

</romip:dataset>