РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Формат представления результатов для дорожки классификации

Результат классификации представляется в виде одного XML файла или нескольких файлов, каждый из которых содержит содержит списки назначенных категорий для некоторого множества классифицируемых сайтов.

XML файл должен иметь следующую структуру:

<?xml version="1.0"?>
<romip:taskresult xmlns="http://www.romip.ru/data/classification" trackId="ROMIP-2005-Web-classification">
<!-- для классификации документов по нормативной коллекции trackId="ROMIP-2005-Legal-classification" -->
<!-- для классификации Веб-страниц trackId="ROMIP-2005-Webpage-classification" -->

<romip:run> <romip:systemID>Yellow</romip:systemID> <romip:runID>MyRunId</romip:runID> </romip:run>
<result> <document name="www.frisbee.ru"> <topic>240</topic> </document> <document name="www.ularams.ru"> <topic>184</topic> <topic>202</topic> <topic>131</topic> <topic>163</topic> </document> </result> </romip:taskresult>
Блок run характеризует систему с помощью которой были предоставлены результаты.
  • systemID - идентификатор системы, которые был предоставлен организаторами при регистрации.
  • runID - идентификатор модификации системы, которая использовалась для этого прогона (характеризует параметры эксперимента). Его форма определяется участником самостоятельно.

Блок result описывает к каким темам относятся классифицируемые элементы.

Для дорожки классификации Веб-сайтов элементами (тег document) являются сайты (как в этом примере, идентификатор - название сайта), а в случае классификации документов - документы (идентификатор документа - то, что находилось в теге document при описании этого документа в коллекции). Идентификаторы указываются как значение аттрибута name тега document.

Идентификаторы назначенных категорий перечисляются в виде списка тегов topic. Идентификатор для категории указан в файле с описанием обучающего множества.

Внимание: Для ограничения объема выдаваемых результатов установлен максимальный предел в пять категорий для одного элемента.