Формат представления результатов для дорожки классификации страниц
Результат классификации страниц представляется в виде одного XML файла
или нескольких файлов, каждый из которых содержит списки
назначенных категорий для некоторого множества классифицируемых сайтов.
XML файл должен иметь следующую структуру:
<?xml version="1.0"?>
<romip:taskresult xmlns:romip="http://www.romip.ru/data/classification" trackId="ROMIP-%YEAR%-Webpage-classification">
<!-- для классификации документов по нормативной коллекции trackId="ROMIP-%YEAR%-Legal-classification" -->
<romip:run>
<romip:systemID>Yellow</romip:systemID>
<romip:runID>MyRunId</romip:runID>
</romip:run>
<result>
<doclist topicID="240">
<docID>1524673</docID>
<docID>340876<docID>
</doclist>
<doclist topicID="184">
<docID>1328572</docID>
<docID>290443<docID>
<docID>1885078<docID>
</doclist>
</result>
</romip:taskresult>
ВНИМАНИЕ: В качестве docID указывается id документа (численный номер), а не
его URL.
Вместо %YEAR% укажите год текущего цикла РОМИП (например, 2009 для
РОМИП'2009).
Блок run характеризует систему, с помощью которой были предоставлены
результаты.
-
systemID - идентификатор системы, которые был предоставлен
организаторами при регистрации.
-
runID - идентификатор модификации системы, которая использовалась для этого
прогона (характеризует параметры эксперимента). Его форма определяется
участником самостоятельно.
Блок result описывает к каким темам относятся классифицируемые
страницы.
Порядок перечня документов в doclist отображает порядок выдачи результатов.
Идентификаторы отнесенных к категории (значение аттрибута topicID) документов
перечисляются в виде списка тегов document. Идентификаторы
документов и категорий должны соответствовать тем, что указаны в коллекции и
обучающем множестве.
|