РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Формат коллекций данных для тестирования в задаче классификации прямой и косвенной речи из новостного потока

Формат данных в коллекции новостных фрагментов:
<?xml version="1.0" encoding="windows-1251"?>
<document>
<sentence id="sentence_id">
    <speech type="speech_type">
      text
    </speech>
    <evaluation>
      no
    </evaluation>
    <url>
      url_address 
    </url>
</sentence>

Где:

  • sentence_id - идентификатор предложения;
  • speech_type - тип речи: прямая (direct) или косвенная (indirect);
  • text - текст фрагмента новости;
  • url_address - адрес новости в интернете;
Пример данных:
<sentence id="3192">
    <speech type="indirect">
      Перемены, по мнению экспертов да и самих единороссов, помогут партии власти не превратиться в "партию при власти" и позволят успешно конкурировать с "Общероссийским народным фронтом".
    </speech>
    <evaluation>
      no
    </evaluation>
    <url>
      http://www.7info.ru/index.php?nn=1333957828 
    </url>
  </sentence>