| |
Формат коллекций данных для обучения в задаче классификации прямой и косвенной речи из новостного потока
Формат данных в коллекции новостных фрагментов:
<?xml version="1.0" encoding="windows-1251"?>
<document>
<sentence id="sentence_id">
<speech type="speech_type">
text
</speech>
<evaluation>
evaluation_mark
</evaluation>
<url>
url_address
</url>
</sentence>
Где:
-
sentence_id - идентификатор предложения;
-
speech_type - тип речи: прямая (direct) или косвенная (indirect);
-
text - текст фрагмента новости;
-
evaluation_mark - оценка, поставленная асессором. Может принимать одно из следующих значений: +, -, +-, 0;
-
url_address - адрес новости в интернете;
Пример данных:
<sentence id="3192">
<speech type="indirect">
Перемены, по мнению экспертов да и самих единороссов, помогут партии власти не превратиться в "партию при власти" и позволят успешно конкурировать с "Общероссийским народным фронтом".
</speech>
<evaluation>
+
</evaluation>
<url>
http://www.7info.ru/index.php?nn=1333957828
</url>
</sentence>
|