by vladimir_pleshko » Wed Apr 20, 2005 8:30 am
> У меня только два основных пожелания:
> 1. Целевых объектов должно быть много - существенно больше,
> чем будут оценивать асессоры
Так будем ли мы настраиваться на целевые объекты или нет?
По-моему, идея оценки числа разных фактов в досье была ваша, Дмитрий. Задачу мы
вроде понимаем одинаково. Прошу вас, предложите конкретный приемлемый для вас
вариант. Я уже иссяк...
Ведь все проблемы, оговорки и дополнительные условия появляются из-за попытки
оценить полноту досье.
Если рассматривать просто задачу поиска фактов заданного типа с выделением
фигурантов, но без их отождествления, то здесь очень много степеней свободы -
можно и имена синтезировать, и референтов выделять (а можно и не выделять и не
синтезировать) - ассессоры проверят.
> 2. Схлопывание одинаковых фактов
> (не просто полных дублей, а поинтереснее ) в этом году не оцениваем
Отсев полных дублей может автоматически сделать инструмент для оценки. Системе
это делать вовсе не обязательно.
Оценка полноты досье в такой постановке может быть сделана автоматически.
Задание может быть выполнено за один проход.
Насколько я помню, был еще разговор, чтобы не выделять факты, содержащие
фигурантов в виде референтов без явного наименования организации или части имени
персоны, и не синтезировать имя фигуранта, давать его в таком виде, как оно
встретилось в тексте. Дмитрий, поправьте, если я ошибаюсь.
В этом случае можно ввести некоторую избыточность:
1. Имя фигуранта
2. смещение и длина его в документе
Если не совпадает - факт автоматически отбраковывается инструментом оценки.
Надеюсь, в коллекции новости изложены в виде плоского текста или с минимальной
html-разметкой.
> Когда именно выделять эти объекты: до выполнения первого
> задания или после, действительно, не так принципиально.
В данном случае, этот вопрос теряет актуальность.
С уважением,
Владимир Плешко