by vladimir_pleshko » Thu Apr 21, 2005 9:10 am
Наконец-то появилось время...
Мне казалось, что мы пришли к следующему:
1. Задание по поиску фактов выполняется участниками за один шаг.
Осуществляется поиск фактов заданного типа для всех объектов без учета
референций.
В качестве ответа даются пятерки:
.
опора в тексте - служит для проверки, особых ограничений на нее вводить не
стоит.
Участникам рекомендуется приводить наименования найденных объектов в исходную
форму (морфологическую) - для облегчения оценки полноты досье. С учетом этого, я
должен признать, что вариант ответа с наименованием объекта, ссылкой (смещение,
длина) на текст с требованием их совпадения не проходит.
2. Оценка традиционных полноты и точности выполняется традиционным методом.
3. Затем автоматически создается словарь всех объектов из проверенных корректных
фактов, и наиболее частотные наименования объектов выбираются организаторами для
оценки полноты досье. Этот список раздается участникам. После чего участники и
организаторы совместно составляют списки синонимов для объектов.
После согласования списков синонимов оценка полноты досье осуществляется
автоматически инструментом оценки. Дубликатами фактов для заданного объекта
считаются факты одинакового типа, у которых второй фигурант совпадает дословно
(первый фигурант - сам объект, совпадает с точностью до синонима).
> 1. Из коллекции раздается некоторое количество персон и имен компаний.
> Этот список утрясается с участниками. Для компаний самими
> участниками руками определяются альтернативные названия.
> (Например, Тюменская Нефтяная Компания - ТНК, Ковдорский
> Горнообогатительный Комбинат - Ковдорский ГОК)
Можно и так. Это как раз я и предлагал сначала. Но вариант, описанный выше, к
которому, как мне показалось, мы пришли в ходе обсуждения по телефону, мне
кажется более простым.
> 2.При ответе на утвержденные вопросы про компаниии результаты
> собираются в кусты для одинаковых компаний с учетом
> альтернативных названий, при ответе на вопросы про людей
> результаты также группируем вокруг одинаковых ФИО.
> Референтные обозначения не используются.
Так. Но на этапе 3.
> (Остался только один вопрос: Сливаем ли мы в одну группу
> ответы про, например, А.Петрова и Андрея Петрова и т.д.? )
На этапе 3, после выполнения задания списки будут соглавовываться для каждого
объекта. Здесь налицо омонимия. Если исходить из требования лемматизации
(стандартизации) наименования, то омонимия должна быть снята системой на этапе
1. Думаю таких случаев будет мало. Если среди сотни фактов об Андрее_Петрове
будет несколько про А_Петрову, то ничего страшного - это сравнимо с погрешностью
самих ассессоров. Если частоты будут примерно равны, то объект не будет включен
в оценку.
> Оценка:
> 1. Полнота/точность - традиционные
> 2. Полнота досье - число уникальных фактов, найденных для объекта.
> Определение уникальности факта дается на откуп асессорам.
Последняя моя мысль была, чтобы сделать это автоматически.
С уважением,
Владимир Плешко