RE: [romip] План РОМИП'2005 - QA

(read only)

Postby vladimir_pleshko » Tue Jan 18, 2005 1:47 pm

Попытаюсь сформулировать свое видение дорожки QA, точнее возможные варианты
проведения.

Для всего, что написано ниже, весьма актуальным вопросом является коллекция для
дорожки. На мой взгляд, это должны быть материалы СМИ. Коллекция не должна быть
большой - иначе в некоторых постановках будет слишком много работы для
оценщиков.

1. Извлечение объектов
На текущий момент потенциально интересно для:
- Гарант-Парк-Интернет
- Интегрум
- УИС Россия

Из заданного документа выделить все упоминания объектов заданных типов.
Возможные типы:
- персона,
- организация,
...

Ответом системы для пары может быть тройка:
- тип объекта,
- строка с наименованием объекта (по мнению системы),
- список пар (в исходном документе).

При этом можно вести дополнительный зачет по нахождению референтных наименований
объекта (система указывает, что "он", "компания", "банк", "ГОК" на самом деле
являются объектом упомянутым в тексте ранее).

Нужно будет преодолеть трудности с оценкой и повторным использованием. Ведь
смещения и длины, возвращаемые системами по одному и тому же объекту могут
отличаться. Из опыта проведения дорожки QA'2004 - ассессор мог корректировать
смещение и длину фрагмента. Однако, не факт, что ассессоры будут устанавливать
одинаковые смещения для одного и того же объекта. Чтобы получить корпус, нужна
процедура объединения результатов.

Еще одна проблема. Каждая система может синтезировать наименование объекта
по-своему ("компания ТрамБамСтрой", "ООО ТрамБамСтрой", "ТрамБамСтрой"), в
зависимости от того, какое упоминание в тексте она нашла первым или посчитала
более полным или решила, что оно наиболее общее и т.д. Как их отождествлять?
Следует ли штрафовать систему, если она не различит варианты наименования одного
и того же объекта?

После того, как я это написал, у меня сложилось ощущение, что объективно можно
оценивать только факты, что
- данный фрагмент текста является наименованием объекта заданного типа;
- перечисленные фрагменты текста являются упоминаниями/наименованиями одного и
того же объекта.
Тогда "стандартизованное" наименование объекта для создания корпуса ассессор
сможет выбрать, например, щелкнув мышью, по выделенному фрагменту текста с
наименованием объекта.

2. Составление досье
На текущий момент потенциально интересно для:
- Гарант-Парк-Интернет
- Интегрум

Имеются два варианта постановки
2.1. Из заданного документа выделить факты заданных типов для объектов заданных
типов. (Дмитрий, Лев)
2.2. Из заданного документа выделить факты заданных типов для заданного списка
объектов (РОМИП'2004).

Для каждого типа факта должно быть четко указано, что требуется выдать в
качестве результата (дату, место, имя персоны, наименование организации,
количество, ...)
Т.е. ответ системы может состоять из:
- тип факта/атрибута,
- наименование объекта (2.1) / ИД объекта (2.2),
- точного ответа,
- ссылки на опору в тексте.

Следует отметить, что постановка 2.2 допускает участие систем, извлекающих в
качестве ответа фрагмент текста (по названию объекта можно найти фрагмент текста
+ пошаманив с лексикой и иными формальными признаками для заданного типа факта
можно решить, содержится от ответ в данном фрагменте).

Предметом "торга" на этой дорожке является перечень атрибутов. Мне кажется, их
должно быть немного, штук 5, и они должны, по возможности, пересекаться с тем,
что уже наработано участниками.

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

Return to Объявления Оргкомитета

Who is online

Users browsing this forum: No registered users and 11 guests

cron