потенциальных участника.
По поводу возможных постановок есть предложения Володи Плешко
http://groups.yahoo.com/group/romip/message/379?simple=1
Я пытался их обдумать и мне кажется можно попробовать их склеить,
чтобы повысить число участников. Например, так:
По заданному набору документов (новостной коллекции):
1) построить список всех имен собственных упоминающихся в коллекции
(для каждого упоминания указывать документ и смещение, где оно
появляется)
2) унифицировать полученный список, выделив "каноническое" название
каждого объекта (и связав с ним список альтернативных написаний названия)
3) классифицировать найденные объекты по заданным типам
(персона, организация, ...)
4) Для объектов нескольких заданных типов выделить факты.
(Факт - это фрагмент текста, описывающий событие связанное с этим объектом
(до 300 символов?))
5) Классифицировать выявленные факты по заданным типам.
Участник вправе выполнить только часть заданий (в порядке возрастания
номеров). При этом, например, вполне легально строить список только
имен собственных, включая только объекты типов, используемых для
классификации или выявлять факты только заданных типов.
То есть можно выполнять более узкую задачу.
Что фиксируется:
1) коллекция
2) типы объектов для классификации
3) типы фактов
Зачем? Чтобы повысить привлекательность дорожки для тех, кто пока не умеет
решать более сложную проблему

Замечание:
Для каждого подзадания будет вычислена своя оценка, так что каждый
участник получит оценку того, что было ему в этой дорожке интересно.
Как может выглядеть оценка (это отдельные этапы):
a) Оцениваем выделенные имена собственные и их классификацию
(асессор видит вхождение в тексте, и может выбрать
один из заданных типов, либо "Другое", либо "Не имя собственное")
b) Оцениваем качество отождествления
(тут на самом деле мне не совсем понятно как можно ставить задачу асессору
- оценивать каждую версию (каноническое название + алиасы) отдельно
или объединить ответы систем и потом оценивать?
c) Проверка фактов для некоторого подмножества выбранных объектов.
(видимо тех, которые смогли найти все системы участники
- по результатам пересечения множеств найденных, после отождествления)
Примерно как это было в РОМИП'2004, но можно сразу просить
асессора выбрать тип факта по шкале оддин_из_заданных/Другой/Ошибка)
Туманное место: непонятно можем ли реально проверить все объекты
на шаге a. Если их будет найдено очень много, то надо как-то сужать.
В принципе можно сюда же вставить и оценку референтных упоминаний, но
это немного туманно и задача уже и так большая, так что лучше это перенести
на будущее (возможно правильнее ее делать на фиксированном наборе
объектов, чтобы искать их упоминания).
О повторном использовании - в принципе почти все можно переиспользовать,
хотя проблемы с расхождением смещений у асессоров действительно могут быть.
Для названий объектов/имен собственных эта проблема скорее всего не так
актуальна, как для фактов (которые более расплывчаты).
Что хочется понять:
1. какие в этом подходе есть дыры?
(или почему он плох/не удобен/не интересен)
2. какие конкретно типы объектов нас интересуют?
- персона
- организация
- ??
3. какие типы фактов для каждого из типов объектов?
(2 и 3 надо согласовать вне зависимости от постановки задачи

-igor