romip.ru

by **neigor** » Mon Apr 11, 2005 11:52 am

На данный момент здесь у нас есть две заявки и два сомневающихся
потенциальных участника.

По поводу возможных постановок есть предложения Володи Плешко
http://groups.yahoo.com/group/romip/message/379?simple=1

Я пытался их обдумать и мне кажется можно попробовать их склеить,
чтобы повысить число участников. Например, так:

По заданному набору документов (новостной коллекции):
1) построить список всех имен собственных упоминающихся в коллекции
(для каждого упоминания указывать документ и смещение, где оно
появляется)
2) унифицировать полученный список, выделив "каноническое" название
каждого объекта (и связав с ним список альтернативных написаний названия)
3) классифицировать найденные объекты по заданным типам
(персона, организация, ...)
4) Для объектов нескольких заданных типов выделить факты.
(Факт - это фрагмент текста, описывающий событие связанное с этим объектом
(до 300 символов?))
5) Классифицировать выявленные факты по заданным типам.

Участник вправе выполнить только часть заданий (в порядке возрастания
номеров). При этом, например, вполне легально строить список только
имен собственных, включая только объекты типов, используемых для
классификации или выявлять факты только заданных типов.
То есть можно выполнять более узкую задачу.

Что фиксируется:
1) коллекция
2) типы объектов для классификации
3) типы фактов

Зачем? Чтобы повысить привлекательность дорожки для тех, кто пока не умеет
решать более сложную проблему

Замечание:
Для каждого подзадания будет вычислена своя оценка, так что каждый
участник получит оценку того, что было ему в этой дорожке интересно.

Как может выглядеть оценка (это отдельные этапы):
a) Оцениваем выделенные имена собственные и их классификацию
(асессор видит вхождение в тексте, и может выбрать
один из заданных типов, либо "Другое", либо "Не имя собственное")
b) Оцениваем качество отождествления
(тут на самом деле мне не совсем понятно как можно ставить задачу асессору
- оценивать каждую версию (каноническое название + алиасы) отдельно
или объединить ответы систем и потом оценивать?
c) Проверка фактов для некоторого подмножества выбранных объектов.
(видимо тех, которые смогли найти все системы участники
- по результатам пересечения множеств найденных, после отождествления)
Примерно как это было в РОМИП'2004, но можно сразу просить
асессора выбрать тип факта по шкале оддин_из_заданных/Другой/Ошибка)

Туманное место: непонятно можем ли реально проверить все объекты
на шаге a. Если их будет найдено очень много, то надо как-то сужать.

В принципе можно сюда же вставить и оценку референтных упоминаний, но
это немного туманно и задача уже и так большая, так что лучше это перенести
на будущее (возможно правильнее ее делать на фиксированном наборе
объектов, чтобы искать их упоминания).

О повторном использовании - в принципе почти все можно переиспользовать,
хотя проблемы с расхождением смещений у асессоров действительно могут быть.
Для названий объектов/имен собственных эта проблема скорее всего не так
актуальна, как для фактов (которые более расплывчаты).

Что хочется понять:
1. какие в этом подходе есть дыры?
(или почему он плох/не удобен/не интересен)
2. какие конкретно типы объектов нас интересуют?
- персона
- организация
- ??
3. какие типы фактов для каждого из типов объектов?

(2 и 3 надо согласовать вне зависимости от постановки задачи

-igor

by **vladimir_pleshko** » Wed Apr 13, 2005 12:52 pm

Общие замечания:
1. Шаг 2 для персон корректно выполнять только в рамках одного документа.
Можно поставить задачу идентификации персон в рамках коллекции,
но она так просто не решается. Помимо имени, нужно будет выделять
еще и дополнительную информацию, например, должность или род занятий.
Для организаций все ОК - т.е. вероятность ложного отождествления мала.

2. Тяжело представить себе систему, которая выполнит шаг 1 и не
выполнит шаг 3.

3. На шаге 4 хотелось бы предусмотреть не только опору в тексте, но и
точный ответ, синтезированный системой. Причем формат ответа нужно
зафиксировать - для возможности повторного использования.

4. Я готов пожертвовать шагами 4-5 в пользу нахождения референтных
упоминаний.

> По заданному набору документов (новостной коллекции):
> 1) построить список всех имен собственных упоминающихся в коллекции
> (для каждого упоминания указывать документ и смещение, где оно
> появляется)
> 2) унифицировать полученный список, выделив "каноническое" название
> каждого объекта (и связав с ним список альтернативных
> написаний названия)
> 3) классифицировать найденные объекты по заданным типам
> (персона, организация, ...)
> 4) Для объектов нескольких заданных типов выделить факты.
> (Факт - это фрагмент текста, описывающий событие
> связанное с этим объектом
> (до 300 символов?))

Не столь важно. Пускай будет 300.

> 5) Классифицировать выявленные факты по заданным типам.
>
...

Я бы сформулировал задачу так.

Для каждого документа из коллекции построить
1. Списки объектов
1.1. Персон
1.2. Организаций
С каждым объектом связать фрагменты документа с его референтами
(краткие, альтернативные, местоименные обозначения).

2. Списки фактов
2.*. Типы фактов оговариваются
С каждым фактом связать фрагмент документа, а также точный ответ,
зависящий от типа факта. Ответ, независимо от типа факта и способа
формирования (точный/фрагмент), должен содержать название объекта,
для которого факт найден.

При оценке отбирается подмножество документов (на сколько хватит
ресурсов). Оценка осуществляется подокументно. Отдельно для каждой
системы.

Не беда, что стандартизованные названия объектов будут различаться.
Результаты систем на проверенных документах легко склеить.
Если множества алиасов/референтов пересекаются, то это один
и тот же объект.

При оценке 1.*. каждому вхождению в текст каждого объекта
выставляется оценка
- OK
- не имя собственное (можно проставлять на уровне списка объектов)
- неверный тип (можно проставлять на уровне списка объектов)
- неверный референт (алиас, местоимение)

При оценке 2.*. каждому факту выставляется оценка
- ОК
- не относится к объекту
- неверный тип
- ошибка в точном ответе

Шкалы нужно продумать.

> 2. какие конкретно типы объектов нас интересуют?
> - персона
> - организация
> - ??

В этом году только персоны и организации.

> 3. какие типы фактов для каждого из типов объектов?
>

Напишу, через пару дней.

С уважением,
Владимир Плешко

by **d_pankrat** » Wed Apr 13, 2005 5:40 pm

Hello Плешко,

Wednesday, April 13, 2005, 4:52:35 PM, you wrote:

ПВ> Общие замечания:
ПВ> 1. Шаг 2 для персон корректно выполнять только в рамках одного документа.
ПВ> Можно поставить задачу идентификации персон в рамках коллекции,
ПВ> но она так просто не решается. Помимо имени, нужно будет выделять
ПВ> еще и дополнительную информацию, например, должность или род занятий.
ПВ> Для организаций все ОК - т.е. вероятность ложного отождествления мала.

ПВ> 2. Тяжело представить себе систему, которая выполнит шаг 1 и не
ПВ> выполнит шаг 3.

ПВ> 3. На шаге 4 хотелось бы предусмотреть не только опору в тексте, но и
ПВ> точный ответ, синтезированный системой. Причем формат ответа нужно
ПВ> зафиксировать - для возможности повторного использования.

ПВ> 4. Я готов пожертвовать шагами 4-5 в пользу нахождения референтных
ПВ> упоминаний.

>> По заданному набору документов (новостной коллекции):
>> 1) построить список всех имен собственных упоминающихся в коллекции
>> (для каждого упоминания указывать документ и смещение, где оно
>> появляется)
>> 2) унифицировать полученный список, выделив "каноническое" название
>> каждого объекта (и связав с ним список альтернативных
>> написаний названия)
>> 3) классифицировать найденные объекты по заданным типам
>> (персона, организация, ...)
>> 4) Для объектов нескольких заданных типов выделить факты.
>> (Факт - это фрагмент текста, описывающий событие
>> связанное с этим объектом
>> (до 300 символов?))

ПВ> Не столь важно. Пускай будет 300.

>> 5) Классифицировать выявленные факты по заданным типам.
>>
ПВ> ...

Всем добрый день!

ПВ> Для каждого документа из коллекции построить
ПВ> 1. Списки объектов
ПВ> 1.1. Персон
ПВ> 1.2. Организаций
ПВ> С каждым объектом связать фрагменты документа с его референтами
ПВ> (краткие, альтернативные, местоименные обозначения).

Согласны с такой постановкой.
Правда, есть ли ясность в том, что такое организация? Например,

организация? А или ? Или полагаемся на интуицию
участников? Каких-то понятных критериев здесь не найти, боюсь...

ПВ> 2. Списки фактов
ПВ> 2.*. Типы фактов оговариваются
ПВ> С каждым фактом связать фрагмент документа, а также точный ответ,
ПВ> зависящий от типа факта. Ответ, независимо от типа факта и способа
ПВ> формирования (точный/фрагмент), должен содержать название объекта,
ПВ> для которого факт найден.

ПВ> При оценке отбирается подмножество документов (на сколько хватит
ПВ> ресурсов). Оценка осуществляется подокументно. Отдельно для каждой
ПВ> системы.

Как раз в этой части задачи, может быть имело бы смысл учитывать всю
коллекцию. Задача формулировалась бы так: для указанных объектов типа персона
(или организация) найти как можно больше информации заданного типа из
данной коллекции. Персоны или Организации, для которых ищутся факты,
можно было бы извлечь автоматически из коллекции и выбарать руками N
достаточно очевидных для всех и информативных объектов. Про проблему
разделения\отождествления похожих объектов здесь, действительно, можно
пока не упоминать. Тогда оценка строилась бы не только исходя из
правильности\неправильности факта, но еще и учитывалась бы полнота
собранной информации. Правда, в этом случае ответ должен быть именно
точным (а не в виде фрагмента текста), чтобы давать только уникальные
(схлопывать хотя бы посимвольно совпадающие) ответы.

С уважением,
Дмитрий Панкратов.

by **vladimir_pleshko** » Wed Apr 13, 2005 6:40 pm

> ПВ> Для каждого документа из коллекции построить 1. Списки
> объектов 1.1.
> ПВ> Персон 1.2. Организаций С каждым объектом связать фрагменты
> ПВ> документа с его референтами (краткие, альтернативные,
> местоименные
> ПВ> обозначения).
>
> Согласны с такой постановкой.
> Правда, есть ли ясность в том, что такое организация?
> Например, автономного округа > организация? А оказанию помощи югославии > или можайска >? Или полагаемся на интуицию участников? Каких-то
> понятных критериев здесь не найти, боюсь...

Согласен, что оценка будет больше на интуиции. Формально, организацией
можно считать все, что зарегистрировано в ЕГРЮЛ :-) Но что делать с
иностранными фирмами, госструктурами, партиями, движениями, нелегальными
организациями... Пока не выполним задания, понятно не будет.

> ПВ> 2. Списки фактов
> ПВ> 2.*. Типы фактов оговариваются
> ПВ> С каждым фактом связать фрагмент документа, а также точный ответ,
> ПВ> зависящий от типа факта. Ответ, независимо от типа факта
> и способа
> ПВ> формирования (точный/фрагмент), должен содержать название
> объекта,
> ПВ> для которого факт найден.
>
> ПВ> При оценке отбирается подмножество документов (на сколько хватит
> ПВ> ресурсов). Оценка осуществляется подокументно. Отдельно
> для каждой
> ПВ> системы.
>
> Как раз в этой части задачи, может быть имело бы смысл
> учитывать всю коллекцию. Задача формулировалась бы так: для
> указанных объектов типа персона (или организация) найти как
> можно больше информации заданного типа из данной коллекции.
> Персоны или Организации, для которых ищутся факты, можно было
> бы извлечь автоматически из коллекции и выбарать руками N
> достаточно очевидных для всех и информативных объектов. Про
> проблему разделения\отождествления похожих объектов здесь,
> действительно, можно пока не упоминать. Тогда оценка
> строилась бы не только исходя из правильности\неправильности
> факта, но еще и учитывалась бы полнота собранной информации.
> Правда, в этом случае ответ должен быть именно точным (а не в
> виде фрагмента текста), чтобы давать только уникальные
> (схлопывать хотя бы посимвольно совпадающие) ответы.

Это формулировка прошлого года только с возможностью выдачи
точного ответа. Проблема - в описании объектов и наличии достаточной
фактуры в коллекции. Под описанием объекта(персоны) я понимаю
информацию о поле (с большой вероятностью можно определеить по ФИО),
должности, прозвищах и т.п. Для организаций в описание должны
включаться синонимы... Под фактурой - чтобы что-то было написано
о персоне в коллекции. Наврядли удастся подготовить такие описания
в сжатые сроки и способом "независимым" от систем участников.

Результаты систем в предлагаемой мной постановки можно будет обработать
и создать перечень объектов с описаниями. Такой перечень будет "объективным",
т.к. построен на основе результатов всех систем.

Затем, если останется время, можно будет провести второй прогон по той
же коллекции с целью построения досье по объектам. И оценивать корректность
собранной в досье информации. Это, как мне кажется, не очень трудоемко.

В худшем случае, у нас будет готовая постановка на следующий цикл РОМИП.

Есть еще один вариант. Повторить прошлогоднюю дорожку QA, но с точными
ответами. Здесь специфика: narod.ru - это далеко не материалы СМИ, целевые
объекты - исторические деятели.

С уважением,
Владимир Плешко

by **neigor** » Thu Apr 14, 2005 9:25 am

> 1. Шаг 2 для персон корректно выполнять только в рамках одного документа.
> Можно поставить задачу идентификации персон в рамках коллекции,
> но она так просто не решается. Помимо имени, нужно будет выделять
> еще и дополнительную информацию, например, должность или род занятий.
> Для организаций все ОК - т.е. вероятность ложного отождествления мала.

ok, в принципе согласен.

> 2. Тяжело представить себе систему, которая выполнит шаг 1 и не
> выполнит шаг 3.

Это потому, что на шаге 1 я предлагал выделять все "имена собственные",
а не только персоналии/компании.

> При оценке 1.*. каждому вхождению в текст каждого объекта
> выставляется оценка
> - OK
> - не имя собственное (можно проставлять на уровне списка объектов)
> - неверный тип (можно проставлять на уровне списка объектов)
> - неверный референт (алиас, местоимение)

а почему лучше спрашивать верный/неверный тип,
а не предлагать асессору самому выбрать верный?
При малом числе типов сложность решения вроде не такая высокая.

> Но давайте попробуем утвердить хоть какой-нибудь список фактов о
> Персоне и Организации,
> которые система вытащит из коллекции.

Хочу отметить специфику коллекции - возможно фактов этих видов
там не так уж много.

Для примера можно посмотреть на http://news.yandex.ru/ или
http://regnum.ru/

Там есть другие сущности - например,
географические и административные субъекты, правительство и всякие комитеты,
спортивные клубы, ...

Возможно интересные типы фактов
- принятые решения или законы
- изменения финансовых показателей (котировок) акций компании

Может быть стоит несколько адаптировать классы сущностей/факты
к реально доступным в наборе?

-igor

by **d_pankrat** » Thu Apr 14, 2005 9:26 am

ПВ> Это формулировка прошлого года только с возможностью выдачи
ПВ> точного ответа. Проблема - в описании объектов и наличии достаточной
ПВ> фактуры в коллекции. Под описанием объекта(персоны) я понимаю
ПВ> информацию о поле (с большой вероятностью можно определеить по ФИО),
ПВ> должности, прозвищах и т.п. Для организаций в описание должны
ПВ> включаться синонимы... Под фактурой - чтобы что-то было написано
ПВ> о персоне в коллекции. Наврядли удастся подготовить такие описания
ПВ> в сжатые сроки и способом "независимым" от систем участников.

ПВ> Результаты систем в предлагаемой мной постановки можно будет обработать
ПВ> и создать перечень объектов с описаниями. Такой перечень будет
"объективным",
ПВ> т.к. построен на основе результатов всех систем.

Но давайте попробуем утвердить хоть какой-нибудь список фактов о
Персоне и Организации,
которые система вытащит из коллекции.

Например:
о Персоне
1. Где и кем данный человек работал.
2. Можно выделить отдельно случай назначений и отставок.
3. Когда и где человек родился, что заканчивал.

об Организации
1. Владельцы компании (физ. и юр. лица). Доля во владении.
2. Дочерние компании.
3. Покупки организаций физ. и юр. лицами.

Это те ситуации, которыми мы сейчас занимаемся. Мы готовы (и, может
быть, даже интереснее было бы) принять любой другой список ситуаций,
правда, хотелось бы (и, кажется, не только нам), чтобы они все имели
отношение к персоне или организации.

Ситуация покупки компании другой компанией на примере фразы
" 8 февраля 2005 один из крупнейших металлургических
комбинатов
России ОАО Северсталь приобретет около 60 процентов
сталелитейной
компании Lucchini за 450 миллионов евро ( $578 миллионов
) ,
сообщили во вторник итальянские газеты ."
могла бы быть представлена так:

ПОКУПАТЕЛЬ: Северсталь
ПРЕДМЕТ ПОКУПКИ: Lucchini
ДОЛЯ: 60 процентов (60%)
ЦЕНА: 450 миллионов евро (450 000 000 евро)
ДАТА: 8 февраля 2005 года (08.02.2005)

Допустим ДОЛЯ, ЦЕНА и ДАТА - необязательные поля.

Сложности возникнут при оценке полноты. Если мы фиксируем подмножество
коллекции, то можно так (что-то типа "общего котла"):

1. Фиксируем тип ситуации (например "Покупка"). Договариваемся об
обязательных полях.
2. отбираем ото всех участников только правильные факты
3. объединяем их в общий котел (асессору придется отождествить рукам
факты, совпадающие с точностью до нормализации имени компании или
персон.
Например, "ОАО Северсталь", "Северсталь", "Северсталью" считаем
одинаковыми.)
4. считаем долю ответов каждого участника.

ПВ> С уважением,
ПВ> Владимир Плешко

by **vladimir_pleshko** » Thu Apr 14, 2005 1:39 pm

> Но давайте попробуем утвердить хоть какой-нибудь список
> фактов о Персоне и Организации, которые система вытащит из коллекции.
>
Вот наш вариант списка:

1. Кто владеет или владел данной организацией?
2. Какими предприятиями владеет или владела данная организация/персона?
3. С кем встречалась данная персона?
4. С кем у данной персоны/организации имеются договоренности (не обязательно
формальные)?
5. С кем сотрудничает данная организация/персона?
6. Что покупала (приобретала) данная организация/персона?
7. В конфликтах, скандалах с кем замешана данная организация/персона?
8. Чего опасается данная организация/персона?
9. Что планирует данная организация/персона?

+Замечание Александра Ермакова:
Считаю, что к фактам относятся любые упоминания о событиях соответствующего
класса, без учета указаний в тексте об их реальности, возможности, времени и
прочего - т.е. без учета модальных и илокутивных характеристик высказывания.
Т.е., если написано "планирует купить", "будет ли покупать" "якобы купил" -
значит, это все равно относится к факту покупки, так как нет дыма без огня, а
понять, факт это или артефакт машина все равно не сможет (тут прокурор нужен).
Например, "Иванов утверждает, что он не покупал эту компанию, однако есть
данные, что ...",

> Например:
> о Персоне
> 1. Где и кем данный человек работал.
> 2. Можно выделить отдельно случай назначений и отставок.
Лучше 1 и 2 объединить, но можем и подстроиться.

> 3. Когда и где человек родился, что заканчивал.
Не очень интересно.

> об Организации
> 1. Владельцы компании (физ. и юр. лица). Доля во владении.
> 2. Дочерние компании.
Не очень понятно, как выражается в тексте признак "Дочернности" компании, кроме
как явно "дочка", "дочерняя ХХХ". Если это так, то уж очень тривиально.
Может, объединить 1 и 2?

> 3. Покупки организаций физ. и юр. лицами.
ОК

> Это те ситуации, которыми мы сейчас занимаемся. Мы готовы (и,
> может быть, даже интереснее было бы) принять любой другой
> список ситуаций, правда, хотелось бы (и, кажется, не только
> нам), чтобы они все имели отношение к персоне или организации.
>
Нам бы тоже этого хотелось.

> Ситуация покупки компании другой компанией на примере фразы
> " 8 февраля 2005 один из крупнейших
> металлургических комбинатов
> России ОАО Северсталь приобретет около 60
> процентов сталелитейной
> компании Lucchini за 450 миллионов евро (
> $578 миллионов ) ,
> сообщили во вторник итальянские газеты ."
> могла бы быть представлена так:
>
> ПОКУПАТЕЛЬ: Северсталь
> ПРЕДМЕТ ПОКУПКИ: Lucchini
> ДОЛЯ: 60 процентов (60%)
> ЦЕНА: 450 миллионов евро (450 000 000 евро)
> ДАТА: 8 февраля 2005 года (08.02.2005)
>
> Допустим ДОЛЯ, ЦЕНА и ДАТА - необязательные поля.
>
Примерно так мы себе результат и представляем.

> Сложности возникнут при оценке полноты. Если мы фиксируем
> подмножество коллекции, то можно так (что-то типа "общего котла"):
>
> 1. Фиксируем тип ситуации (например "Покупка").
> Договариваемся об обязательных полях.
> 2. отбираем ото всех участников только правильные факты 3.
> объединяем их в общий котел (асессору придется отождествить
> рукам факты, совпадающие с точностью до нормализации имени
> компании или персон.
> Например, "ОАО Северсталь", "Северсталь", "Северсталью" считаем
> одинаковыми.)
> 4. считаем долю ответов каждого участника.
>
Такой способ оценки вполне имеет право на жизнь - полнота с микроусреднением и
подсчетом уникальных фактов.
Если будет много фактов по объектам - задача выделения уникальных будет
неподъемной.
Автоматически, путем точного сравнения полей - задача не решается. Средства для
отождествления, предоставленные кем-либо из участников, лишат оценку
"объективности".

С уважением,
Владимир Плешко

by **neigor** » Thu Apr 14, 2005 3:18 pm

> > > 2. Тяжело представить себе систему, которая выполнит шаг 1 и не
> > > выполнит шаг 3.
> >
> > Это потому, что на шаге 1 я предлагал выделять все "имена
> > собственные", а не только персоналии/компании.
> >
> Возможно, так более правильно. Но подозреваю, что все будут выделять
> только персоны и организации.

ну и пусть кто хочет ищет только персоны и организации,
а кто хочет шире - пусть ищет шире.

> > > При оценке 1.*. каждому вхождению в текст каждого объекта
> > выставляется
> > > оценка
> > > - OK
> > > - не имя собственное (можно проставлять на уровне списка объектов)
> > > - неверный тип (можно проставлять на уровне списка объектов)
> > > - неверный референт (алиас, местоимение)
> >
> > а почему лучше спрашивать верный/неверный тип, а не
> > предлагать асессору самому выбрать верный?
> > При малом числе типов сложность решения вроде не такая высокая.
> >
> На самом деле, я просто перечислил решения, которые должен принять
> ассессор. Здесь любой способ годится. Главное - максимизировать
> производительность труда ассессора.

тут есть две принципиальные вещи:
1) чем очевиднее решение, тем надежнее результаты
2) в случае если заставлять классифицировать можно рассматривать
имена собственные, которые никто не классифицировал
(если такие будут)

Ну и в любом случае какой-то выбор заставлять делать надо, а иначе у
человека есть желание сказать "next" и оставить все по умолчанию.

> > Хочу отметить специфику коллекции - возможно фактов этих
> > видов там не так уж много.
> >
> > Для примера можно посмотреть на http://news.yandex.ru/ или
> > http://regnum.ru/
> >
>
> Посмотрел регнум... Много встреч, есть планы, конфликты, даже
> владение акциями обнаружил. Но очень густо, но что-то наберется.
> Конечно, AK&M повеселей будет.
>
> > Там есть другие сущности - например,
> > географические и административные субъекты, правительство и
> > всякие комитеты, спортивные клубы, ...
>
> географические и административные субъекты - почему бы и нет. Вдруг
> кто захочет.
>
> правительство и всякие комитеты, спортивные клубы - Дмитрий об
> этом говорил. Понятие организации получается интуитивным и будет
> варьироваться от системы к системе.

но со спортивным клубом связаны специфические события
(купили игрока, прошли в финал, ...)
Или это тоже укладывается?

> > Возможно интересные типы фактов
> > - принятые решения или законы
> > - изменения финансовых показателей (котировок) акций компании
>
> Не очень актуальные типы фактов. Обычно такую информацию получают
> другим путем.

ok, я готов согласится на тот набор классов + фактов, о котором вы
с Дмитрием договоритесь (при условии что это можно будет понятно
сформулировать для ассессоров).

лишь хотел обратить внимание, что коллекция не очень большая и
специфичная.

-igor

by **vladimir_pleshko** » Thu Apr 14, 2005 3:59 pm

> > 2. Тяжело представить себе систему, которая выполнит шаг 1 и не
> > выполнит шаг 3.
>
> Это потому, что на шаге 1 я предлагал выделять все "имена
> собственные", а не только персоналии/компании.
>
Возможно, так более правильно. Но подозреваю, что все будут выделять
только персоны и организации.

> > При оценке 1.*. каждому вхождению в текст каждого объекта
> выставляется
> > оценка
> > - OK
> > - не имя собственное (можно проставлять на уровне списка объектов)
> > - неверный тип (можно проставлять на уровне списка объектов)
> > - неверный референт (алиас, местоимение)
>
> а почему лучше спрашивать верный/неверный тип, а не
> предлагать асессору самому выбрать верный?
> При малом числе типов сложность решения вроде не такая высокая.
>
На самом деле, я просто перечислил решения, которые должен принять
ассессор. Здесь любой способ годится. Главное - максимизировать
производительность труда ассессора.

> Хочу отметить специфику коллекции - возможно фактов этих
> видов там не так уж много.
>
> Для примера можно посмотреть на http://news.yandex.ru/ или
> http://regnum.ru/
>

Посмотрел регнум... Много встреч, есть планы, конфликты, даже
владение акциями обнаружил. Но очень густо, но что-то наберется.
Конечно, AK&M повеселей будет.

> Там есть другие сущности - например,
> географические и административные субъекты, правительство и
> всякие комитеты, спортивные клубы, ...

географические и административные субъекты - почему бы и нет. Вдруг
кто захочет.

правительство и всякие комитеты, спортивные клубы - Дмитрий об
этом говорил. Понятие организации получается интуитивным и будет
варьироваться от системы к системе.

>
> Возможно интересные типы фактов
> - принятые решения или законы
> - изменения финансовых показателей (котировок) акций компании

Не очень актуальные типы фактов. Обычно такую информацию получают
другим путем.

>
> Может быть стоит несколько адаптировать классы
> сущностей/факты к реально доступным в наборе?

Совсем новые классы никто делать не будет - это ручная работа, научная
и практическая ценность которой близка к нулю.

Хоть бери - да в два этапа дорожку проводи.
Сначала строим дайджесты по объектам - как на РОМИП'2003.
Затем отбираем факты путем ознакомления с результатами "по диагонали".

У этого подхода есть большой недостаток - правила игры будут
определяться в процессе игры. Не хотелось бы увеличивать количество
неизвестных - их и так много.

С уважением,
Владимир Плешко

by **d_pankrat** » Fri Apr 15, 2005 8:35 am

ПВ> Вот наш вариант списка:

ПВ> 1. Кто владеет или владел данной организацией?
ПВ> 2. Какими предприятиями владеет или владела данная организация/персона?
Согласны.
Не очень понятно только, почему они разнескены на два пункта - сами
факты ведь одинаковые. Если принимается, что мы выделяем факты
утвержденного типа из некоторого подмножества документов, а не ответы
на вопросы про компании или персоны, то эти два пункта сливаются.

ПВ> 3. С кем встречалась данная персона?
Не очень понятно, что подразумевается под встречей. Просто описание
ситуаций встречи, или из фразы "Путин и Шредер выступили на
пресс-конференции с совместным заявлением" тоже должен делаться вывод
о встрече? Хорошо бы несколько примеров.

ПВ> 4. С кем у данной персоны/организации имеются договоренности (не обязательно
формальные)?
ПВ> 5. С кем сотрудничает данная организация/персона?
Можно несколько примеров на эти пункты?

ПВ> 6. Что покупала (приобретала) данная организация/персона?
Нравится. Правда опять вопрос: "завод "Брбрбр" купил партию станков" -
подпадает под эту ситуацию. Другими словами, как формализуется объект
покупки?

ПВ> 7. В конфликтах, скандалах с кем замешана данная организация/персона?
ПВ> 8. Чего опасается данная организация/персона?
ПВ> 9. Что планирует данная организация/персона?
Боюсь, здесь сложно будет прийти к общему пониманию, что подпадает под
эти ситуации. Тем более, разбивка по полям здесь тоже очень туманная и
точный ответ выдать сложно.

ПВ> +Замечание Александра Ермакова:
ПВ> Считаю, что к фактам относятся любые упоминания о событиях соответствующего
класса, без учета указаний в тексте
ПВ> об их реальности, возможности, времени и прочего - т.е. без учета модальных
и
ПВ> илокутивных характеристик высказывания. Т.е., если написано "планирует
купить", "будет ли покупать" "
ПВ> якобы купил" - значит, это все равно относится к факту покупки, так как нет
дыма без огня, а
ПВ> понять, факт это или артефакт машина все равно не сможет (тут прокурор
нужен). Например, "Иванов утверждает,
ПВ> что он не покупал эту компанию, однако есть данные, что ...",
Нет возражений. Мы так же считаем.

>> Например:
>> о Персоне
>> 1. Где и кем данный человек работал.
>> 2. Можно выделить отдельно случай назначений и отставок.
ПВ> Лучше 1 и 2 объединить, но можем и подстроиться.
Можно и объединить.

>> об Организации
>> 1. Владельцы компании (физ. и юр. лица). Доля во владении.
>> 2. Дочерние компании.
ПВ> Не очень понятно, как выражается в тексте признак "Дочернности" компании,
кроме как явно "дочка", "дочерняя ХХХ". Если это так, то уж очень тривиально.
ПВ> Может, объединить 1 и 2?
Не возражаем.

С уважением,
Дмитрий Панкратов.

romip.ru

QA дорожка

QA дорожка

Re[2]: [romip] QA дорожка

RE: [romip] QA дорожка

Re[4]: [romip] QA дорожка

RE: [romip] QA дорожка

RE: [romip] QA дорожка

Re[6]: [romip] QA дорожка

Who is online