Дорожка по "фактографическому поиску"

RE: [romip] Дорожка по "фактографическому поиску"?

Postby neigor » Sun Apr 04, 2004 12:08 pm

Добрый день,

текущие мысли о дорожке по фактографическому поиску.

1) Входная информация

Я попробовал помоделировать это задание поискав Яндексом на
сайтах народа информацию про разных персон.

Специфичность набора выражается в том, что для современных персоналий
из бизнеса/политики/т.п. информации либо нет, либо лежат биографии
(типа Путина).

Однако, менее широкоизвестные персоналии из науки, культуры и т.п.
и исторические персонажи вообщем-то есть.

В частности, в качестве списка персоналий можно использовать
список c http://dilet.narod.ru/days/195.html.
Там еще есть информация о профессии и ее тоже можно включить
(как справочный факт). Наверное, для задания системам стоит брать
только небольшой кусочек представленный в списке.
А ассесорам можно показывать в качестве вводной и и более детальное
описание.

Вот пример:
Галь, Ганс австрийский композитор
Гальберг, Самуил (Фридрих) Иванович российский скульптор, ученик И. П. Марто...
Гальвани, Луиджи итальянский физик и физиолог, один из ос...
Гамзатов, Расул Гамзатович аварский поэт
Гамильтон, Александер американский государственный деятель, ли...
Гамильтон, Иэйн шотландский композитор
Гамов, Джордж (Георгий Антонович) американский физик-теоретик российского ...

Попытка поискать например Гамильтон Александер на сайтах narod.ru

http://www.yandex.ru/yandsearch?ras=1&t ... rod.ru&ds=

находит 53 сайта. Конечно не все есть в нашей выборке и не для каждой
персоны есть хоть что-то, но все-таки пересечение есть.

2) Цель поиска

Мне кажется, что "Иванов - хороший человек" - это не очень интересный
результат поиска.

Я все-таки хочу еще раз попробовать донести мысль о сборе набора фактов
о персоналии. Для персон из упомянутого ранее списка биографий в narod.ru
почти нет, так что это все еще интересная задача.

То есть ответ - пассаж (можно несколько уровней гранулярности -
200/400 символов, например), содержащий один или несколько фактов
о персоналии. Факт - это какое-то событие, напрямую связанное с этой
персоной. Оно может быть связано с временной меткой, но это не обязательно.

Например, "лидер партии федералистов с 1789 года".
Есть конечно ряд сложностей, например:
"22 марта я имел встречу с генералом Гамильтоном"
и подобное.

Но если мы будем считать, что цель пользователя собрать подборку о событиях
связанных с персоналией, то решение о том разумный это факт или нет
будет определяться суюъективной оценкой ассесора.

3) Оценки

Задачей ассессора будет составление списка фактов по данному набору
фрагментов и расстановке ассоциаций фактфрагмент.
Факт, выделенный ассесором можно описать как:
событие = (временная метка (опция), действие, факт)
пример: (1789, стал, лидер партии федералистов),
действие конечно не совмем однозначно (например можно
сказать "занял пост"), но я не вижу как его можно формализовать
и на этот цикл РОМИП это можно оставить на откуп ассесорам
(дорожка-то пилотная)

Ассоциация. Если ассессор утверждает что в этом пассаже есть факт,
то он для этого факта должен выделить фрагмент текста, где это описано.

Словарь фактов в дополнение к размеченным пассажам позволяет повысить
переиспользуемость оценок, да и оценивать можно новизну одного пассажа
по сравнению с другим, лучше офенивать полноту (как множество найденных
фактов).

Не очень понятно как аккуратно объединять словари фактов от разных
ассесоров, но это можно еще продумать.

Трудоемкость оценки. Конечно пополнение словаря довольно медленный процесс,
но учитывая повторяемость фактов (включая ответы разных систем),
мне кажется вполне реально оценить несколько десятков персоналий,
используя пулинг (конечно повторение пассажей в ответах разных
систем заметно менее вероятно, но зато они короткие).

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

RE: [romip] Дорожка по "фактографическому поиску"?

Postby vladimir_pleshko » Mon Apr 05, 2004 7:35 pm

Добрый вечер всем!

В данной постановке задачи - расхождение по второму пункту.
Моя позиция: Либо указываем, что искать точно (сколько вешать в граммах), либо
ищем о персоне все, кроме тривиальных упоминаний (пассаж должен содержать текст,
относящийся к персоне, т.е. пассаж, состоящий только из имени персоны не
засчитывается или что-то в этом роде).

Комментарии по тексту...

> 1) Входная информация
> В частности, в качестве списка персоналий можно использовать
> список c http://dilet.narod.ru/days/195.html.
> Там еще есть информация о профессии и ее тоже можно включить
> (как справочный факт). Наверное, для задания системам стоит брать
> только небольшой кусочек представленный в списке.
> А ассесорам можно показывать в качестве вводной и и более детальное
> описание.

Согласен. Можно попытаться взять за основу этот ресурс.


> 2) Цель поиска
>
> Мне кажется, что "Иванов - хороший человек" - это не очень интересный
> результат поиска.

Я если это сказано про маньяка или преступника :-) Такие "факты" могут быть
интересны для оценки тональности публикаций о персоне...

> о персоналии. Для персон из упомянутого ранее списка
> биографий в narod.ru
> почти нет, так что это все еще интересная задача.

Видимо, из этого списка, видимо, стоит отсечь персон с биографиями
(http://dilet.narod.ru/days/bio/192.html) - т.к. материалы в web часто
дублируются.

> Но если мы будем считать, что цель пользователя собрать
> подборку о событиях
> связанных с персоналией, то решение о том разумный это факт или нет
> будет определяться суюъективной оценкой ассесора.

Какие инструкции давать оценщикам? "Разумность" факта определяется целью сбора
информации.


> 3) Оценки
>
> Словарь фактов в дополнение к размеченным пассажам позволяет повысить
> переиспользуемость оценок, да и оценивать можно новизну одного пассажа
> по сравнению с другим, лучше офенивать полноту (как множество
> найденных
> фактов).

Это полезно только в том случае, если по результатам этой дорожки к следующему
РОМИПу готовить новоую, более сложную (мой первый вариант со словарем фактов,
который раздается системам, и возможностью точного ответа). Я не против.

Однако составление словаря типов фактов трудно автоматизировать - число
участников факта/события зависит от типа факта. Можно ограничить оценщиков
только указанием типа факта (рождение, назначение на должность, участие в
сражении...). Такой словарь был бы интересен: "что в принципе можно найти в web
о персоне".

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

RE: [romip] Дорожка по "фактографическому поиску"?

Postby neigor » Mon Apr 05, 2004 8:28 pm

> В данной постановке задачи - расхождение по второму пункту.
> Моя позиция: Либо указываем, что искать точно (сколько вешать в граммах),
> либо ищем о персоне все, кроме тривиальных упоминаний (пассаж должен
> содержать текст, относящийся к персоне, т.е. пассаж, состоящий только из
> имени персоны не засчитывается или что-то в этом роде).

Хмм, а пользователь который ищет информацию о персоне откуда может знать
какие типы фактов удастся найти.

Мне не до конца понятно чем нам мешает ограничение -
оно мешает системам или оценщикам? На мой взгляд для ассессора понятие
"событие" интуитивно понятно и проблема только в том как
формализовать это для системы (можно использовать простые эвристики
типа пассаж, состоящий только из имени персоны не засчитывается
или что-то более сложное - это уже вопрос подхода к решению задачи.
Главное, что мы формализуем критерии оценки результата поиска

Т.е. переформулировав вопрос по другому:
- это нереальная задача в смысле ее "исскуственной" постановки
или
- это нереальная задача в смысле нереализуемости для систем?

> > о персоналии. Для персон из упомянутого ранее списка
> > биографий в narod.ru
> > почти нет, так что это все еще интересная задача.
>
> Видимо, из этого списка, видимо, стоит отсечь персон с биографиями
> (http://dilet.narod.ru/days/bio/192.html) - т.к. материалы в web часто
> дублируются.

Это относительно новый ресурс, в народе он вроде не дублирован.
Поскольку биографии есть далеко не для всех и
если выбрать N тысяч персон случайно, то число их с биографиями будет
невелико.

Так что возможно это лишняя заморочка на этапе отбора заданий,
а вот при проведении оценки естественно на это надо как-то смотреть.

> > Но если мы будем считать, что цель пользователя собрать
> > подборку о событиях
> > связанных с персоналией, то решение о том разумный это факт или нет
> > будет определяться суюъективной оценкой ассесора.
>
> Какие инструкции давать оценщикам? "Разумность" факта определяется целью
> сбора информации.

составить максимально подробную биографическую справку
(то есть если найдено событие, но без даты, то оно тоже годится)

> > 3) Оценки
> >
> > Словарь фактов в дополнение к размеченным пассажам позволяет повысить
> > переиспользуемость оценок, да и оценивать можно новизну одного пассажа
> > по сравнению с другим, лучше офенивать полноту (как множество
> > найденных
> > фактов).
>
> Это полезно только в том случае, если по результатам этой дорожки к
> следующему РОМИПу готовить новоую, более сложную (мой первый вариант со
> словарем фактов, который раздается системам, и возможностью точного
> ответа). Я не против.

Говоря словарь фатов я имел ввиду не типы фактов вообще,
а эталонные множества всех фактов для конкретной персоны
(типа множества всех известных релевантных документов для конкретного
запроса обычного поиска), т.е. в случае нашей задачи
- это искомое биографическое описание.

> Однако составление словаря типов фактов трудно автоматизировать - число
> участников факта/события зависит от типа факта. Можно ограничить оценщиков
> только указанием типа факта (рождение, назначение на должность, участие в
> сражении...). Такой словарь был бы интересен: "что в принципе можно найти
> в web о персоне".

Словарь типов фактов можно потом попробовать посоставлять отдельно,
и если получится хорошо, то не только написать статью но и
в следующем цикле использовать.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

RE: [romip] Дорожка по "фактографическому поиску"?

Postby vladimir_pleshko » Tue Apr 06, 2004 10:05 am

Игорь, у нас на текущий момент осталось одно разногласие:

Я предлагаю искать любую информацию, связанную с персоной (кроме тривиальных
упоминаний).
Вы предлагаете искать "события", участниками которых персона являлась, и которые
можно было бы использовать для составления биографической справки.

В моей постановке системы и оценщики достаточно четко проинструктированы.

В вашей постановке есть возможности для неоднозначной интерпретации результата
оценщиками. Например, "стать хорошим и добрым" для Бармалея - это важный факт
биографии. Чтобы это правильно оценить, ассессор должен быть знаком с
соответствующей литературой :)

Дело не в том, какая система что сможет сделать в этом году. Главное, чтобы
корпус не вызывал сомнений в объективности оценок. Я не против "событий", но
если у нас с вами возникают разногласия в трактовке, то у разработчиков систем и
оценщиков будет еще более широкий спектр мнений. Возможно, здесь дело в
формулировках, и можно как-то исхитриться, чтобы разночтений было как можно
меньше.

Далее ответы по тексту.

> Хмм, а пользователь который ищет информацию о персоне откуда
> может знать
> какие типы фактов удастся найти.

Чтобы правильно сформулировать вопрос, нужно знать половину ответа. Если ответ
требуется точный, конечно.

> Мне не до конца понятно чем нам мешает ограничение -
> оно мешает системам или оценщикам?

Не совсем понимаю о каком именно ограничении идет речь. Но в любом случае,
проблемы будут у оценщиков, если у них не будет четких инструкций.

> На мой взгляд для ассессора понятие
> "событие" интуитивно понятно и проблема только в том как
> формализовать это для системы

Ну это уже проблема систем. Мы же обсуждаем постановку и способ оценки.
Постановка и оценка больше связаны между собой, чем постановка и способ решения.

> Т.е. переформулировав вопрос по другому:
> - это нереальная задача в смысле ее "исскуственной" постановки
> или
> - это нереальная задача в смысле нереализуемости для систем?

Просто хочется создать однозначно интерпретируемый эталонный корпус.

> > Видимо, из этого списка, видимо, стоит отсечь персон с биографиями
> > (http://dilet.narod.ru/days/bio/192.html) - т.к. материалы
> в web часто
> > дублируются.
>
> Так что возможно это лишняя заморочка на этапе отбора заданий,
> а вот при проведении оценки естественно на это надо как-то смотреть.

Согласен.

> > Какие инструкции давать оценщикам? "Разумность" факта
> определяется целью
> > сбора информации.
>
> составить максимально подробную биографическую справку
> (то есть если найдено событие, но без даты, то оно тоже годится)

То есть досье :) Для разных типов персон (например, vip-персоны, деятели
культуры и искусства, исторические персоны) туда должна входить разная
информация. Я бы не взялся дать более формализованное описание...

> Говоря словарь фатов я имел ввиду не типы фактов вообще,
> а эталонные множества всех фактов для конкретной персоны
> (типа множества всех известных релевантных документов для конкретного
> запроса обычного поиска), т.е. в случае нашей задачи
> - это искомое биографическое описание.

Теперь понятно. Результаты в вашей и моей постановках будут очень близки.

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

RE: [romip] Дорожка по "фактографическому поиску"?

Postby neigor » Tue Apr 06, 2004 2:58 pm

> Игорь, у нас на текущий момент осталось одно разногласие:

значит процесс сходится :)

> Я предлагаю искать любую информацию, связанную с персоной (кроме
> тривиальных упоминаний). Вы предлагаете искать "события", участниками
> которых персона являлась, и которые можно было бы использовать для
> составления биографической справки.
>
> В моей постановке системы и оценщики достаточно четко проинструктированы.
>
> В вашей постановке есть возможности для неоднозначной интерпретации
> результата оценщиками. Например, "стать хорошим и добрым" для Бармалея -
> это важный факт биографии. Чтобы это правильно оценить, ассессор должен
> быть знаком с соответствующей литературой :)

"стать хорошим" - это событие :)

Если говорить что ответ, это любой фрагмент с упоминанем персоны,
то в чем здесь отличие от обычного поиска?

> Дело не в том, какая система что сможет сделать в этом году. Главное,
> чтобы корпус не вызывал сомнений в объективности оценок. Я не против
> "событий", но если у нас с вами возникают разногласия в трактовке, то у
> разработчиков систем и оценщиков будет еще более широкий спектр мнений.
> Возможно, здесь дело в формулировках, и можно как-то исхитриться, чтобы
> разночтений было как можно меньше.

Я безусловно с этим согласен, но нельзя забывать об субъективности
мнения реальных пользователей, а ассесоры их иммитируют.

В пролом году довольно много нареканий вызвала идея использования
расширенных описаний, которые навязывали ассессору более четкое понимание
что такое релевантный ответ для конкретного запроса.

Ассессоры вообщем-то обычные люди и в какой-то мере мы можем полагаться
на их разум. А идеал все равно недостижим :(

> > Хмм, а пользователь который ищет информацию о персоне откуда
> > может знать
> > какие типы фактов удастся найти.
>
> Чтобы правильно сформулировать вопрос, нужно знать половину ответа. Если
> ответ требуется точный, конечно.

Или иметь четкую цель поиска. (она + ФИО персоны играют роль половины ответа)

> > Мне не до конца понятно чем нам мешает ограничение -
> > оно мешает системам или оценщикам?
>
> Не совсем понимаю о каком именно ограничении идет речь. Но в любом случае,
> проблемы будут у оценщиков, если у них не будет четких инструкций.

я имел ввиду ограничение
"в пассаже должно быть упомянуто "событие", связанное с искомой персоной"

> > На мой взгляд для ассессора понятие
> > "событие" интуитивно понятно и проблема только в том как
> > формализовать это для системы
>
> Ну это уже проблема систем. Мы же обсуждаем постановку и способ оценки.
> Постановка и оценка больше связаны между собой, чем постановка и способ
> решения.

несомнено.

и врожденная "разумность" ассессора позволяет избежать формализации
критериев к релевантности пассажа на техническом уровне
(ассессор должен помогать не только обнаруживать морфологические вариации,
но также и как-то контролировать семантику найденных фрагментов).

Конечно у разных ассессоров будут расхождения в числе найденных событий -
но при дублировании оценки мы это сможем обнаружить и потом
проанализировать с целью учесть в будущем.

> > > Какие инструкции давать оценщикам? "Разумность" факта
> > определяется целью
> > > сбора информации.
> >
> > составить максимально подробную биографическую справку
> > (то есть если найдено событие, но без даты, то оно тоже годится)
>
> То есть досье :) Для разных типов персон (например, vip-персоны, деятели
> культуры и искусства, исторические персоны) туда должна входить разная
> информация. Я бы не взялся дать более формализованное описание...

Это если мы как-то учитываем область деятельности и даже в этом случае
меняется лишь значимость фактов, но сами факты остаются. Кроме того
область деятельности при составлении реального досье определяет что там
должно быть как минимум и без чего оно не может считаться полным.
Но нас-то это не интересует, нам интересно что можно найти, что годилось бы
для включения в досье.

Но мы ассессоров попросим составить досье на человека вообще - то есть нам
интересны _все_ события связанные с ним.

> Теперь понятно. Результаты в вашей и моей постановках будут очень близки.

Я очень на это надеюсь :)
Мне всего лишь хочется привязаться к интуитивно понятной задаче -
практика показывает, что тогда оценка получается лучше
(т.е. когда ассессоры сами понимают что хорошо, а не регулярно спрашивают
годится ли такой результат)

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

RE: [romip] Дорожка по "фактографическому поиску"?

Postby vladimir_pleshko » Tue Apr 06, 2004 6:23 pm

> Если говорить что ответ, это любой фрагмент с упоминанем персоны,
> то в чем здесь отличие от обычного поиска?

В поиске _референтных_ упоминаний персоны в тексте (неполный набор атрибутов,
инициалы, местоимения).


> Но мы ассессоров попросим составить досье на человека вообще
> - то есть нам
> интересны _все_ события связанные с ним.

Хорошо, давайте остановимся на этой формулировке.

Итак:
коллекция - народ.ру
персоны - http://dilet.narod.ru/days/195.html
задача - найти _все_ события связанные с персонами
ответ системы - пассажи (до 200/400 символов)
оценка - метод общего котла (результат расширенная биографическая справка/досье)

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

RE: [romip] Дорожка по "фактографическому поиску"?

Postby neigor » Tue Apr 06, 2004 6:40 pm

> > Если говорить что ответ, это любой фрагмент с упоминанем персоны,
> > то в чем здесь отличие от обычного поиска?
>
> В поиске _референтных_ упоминаний персоны в тексте (неполный набор
> атрибутов, инициалы, местоимения).

это кстати сложно оценивать (комментарий применим к обоим постановкам
задач)

что если в пассаж одновременно не влазит ФИО и событие, а только
местоимение? Как по пассажу понять о ком он и принять решение о
корректности?

> > Но мы ассессоров попросим составить досье на человека вообще
> > - то есть нам
> > интересны _все_ события связанные с ним.
>
> Хорошо, давайте остановимся на этой формулировке.
>
> Итак:
> коллекция - народ.ру
> персоны - http://dilet.narod.ru/days/195.html
> задача - найти _все_ события связанные с персонами
> ответ системы - пассажи (до 200/400 символов)

пассаж - это что?
1) кусочек документа
2) любой синтезированный фрагмент (аннотация)
?

чего бы мне хотелось - это сохранить связь между пассажем и документом,
то есть в случае 1) просто требовать указания его местоположения в
документе, например, в количестве байт от начала
(тогда если из пассажа непонятно что значит местоимение можно заглянуть в
документ).

если это может быть и 2), то тогда непонятно, как
это лучше сделать. Можно также просить ссылаться на место в документе
откуда сделан вывод про эту персону. Но мне все равно неясно как ассессор
может легко проверить, что это корректный факт.

пример: в документе упоминается мимоходом некто (ФИО), а
намного дальше по тексту какое-то событие к этому некто не относящееся.
Если мы составляем аннотацию как ФИО + это событие,
то только по аннотации понять что это фальсификация нельзя.

> оценка - метод общего котла (результат расширенная биографическая
> справка/досье)

мы попробуем сформулировать все более полно в формальных правилах проведения
дорожки и выложим на сайте,

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

RE: [romip] Дорожка по "фактографическому поиску"?

Postby vladimir_pleshko » Tue Apr 06, 2004 7:01 pm

> пассаж - это что?
> 1) кусочек документа
> 2) любой синтезированный фрагмент (аннотация)

Конечно, фрагмент исходного документа. В качестве ответа нужно выдавать смещение
и длину - иначе как повторно использовать.

> (тогда если из пассажа непонятно что значит местоимение можно
> заглянуть в
> документ).

Возможность навигации к месту пассажа в документе - видимо важная часть рабочего
места ассессора.

> пример: в документе упоминается мимоходом некто (ФИО), а
> намного дальше по тексту какое-то событие к этому некто не
> относящееся.
> Если мы составляем аннотацию как ФИО + это событие,
> то только по аннотации понять что это фальсификация нельзя.

Иногда тяжело понять и по полному тексту. С этим ничего не поделаешь. (и это
пишет человек, в смысле я, который боролся за четкость инструкций для оценщиков
:)

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

RE: [romip] Дорожка по "фактографическому поиску"?

Postby neigor » Tue Apr 06, 2004 8:58 pm

> > пассаж - это что?
> > 1) кусочек документа
> > 2) любой синтезированный фрагмент (аннотация)
>
> Конечно, фрагмент исходного документа. В качестве ответа нужно выдавать
> смещение и длину - иначе как повторно использовать.

хорошо. Смещение в чем? в байтах в исходной html версии?
Это вроде бы логично, но многие участники вырезают html разметку.

И в случае смещения в html, разметка естественно не должна входить в
200/400 байт (или 250/500 лучше?)

А если смещение после вырезания разметки, то надо стандартизировать
вырезание ...

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] Дорожка по "фактографическому поиску"

Postby g.dernovoy » Wed Apr 07, 2004 6:26 am

Насчет стандартизации вырезания - зачем? ведь указав фрагмент текста и
документ, откуда он взят,
получим однозначную идентификацию.
По поводу что именно искать: так как поиск фактогафический, то название
обязывает (по-моему)
некое тематическое картирование информации по персоне(ам), напр. биография,
события,
труды, .. .
Не совсем ясно, зачем ограничиваться только персонами, ведь те же алгоритмы
будут работать
и с произвольными объектами (городами, предприятиями и т.п.). Меняться будет
только
список тем картирования.

Георгий.
g.dernovoy
 
Posts: 12
Joined: Fri Jul 04, 2003 12:33 pm

PreviousNext

Return to Вопросно-ответный и фактографический поиск

Who is online

Users browsing this forum: No registered users and 8 guests

cron