Дорожка по "фактографическому поиску"

Дорожка по "фактографическому поиску"

Postby neigor » Thu Mar 18, 2004 2:15 pm

Всем добрый день!

Мы предполагаем включить в программу РОМИП'2004 дорожку
"фактографического поиска" (название довольно условно).

Вкратце, идея такова:

Участникам раздают коллекцию и набор "фактографических" запросов
(грамматически корректных вопросов на русском языке).
Системы-участницы должны предоставить список из не более пяти
возможных ответов на каждый из вопросов набора.
При этом предполагаются три допустимых уровня гранулярности ответа:

1. Ответ не длиннее 50 символов
2. Ответ не длиннее 250 символов
3. Ответ - ссылка на документ

Критерий корректности - наличие четкого ответа на вопрос (факта) в
тексте.

Не все имеют готовое решение для задачи фактографического поиска в
жесткой постановке (с выделением короткого ответа) и в такой
"ослабленной" постановке стартовать будет легче, что по идее
расширяет круг потенциальных участников.

Так, например, возвращая только документы можно попробовать понять
насколько ваша система готова к обработке длинных запросов на естественном
языке. А ответами в 250 символов могут быть контекстно зависимые аннотации
(конечно эта оценка, как оценка качества аннотации, будет жестковата,
но зато переиспользуема и довольно объетивна)

Нам бы хотелось знать насколько такая дорожка интересна участникам и
какие изменения в правилах могут сделать ее более привлекательной.

Более формально:

1. Коллекция документов:

narod.ru (РОМИП'03)

2. Набор вопросов:

200-500, с ограничениями:

- нет нечеткостей, неоднозначностей

- ответ короткий: в 2-3 слова максимум

- ответ есть в коллекции (возможное усложнение задания: взять и некоторое
количество вопросов без ответа в коллекции, и предлагать системам
выдавать как вариант ответа НЕТ ОТВЕТА).

- ответ целиком содержится в каком-то одном документе
(т.е. не требуется анализировать и объединять данные из нескольких
документов)


Источники вопросов: лог поисковой системы,
а также самостоятельно подобранные организаторами и каждым из
участников (по 20 запросов на команду)

Запросы из лога можно использовать как идеи, даже если они и не являются
вопросами русского языка, а просто списком слов.


3. Ответ системы

От каждой системы принимается список из не более чем 5 ответов (упорядоченный по
убыванию убежденности системы в правильности ответа) на каждый из вопросов.

Три уровня гранулярности ответа:
- 50 символов
- 250 символов
- весь текст документа

Каждая система может вернуть ответ на всех трех уровнях гранулярности
(если слишком точный ответ недостижим, то тогда на больших).

Фрагменты в 50/250 символов НЕ обязательно являются фрагментами документа,
а, например, могут быть синтезированы.

4. Оценка

Критерий корректности - наличие точного ответа в тексте.
(например, для вопроса "Когда состоялся первый семинар РОМИП?" - ответ
должен содержать год и/или месяц. Что считать корректным фактом ответа
решает сам ассессор, но он будет должен выделить правильный ответ в
тексте документа)

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] Дорожка по "фактографическому поиску"?

Postby pb » Thu Mar 18, 2004 3:55 pm

Задание очень актуальное, не знаю только, кто к этому готов.

> 2. Набор вопросов:

> - ответ есть в коллекции...
> - ответ целиком содержится в каком-то одном документе...
> Источники вопросов: лог поисковой системы,
> а также самостоятельно подобранные организаторами и каждым из
> участников (по 20 запросов на команду)
Как это гарантировать при предложенном принципе формирования?
Использовать оцененные 54 запроса?
М.б. все-таки специализированная коллекция?

> Фрагменты в 50/250 символов НЕ обязательно являются фрагментами документа,
> а, например, могут быть синтезированы.
Тогда уж можно снять ограничение на то, что факт содержтся в одном
документе.

Касательно других дорожек, меня заитересовал анализ коллекции.
Если хватит ресурсов, хотел бы прогнать коллекцию через
стилистический фильтр. Но как оценивать?! Косвенно через каталог? В
каталоге есть, например, наука и худ. литература, но по нашим опытам с
Яндексом жанровый признак сайта далеко не всегда хорошо подходит
составляющим его документам.

ПБ
pb
Оргкомитет
 
Posts: 72
Joined: Mon Feb 10, 2003 11:52 am

RE: [romip] Дорожка по "фактографическому поиску"?

Postby maxgubin » Thu Mar 18, 2004 5:39 pm

Всем добрый вечер!

>Участникам раздают коллекцию и набор "фактографических" запросов
>(грамматически корректных вопросов на русском языке).

Не понятно, все же, откуда возьмутся запросы. Из практики, пользователи
никогда такие запросы не пишут, так что мне это не интересно, но меня очень
интересует направление HARD (High Accuracy Retrieval from Documents),
которое по постановке задачи достаточно похоже, только запросы не
сформулированы как вопросы. Это ближе к моим практическим нуждам, хотя я
ничего еще не делал в этой области. Может это как-то совместить?

>2. Набор вопросов:
Честно, я думаю под такие ограничения 200 штук не набрать и не придумать. Я
вот в прошлом году участвовал, но к стыду своему ни одной странички из
narod.ru не прочитал, т.е. в base64 я их читать не умею, а потом она
свернулась в индекс. Поэтому придумывать реальные вопросы, проверять что они
однозначны и т.д. IMHO все это достаточно трудоемко и нереально на практике.
Может я ошибаюсь.

Максим
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

RE: [romip] Дорожка по "фактографическому поиску"?

Postby vladimir_pleshko » Wed Mar 24, 2004 7:20 pm

Добрый вечер, коллеги!

Выношу на ваш суд своей видение дорожки по фактографическому
поиску.

Я согласен с Максимом, что классический QA мало кому интересен.
HARD (http://ciir.cs.umass.edu/research/hard/guidelines2003.html)
достаточно сложен и трудоемок в реализации, да и предусматривает,
помимо автоматических, интерактивные прогоны.

Однако, рациональное зерно в том, что запросы сопровождаются
метаинформацией (цель, жанр/тип искомого материала, знакомство
с предметом, гранулярность ответа, текст, связанный с темой
запроса).

Понятно, что задачу фактографического поиска нельзя решить
в полностью. В общем случае система может найти
- либо пассажи на основе эмпирических формул релевантности,
- либо явные ответы
(Когда родился Ленин? -> Ленин родился ...).

В частных случаях можно настроиться на какую-то предметную
область и какие-то типы вопросов. Причем вопросы не обязательно
должны быть сформулированы в виде текста на естественном языке.

Можно описать схему факта, на который должна быть настроена
система. Выделить атрибуты факта в виде параметров. Например,
факт = покупка акций, атрибуты = продавец, покупатель, эмитент;
факт = поездка, атрибуты = субъект, место, цель, дата.

В запросе указывается
- тип факта,
- ограничения на атрибуты (ограничением может служить список
синонимичных наименований),
- искомые атрибуты.

Гранулярность ответа (документ, пассаж, одно из наименований
искомого атрибута) можно согласовать.

Схем не обязательно должно быть много. Достаточно 5-10.
Различных ограничений на атрибуты может быть много. Это породит
много запросов и исключит возможность коррекции результатов
вручную.

Достоинства:
Не будет дискриминации систем, которые базируются на
классических поисковых машинах. Для каждого типа фактов можно
будет, например, составить свой параметризованный поисковый
запрос.

Недостатки:
Требуется подобрать типы фактов, которые встречаются в коллекции.
Кстати, не уверен, что narod.ru получится в качестве такой
коллекции использовать.

Кажется, проблемы могут возникнуть и с повторным использованием
результатов оценки, если ответ системы оценивать не с точностью
до документа. Хотя можно пытаться искать в пассажах, выдаваемых
системами, подстроку с ответом на вопрос.

Готов развить эту тему, если найдутся желающие участвовать в
дорожке в такой постановке.

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

RE: [romip] Дорожка по "фактографическому поиску"?

Postby neigor » Thu Mar 25, 2004 5:19 pm

звучит интересно, но с сходу я плохо понял идею :)

> Можно описать схему факта, на который должна быть настроена
> система. Выделить атрибуты факта в виде параметров. Например,
> факт = покупка акций, атрибуты = продавец, покупатель, эмитент;
> факт = поездка, атрибуты = субъект, место, цель, дата.

это входная информация?
Как формулируется конкретное задание для системы?
Для каждого запроса заранее помечено какой тип фактов мы ищем?

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

RE: [romip] Дорожка по "фактографическому поиску"?

Postby vladimir_pleshko » Thu Mar 25, 2004 8:07 pm

> звучит интересно, но с сходу я плохо понял идею :)
>
> > Можно описать схему факта, на который должна быть настроена
> > система. Выделить атрибуты факта в виде параметров. Например,
> > факт = покупка акций, атрибуты = продавец, покупатель, эмитент;
> > факт = поездка, атрибуты = субъект, место, цель, дата.
>
> это входная информация?
Да

> Как формулируется конкретное задание для системы?
Ниже - попытка придумать, как это может выглядеть.

> Для каждого запроса заранее помечено какой тип фактов мы ищем?
Да

Исходные данные для формирования заданий:
1. справочник типов фактов
2. справочники значений атрибутов

Пример описания факта:

person_travel
Поездки заданной персоны
Должна быть найдена информация о поездках заданной персоны. Информация
может включать место, время, цель. Факт поездки может быть выражен фразами "А
совершил визит в", "А приехал/приземлился/прибыл в", "во время визита А
в".


person_id
RESTRICTION // будет задан в запросе
person // имя справочника значений атрибутов
Идентификатор персоны из справочника персон

// остальные атрибуты могут быть использованы для точных ответов
location
TARGET
Место поездки

... date, goal



Пример описания орагичений:

person001
Иванов Иван Иванович
// список синонимов может быть сгенерирован автоматически при
подготовке заданий
Иванов И.И.
И.И. Иванов
Иванов Иван Иванович
Иван Иванович Иванов
Иван Иванов



Таким образом, для данного типа факта можно сгенерировать число
заданий, равное размеру справочника персон.

Пример задания:


topic001
fact001 // внешний ключ к массиву описаний фактов
person001 // внешний ключ к справочнику


Информация для оценщиков может быть взята из соотв. справочников.

Системам предоставляются справочники (факты, значения атрибутов) и
задания. Системы "затачиваются" на параметризованные описания фактов и
выполняют задания.

Номинации для оценки:
- документ,
- пассаж,
- точные значения атрибутов.

Вообще говоря, можно допускать, чтобы системы возвращали все три типа
информации в качестве ответа. При оценке пары запрос - ответ они могут
оцениваться одновременно, а результаты оценок считаться раздельно по
номинациям.

Можно усложнять задания. Например, "когда А приезжал в город Б". Вместо
персон могут быть компании, продукты и т.п.

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

RE: [romip] Дорожка по "фактографическому поиску"?

Postby neigor » Mon Mar 29, 2004 2:02 pm

Честно говоря постановка задачи стала выглядеть страшновато :)

Пытаясь абстрагироваться от предложенных словарей идея выглядит похоже
на одно из заданий кубка Яндекс :)
Там кажется когда-то требовалось набрать как можно больше фактов про
конкретную персону.

Наверное правильно ограничить множество фактов - например поездки,
награды или обще - биография с датами.

Однако, мне кажется, что словари в качестве входных данных это несколько
черезчур (мотивация: пользователь приходит без словарей, но с именем персоны
и желанием собрать сведения о ней).
По крайней мере словари синонимов - это личное дело системы.

Если задачу сформулировать так - ищем факты связанные с биографией
данной персоны. Тогда словарь фактов - это тоже дело системы.
Возможно, что кто-то и без формализации фактов обойдется.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

RE: [romip] Дорожка по "фактографическому поиску"?

Postby vladimir_pleshko » Mon Mar 29, 2004 5:32 pm

Расхождения у меня с Игорем по этой дорожке, похоже, идеологические...

Сначала, напишу, что хотел сказать (что получилось - см. ниже после списка):

1. Задания (факты) должны быть сформулированы четко и допускать
точный ответ системы, наряду с пассажами и списками документов.
2. Должно быть как можно меньше факторов, влияющих на применимость
подходов к решению задачи (для этого и введены словари синонимичных
наименований).
3. Ответы систем должны быть как можно более однозначно
интерпретируемы оценщиками.
4. Результаты дорожки должны быть переиспользуемы (точные ответы,
смещения пассажей с точными ответами, идентификаторы документов с
ответами).

Далее, ответы по тексту...

> Честно говоря постановка задачи стала выглядеть страшновато :)

Любая спецификация выглядит страшно. Тем более, предложенная наспех.
Всего-то три сущности: факт, персона, задания. И еще два отношения...

> Пытаясь абстрагироваться от предложенных словарей идея выглядит похоже
> на одно из заданий кубка Яндекс :)

Очень возможно. На авторское право в постановке задачи я не претендую :)

> Наверное правильно ограничить множество фактов - например поездки,
> награды или обще - биография с датами.

Я это и предлагал. Только хотел, чтобы факты были более менее
конкретными. Например, является ли фактом биографии продажа человеком
пакета акций какой-нибудь компании или выступление на каком-нибудь
съезде.

> Однако, мне кажется, что словари в качестве входных данных это
> несколько
> черезчур (мотивация: пользователь приходит без словарей, но с
> именем персоны
> и желанием собрать сведения о ней).

О мотивации:
"Ленивый" пользователь вводит фамилию получает тысячи документов, ничего
толком не находит, и говорит, что "система не работает". На этот
случай сидит команда экспертов, которым указывается, например, фио и
должность, и которые составляют длинные поисковые запросы, анализируют
полученные результаты и синтезируют отчет. Конечно, в случае, если этот
"ленивый" пользователь - их начальник.

О словарях:
Можно дать только ФИО и должность. Пусть системы сами решают, как с ними
поступать. Только является ли эта задача профильной для для данной дорожки?

> По крайней мере словари синонимов - это личное дело системы.

Синонимичные наименования персон, организаций - это ближе к прагматике.
Возможно и существуют словари, где указано, например, что Лужков также
является мэром Москвы. Только словари эти изготавливаются не для
общего применения, а под задачу.

> Если задачу сформулировать так - ищем факты связанные с биографией
> данной персоны. Тогда словарь фактов - это тоже дело системы.
> Возможно, что кто-то и без формализации фактов обойдется.

В чем практический интерес дорожки в такой постановке? Чем она
отличается от обычной поисковой? Введите в любую поисковую машину:
+ +биография +родился
и посмотрите на результат.
Кроме того, что будет являться результатом - документ, пассаж,
точный ответ?

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

RE: [romip] Дорожка по "фактографическому поиску"?

Postby neigor » Tue Mar 30, 2004 3:21 pm

> Расхождения у меня с Игорем по этой дорожке, похоже, идеологические...

мне так не кажется :)

> Сначала, напишу, что хотел сказать (что получилось - см. ниже после списка):
>
> 1. Задания (факты) должны быть сформулированы четко и допускать
> точный ответ системы, наряду с пассажами и списками документов.
> 2. Должно быть как можно меньше факторов, влияющих на применимость
> подходов к решению задачи (для этого и введены словари синонимичных
> наименований).
> 3. Ответы систем должны быть как можно более однозначно
> интерпретируемы оценщиками.
> 4. Результаты дорожки должны быть переиспользуемы (точные ответы,
> смещения пассажей с точными ответами, идентификаторы документов с
> ответами).

Я с основными положениями полностью согласен.

Некоторая разница в следствиях.

Например, на мой взгляд словарь синонимов - это специфика системы,
его возможно можно тоже раздавать. Но в реальной ситуации мне кажется
маловероятным, что пользователь сам введет все синонимы - это либо есть в
системе, либо нет. Тем не менее - я не против раздачи синонимов или
других вспомогательных средств (так участники смогут оценить насколько
им это помогает), но мне кажется не правильным фиксировать словарь синонимов
который будет использоваться оценщиком. И вообще словарь синонимов это как
бы опция (которую мы не навязываем в постановке задачи).

> Далее, ответы по тексту...
>
> > Честно говоря постановка задачи стала выглядеть страшновато :)
>
> Любая спецификация выглядит страшно. Тем более, предложенная наспех.
> Всего-то три сущности: факт, персона, задания. И еще два отношения...

Да меня не формат напугал.
Но разве на практике пользователь готов так формализовать задачу
и предоставить столько материала?

> > Пытаясь абстрагироваться от предложенных словарей идея выглядит похоже
> > на одно из заданий кубка Яндекс :)
>
> Очень возможно. На авторское право в постановке задачи я не претендую :)
>

Ваша постановка задачи уникальна :)
Это я пытаюсь искать реальные аналогии
Вот кстати ссылка - http://kubok.yandex.ru/3/lists.xhtml

> > Наверное правильно ограничить множество фактов - например поездки,
> > награды или обще - биография с датами.
>
> Я это и предлагал. Только хотел, чтобы факты были более менее
> конкретными. Например, является ли фактом биографии продажа человеком
> пакета акций какой-нибудь компании или выступление на каком-нибудь
> съезде.

а почему нет?
лишь бы была временная метка.

> > Однако, мне кажется, что словари в качестве входных данных это
> > несколько
> > черезчур (мотивация: пользователь приходит без словарей, но с
> > именем персоны
> > и желанием собрать сведения о ней).
>
> О мотивации:
> "Ленивый" пользователь вводит фамилию получает тысячи документов, ничего
> толком не находит, и говорит, что "система не работает". На этот
> случай сидит команда экспертов, которым указывается, например, фио и
> должность, и которые составляют длинные поисковые запросы, анализируют
> полученные результаты и синтезируют отчет. Конечно, в случае, если этот
> "ленивый" пользователь - их начальник.
>
> О словарях:
> Можно дать только ФИО и должность. Пусть системы сами решают, как с ними
> поступать. Только является ли эта задача профильной для для данной дорожки?

Мы еще говорим, что нам нужны факты и как-то указываем их вид.
Можно ограничиться поездками или факты вообще.

> > Если задачу сформулировать так - ищем факты связанные с биографией
> > данной персоны. Тогда словарь фактов - это тоже дело системы.
> > Возможно, что кто-то и без формализации фактов обойдется.
>
> В чем практический интерес дорожки в такой постановке? Чем она
> отличается от обычной поисковой? Введите в любую поисковую машину:
> + +биография +родился
> и посмотрите на результат.

возмоджно пример с биографией не очень :)
Хотя например про награды почти нигде не написано.

Вообще, можно попробовать по аналогии со списочным заданием кубка Яндекса
оценивать количество разных фактов в первых N ответах системы.

Собственно словарь фактов - это и есть некий эталонный ответ
(непонятно как его переиспользовать для полностью автоматической оценки,
но в каждом конкретном случае наверное можно придумать какие-то трюки)

> Кроме того, что будет являться результатом - документ, пассаж,
> точный ответ?

все что угодно, если там есть факт.
конечно для каждого уровня гранулярности ответов свой зачет и
свое N (а вот списки фактов общие).

Все вышесказанное - это лишь попытка прояснить мое понимание и никак не
догма :) Надеюсь мы скоро сойдемся на чем-то взаимоприемлимом.

Кстати, еще кому-нибудь эта дорожка в любой из обсуждавшихся или близких
постановок интересна?

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

RE: [romip] Дорожка по "фактографическому поиску"?

Postby vladimir_pleshko » Thu Apr 01, 2004 9:39 am

Добрый день всем!

Предлагаю компромиссную постановку задачи.

Цели:
1. Максимально упростить формулировку
2. Сохранить отличия от обычной поисковой дорожки

Дано:
- Список персон (ФИО)
- Коллекция документов

Найти (по каждой персоне):
- Все предложения (или короткие пассажи), непосредственно относящиеся к персоне

Способ оценки:
- оценивать релевантность документов особого смысла не вижу
- нужно оценивать релевантность пассажей
- релевантный пассаж должен содержать явное (из списка) либо референтное
упоминание персоны и осмысленную информацию о персоне (т.е. пассаж "Иван
Иванович Иванов" не должен считаться релевантным в отличие от пассажа "Иван
Иванович Иванов - хороший человек")

Последний пункт мне самому до конца не ясен, т.к. упоминание может быть,
например, в списке или таблице. Это можно обсудить.

В эталонном корпусе (после работы оценщиков) с каждой персоной будет связан
список идентификаторов документов, смещения и длины пассажей. При автоматической
оценке результатов можно допускать отклонения ответа системы от эталонного в
смещении и длине на некоторое количество символов.

Построить оценки можно методом общего котла.


С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

Next

Return to Вопросно-ответный и фактографический поиск

Who is online

Users browsing this forum: No registered users and 15 guests

cron