Дорожка по "фактографическому поиску"

RE: [romip] Дорожка по "фактографическому поиску"?

Postby vladimir_pleshko » Wed Apr 07, 2004 7:55 am

> хорошо. Смещение в чем? в байтах в исходной html версии?
Думаю, да. Это значительно упростит создание средств оценки.

> Это вроде бы логично, но многие участники вырезают html разметку.
Вырезание разметки приведет к неоднозначности в разбиении текста на предложения.

> И в случае смещения в html, разметка естественно не должна входить в
> 200/400 байт
Естественно, считаются видимые символы текста (что видит конечный пользователь).

> (или 250/500 лучше?)
Затрудняюсь ответить. Для фактографического поиска идеально бы выдавать если уж
не точный ответ или синтезированный текст "без бахромы", то хотя бы полные
предложения текста. То есть, в моем понимании, ограничение на длину пассажа
является больше защитой нервной системы оценщиков в случае ошибок систем.
В пилотной версии дорожки требовать выдачу предложений нереально и не
"демократично". Тем более, что о корректности разбиения на предложения так же
можно спорить.

> А если смещение после вырезания разметки, то надо стандартизировать
> вырезание ...
То есть предоставить версии страниц в плоском тексте (и сохранить информацию для
сопоставления смещений в плоском тексте и исходном html). Кто хочет, пусть
обрабатывет текст, кто хочет - html.

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

RE: [romip] Дорожка по "фактографическому поиску"?

Postby vladimir_pleshko » Wed Apr 07, 2004 8:35 am

> Насчет стандартизации вырезания - зачем? ведь указав фрагмент текста и
> документ, откуда он взят,
> получим однозначную идентификацию.
Если система дает ссылку на исходный html, то все OK.
Это не работает в случае, если система сначала произвела плоский текст,
проанализировала его, а потом дала ссылки на него.

> По поводу что именно искать: так как поиск фактогафический,
> то название
> обязывает (по-моему)
> некое тематическое картирование информации по персоне(ам),
> напр. биография,
> события,
> труды, .. .
Я пытался донести подобную идею в своем первом варианте постановки. Но, боюсь,
для пилотной дорожки это будет сложновато. Времени уже практически не осталось.

> Не совсем ясно, зачем ограничиваться только персонами, ведь
> те же алгоритмы будут работать
> и с произвольными объектами (городами, предприятиями и т.п.).
> Меняться будет только список тем картирования.
Большой разницы действительно нет. С "географией" все совсем просто. С
предприятиями - сложней выделять референтные наименования. Можно, в принципе,
сделать аналогичную дорожку по предприятиям. Вопрос, что искать (простой вариант
- все, как для персон, более сложные - выделить типы событий: купля/продажа,
операции с акциями, владение и т.п.).
Список предприятий - можно взять случайное подмножество ЕГРЮЛ (единый гос.
реестр юр. лиц), но там много "мертвых" или тех, о ком не пишут.
Коллекция народ.ру, подозреваю, так же не самая лучшая для поиска предприятий.
Лучше всего подходит для этой цели какая-нибудь новостная бизнес-лента. Нужно
искать, договариваться с правообладатлем.

Есть у меня сомнения, что успеем в этом году.

На следующий год будет корпус по персонам (с биографиями, которые собирут
оценщики из ответов систем). На основе этого корпуса будет достаточно легко
сделать "продвинутую" фактографическую дорожку по персонам.

Если состоится новостная дорожка, то будет гораздо легче заключить договор с
правообладателями на использование коллекции новостных сообщений для других
задач.

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

Re: [romip] Дорожка по "фактографическому поиску"?

Postby g.dernovoy » Wed Apr 07, 2004 9:47 am

По поводу успеем или нет мне кажется, что главное, это не представление
абы-каких результатов,
а достижение поставленных задач. В конце концов, если мы ставим задачу
исходя из названия,
и кто-то чего не успеет, то большой проблемы не будет (не на корову играем).
Если исключить классификацию, задача вырождается в обычный поиск, хотя,
конечно, может я чего-то не понимаю.
Георгий.

> Насчет стандартизации вырезания - зачем? ведь указав фрагмент текста и
> документ, откуда он взят,
> получим однозначную идентификацию.
Если система дает ссылку на исходный html, то все OK.
Это не работает в случае, если система сначала произвела плоский текст,
проанализировала его, а потом дала ссылки на него.

> По поводу что именно искать: так как поиск фактогафический,
> то название
> обязывает (по-моему)
> некое тематическое картирование информации по персоне(ам),
> напр. биография,
> события,
> труды, .. .
Я пытался донести подобную идею в своем первом варианте постановки. Но,
боюсь, для пилотной дорожки это будет сложновато. Времени уже практически не
осталось.

> Не совсем ясно, зачем ограничиваться только персонами, ведь
> те же алгоритмы будут работать
> и с произвольными объектами (городами, предприятиями и т.п.).
> Меняться будет только список тем картирования.
Большой разницы действительно нет. С "географией" все совсем просто. С
предприятиями - сложней выделять референтные наименования. Можно, в
принципе, сделать аналогичную дорожку по предприятиям. Вопрос, что искать
(простой вариант - все, как для персон, более сложные - выделить типы
событий: купля/продажа, операции с акциями, владение и т.п.).
Список предприятий - можно взять случайное подмножество ЕГРЮЛ (единый гос.
реестр юр. лиц), но там много "мертвых" или тех, о ком не пишут.
Коллекция народ.ру, подозреваю, так же не самая лучшая для поиска
предприятий. Лучше всего подходит для этой цели какая-нибудь новостная
бизнес-лента. Нужно искать, договариваться с правообладатлем.

Есть у меня сомнения, что успеем в этом году.

На следующий год будет корпус по персонам (с биографиями, которые собирут
оценщики из ответов систем). На основе этого корпуса будет достаточно легко
сделать "продвинутую" фактографическую дорожку по персонам.

Если состоится новостная дорожка, то будет гораздо легче заключить договор с
правообладателями на использование коллекции новостных сообщений для других
задач.

С уважением,
Владимир Плешко
g.dernovoy
 
Posts: 12
Joined: Fri Jul 04, 2003 12:33 pm

RE: [romip] Дорожка по "фактографическому поиску"?

Postby vladimir_pleshko » Wed Apr 07, 2004 10:52 am

> По поводу успеем или нет мне кажется, что главное, это не
> представление абы-каких результатов, а достижение
> поставленных задач. В конце концов, если мы ставим задачу
> исходя из названия, и кто-то чего не успеет, то большой
> проблемы не будет (не на корову играем).

"абы-какие" результаты не хотелось бы, конечно, получать. Но семинар находится
на стадии становления - успешное проведение дорожки, хоть и в упрощенной
постановке, является достаточно важным (например, для получения гранта на оплату
ассессоров, для получения разрешения на использование коллекций).
Фактографическая дорожка для семинара новая. Результат может получиться как в
прошлом году с поиском и классификацией. Чем сложнее задача - тем больше
вероятность, что первый блин будет комом.

Кроме того, семинар является коллективным мероприятием. Постановка задачи
является каким-либо разумным компромиссом между участниками. В частности, "найти
_все_ о персоне" - это результат моего обсуждения с Игорем. Я был изначально за
формализованное описание факта и предоставление системой точного ответа.

> Если исключить классификацию, задача вырождается в обычный
> поиск, хотя, конечно, может я чего-то не понимаю.

Отличие от обычного поиска я вижу одно - выделение референтных наименований
объекта. Например, "Иванов Иван Иванович" = "И.И. Иванов" = "Иван Иванов" =
личные местоимения. В результате можно будет количествено оценить, как это
влияет на полноту и точность. Кроме того, будет побочный результат работы
ассессоров - по оцениваемым персонам будут собраны наборы фактов, упоминание
которых есть в корпусе. Это поможет составить более сложное задание.

Чтобы ввести в дорожку классификацию фактов/событий, нужно составить справочник,
с которым системы будут сопоставлять найденные факты. С каждым типом факта
(темой) должно быть представлено описание, которым будут пользоваться авторы
систем и оценщики. Кстати, как оценивать качество? Видимо в двух номинациях:
-релевантен ли пасссаж (содержит ли информацию о персоне),
-правильно ли пассаж классифицирован.

Не обязательно все пассажи должны быть классифицированы. Классификация не
обязательно должна быть однозначной. Справочник типов фактов (тем) не должен
быть слишком большим (скажем до 20). Дополнительная нагрузка на ассессоров не
очень большая.

Такая постановка отличается от моей первоначальной. Я предлагал искать только
факты заданных типов. В данном случае, кто может, тот классифицирует.

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

Re: [romip] Дорожка по "фактографическому поиску"?

Postby neigor » Wed Apr 07, 2004 10:55 am

> Насчет стандартизации вырезания - зачем? ведь указав фрагмент текста и
> документ, откуда он взят,
> получим однозначную идентификацию.

ну, во-первых фрагменты могут повторяться (правда такие большие маловероятно).
во-вторых там есть технические сложности, кто-то убирая HTML-разметку,
заменит & на &, а кто-то нет и простое сравнение строк можен не
сработать. Наверняка найдутся и еще затруднения.

Вообщем-то это не суть важно, главное, чтобы был механизм, позволяющий
ассессору заглянуть в документ, чтобы понять кто этот "он" о котором идет
речь в пассаже из контекста.

Я думаю, что мы попросим в качестве ответа пассаж + его смещение в байтах
от начала исходного документа (без вырезания html-разметки).

> По поводу что именно искать: так как поиск фактогафический, то название
> обязывает (по-моему) некое тематическое картирование информации по
> персоне(ам), напр. биография, события, труды, .. . Не совсем ясно, зачем
> ограничиваться только персонами, ведь те же алгоритмы будут работать и с
> произвольными объектами (городами, предприятиями и т.п.). Меняться будет
> только список тем картирования.

Это ведь первый раз, вообще конечно задачу можно рассматривать широко,
но для первого раза лучше сосредоточится на каком-то конкретном типе
объектов. Это:
- упрощает подготовку разумных заданий (в данном случае нужен
только набор персон),
- повышает надежность оценки (она ведь выборочная
и если вдруг алгоритм ведет себя по-разному для разных объектов,
то усредненная оценка может необоснованно поплыть)
- облегчает формулировку задания для ассессоров, что тоже сказывается на
качестве оценки.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] Дорожка по "фактографическому поиску"?

Postby g.dernovoy » Wed Apr 07, 2004 11:47 am

Согласен, что рациональный подход состоит в формировании необходимого
минимума задания,
остальное представить как опцию по желанию. Тогда желающие могут представить
результаты по опциям на докладе. В данной дорожке опцией будет тематическое
картирование. Если у кого есть интерес к этому, то список тем можно
обсудить; в принципе список можно формировать произвольно, классифицируя
относящуюся к объекту информацию по некоторому готовому каталогу.

Георгий.

> По поводу успеем или нет мне кажется, что главное, это не
> представление абы-каких результатов, а достижение
> поставленных задач. В конце концов, если мы ставим задачу
> исходя из названия, и кто-то чего не успеет, то большой
> проблемы не будет (не на корову играем).

"абы-какие" результаты не хотелось бы, конечно, получать. Но семинар
находится на стадии становления - успешное проведение дорожки, хоть и в
упрощенной постановке, является достаточно важным (например, для получения
гранта на оплату ассессоров, для получения разрешения на использование
коллекций). Фактографическая дорожка для семинара новая. Результат может
получиться как в прошлом году с поиском и классификацией. Чем сложнее
задача - тем больше вероятность, что первый блин будет комом.

Кроме того, семинар является коллективным мероприятием. Постановка задачи
является каким-либо разумным компромиссом между участниками. В частности,
"найти _все_ о персоне" - это результат моего обсуждения с Игорем. Я был
изначально за формализованное описание факта и предоставление системой
точного ответа.

> Если исключить классификацию, задача вырождается в обычный
> поиск, хотя, конечно, может я чего-то не понимаю.

Отличие от обычного поиска я вижу одно - выделение референтных наименований
объекта. Например, "Иванов Иван Иванович" = "И.И. Иванов" = "Иван Иванов" =
личные местоимения. В результате можно будет количествено оценить, как это
влияет на полноту и точность. Кроме того, будет побочный результат работы
ассессоров - по оцениваемым персонам будут собраны наборы фактов, упоминание
которых есть в корпусе. Это поможет составить более сложное задание.

Чтобы ввести в дорожку классификацию фактов/событий, нужно составить
справочник, с которым системы будут сопоставлять найденные факты. С каждым
типом факта (темой) должно быть представлено описание, которым будут
пользоваться авторы систем и оценщики. Кстати, как оценивать качество?
Видимо в двух номинациях:
-релевантен ли пасссаж (содержит ли информацию о персоне),
-правильно ли пассаж классифицирован.

Не обязательно все пассажи должны быть классифицированы. Классификация не
обязательно должна быть однозначной. Справочник типов фактов (тем) не должен
быть слишком большим (скажем до 20). Дополнительная нагрузка на ассессоров
не очень большая.

Такая постановка отличается от моей первоначальной. Я предлагал искать
только факты заданных типов. В данном случае, кто может, тот классифицирует.
g.dernovoy
 
Posts: 12
Joined: Fri Jul 04, 2003 12:33 pm

Re: [romip] Дорожка по "фактографическому поиску"?

Postby neigor » Wed Apr 07, 2004 12:57 pm

On Wed, 7 Apr 2004, George Dernovoy wrote:

> Согласен, что рациональный подход состоит в формировании необходимого
> минимума задания,
> остальное представить как опцию по желанию. Тогда желающие могут представить
> результаты по опциям на докладе. В данной дорожке опцией будет тематическое
> картирование. Если у кого есть интерес к этому, то список тем можно
> обсудить; в принципе список можно формировать произвольно, классифицируя
> относящуюся к объекту информацию по некоторому готовому каталогу.

Дело в том, что "опции" мы не можем гарантировано оценить
с помощью ассессоров (если будет время/ресурсы, то конечно,).
То есть, сделать если какой-либо участник в порядке демонстрации
готов сделать какую-то опцию сверх общего задания и рассказать на семинаре
об этом в дополнение к рассказу об общей задаче - то тут проблем нет.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] Дорожка по "фактографическому поиску"?

Postby g.dernovoy » Wed Apr 07, 2004 1:20 pm

>Дело в том, что "опции" мы не можем гарантировано оценить
>с помощью ассессоров (если будет время/ресурсы, то конечно,).
>То есть, сделать если какой-либо участник в порядке демонстрации
>готов сделать какую-то опцию сверх общего задания и рассказать на семинаре
>об этом в дополнение к рассказу об общей задаче - то тут проблем нет.

Именно это я и имел ввиду.

> Согласен, что рациональный подход состоит в формировании необходимого
> минимума задания,
> остальное представить как опцию по желанию. Тогда желающие могут
представить
> результаты по опциям на докладе. В данной дорожке опцией будет
тематическое
> картирование. Если у кого есть интерес к этому, то список тем можно
> обсудить; в принципе список можно формировать произвольно, классифицируя
> относящуюся к объекту информацию по некоторому готовому каталогу.

Дело в том, что "опции" мы не можем гарантировано оценить
с помощью ассессоров (если будет время/ресурсы, то конечно,).
То есть, сделать если какой-либо участник в порядке демонстрации
готов сделать какую-то опцию сверх общего задания и рассказать на семинаре
об этом в дополнение к рассказу об общей задаче - то тут проблем нет.

-igor






Yahoo! Groups Links
g.dernovoy
 
Posts: 12
Joined: Fri Jul 04, 2003 12:33 pm

RE: [romip] Дорожка по "фактографическому поиску"?

Postby vladimir_pleshko » Wed Apr 07, 2004 1:58 pm

Может я чего не учел, но мне кажется, что технически можно огранизовать
параллельно оценки релевантности пассажа объекту и типу факта (=теме). То есть
ассессор одновременно оценивает как адекватность пассажа, так и связанного с ним
класса (классов).

> >Дело в том, что "опции" мы не можем гарантировано оценить
> >с помощью ассессоров (если будет время/ресурсы, то конечно,).
> >То есть, сделать если какой-либо участник в порядке демонстрации
> >готов сделать какую-то опцию сверх общего задания и
> рассказать на семинаре
> >об этом в дополнение к рассказу об общей задаче - то тут проблем нет.
>
> Именно это я и имел ввиду.
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

RE: [romip] Дорожка по "фактографическому поиску"?

Postby neigor » Wed Apr 07, 2004 3:11 pm

> Может я чего не учел, но мне кажется, что технически можно огранизовать
> параллельно оценки релевантности пассажа объекту и типу факта (=теме). То
> есть ассессор одновременно оценивает как адекватность пассажа, так и
> связанного с ним класса (классов).

в общем да, но есть ряд моментов:
- если ассесору давать готовый словарь типов фактов,
то их смысл надо объяснять (и будет масса вопросов типа
- это относится к этому факту или к этому?)
Опыт показал: задача для ассессора должна быть максимально интуитивно
понятной (это особенно важно, поскольку мы не стоим у ассессоров за
спиной и если они не поймут и не спросят, то результат может быть
плачевен).
- в пассаже может быть больше одного факта.

Поэтому я и предлагал просить ассессоров в каком-то более-менее
явном виде выписывать конкретные факты/события, а потом можно попробовать их
систематизировать/структурировать и вывести словарь. Что из них
реально удастся выжать зависит от того насколько удобное "Рабочее место
ассессора" удастся подготовить.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

PreviousNext

Return to Вопросно-ответный и фактографический поиск

Who is online

Users browsing this forum: No registered users and 7 guests

cron