romip.ru

Posted: **Sat May 29, 2004 2:16 pm**

Добрый день,

сегодня организаторы Диалога сообщили, что доклад о РОМИП перенесен
на субботу (5-е июня), в утреннюю стендовую секцию. Поскольку
у некоторых участников РОМИП доклады в тот же день, то наверное
неформальную встречу по РОМИП тоже правильнее устроить в
субботу (вечером, после секций?).

-igor

Posted: **Sun May 30, 2004 7:36 am**

> неформальную встречу по РОМИП тоже правильнее устроить в
> субботу (вечером, после секций?).
согласен

ПБ

Posted: **Sun May 30, 2004 10:54 am**

Яндекс будет представлять Александр Садовский

funsad@...

Илья

Posted: **Tue Jun 01, 2004 9:22 am**

На Диалог-2004 УИС РОССИЯ будет представлять Наталья Лукашевич.
Она может рассказать об итогах поездки на LREC2004.

Полезно было бы обсудить вопросы оценивания:

1) как я понимаю, возникли вопросы по выбору метрик

2) в любом случае, мне кажется, было бы полезно ввести
градацию при оценивании релевантности документа:

= релевантен
= скорее релевантен
= не уверен
= не оценивался
= скорее нерелевантен
= не релевантен

Борис.

Posted: **Tue Jun 01, 2004 10:04 am**

> На Диалог-2004 УИС РОССИЯ будет представлять Наталья Лукашевич.
> Она может рассказать об итогах поездки на LREC2004.

это было бы здорово

> 1) как я понимаю, возникли вопросы по выбору метрик

Если речь идет о формулах по которым вычисляются итоговые оценки на основе
таблиц релевантности, то это мне кажется относительно простой вопрос - мы
можем использовать столько формул, сколько нам захочется и этот набор можно
расширять потом.

Тем не менее список конечно полезно составить/подправить.

> 2) в любом случае, мне кажется, было бы полезно ввести
> градацию при оценивании релевантности документа:
>
> = релевантен
> = скорее релевантен
> = не уверен
> = не оценивался
> = скорее нерелевантен
> = не релевантен

технически это не сложно, но есть 2 концептуальных проблемы:
a. Как объяснить оценщику что эти уровни значат
b. как правильно такие оценки сводить в бинарную таблицу
(weak/strong - это были крайности)

И если (b) можно отложить (взяв сейчас несколько простых вариантов
типа weak/strong и еще парочки) и исследовать детально потом (после
этого цикла), то вот что делать с (a) я не знаю. Может ли кто-нибудь
написать внятную инструкцию для ассеосра (типа той, что была в прошлом
году), в которой объясняется, что это за уровни и как их расставлять
(с примерами). Иначе, оценщики будут постояно путаться.

Возможно, стоит попробовать расширенную шкалу паралельно обычной
для одной из дорожек (например, части запросов для adhoc поиска по
народ.ру). Это позволит понять насколько это работает и совпадает с узкой
шкалой. Конечно это некоторое усложнение оценки и лишние ресурсы ...

-igor

Posted: **Tue Jun 01, 2004 1:51 pm**

День добрый,

> > 1) как я понимаю, возникли вопросы по выбору метрик
>
> Если речь идет о формулах по которым вычисляются итоговые оценки на основе
> таблиц релевантности, то это мне кажется относительно простой вопрос - мы
> можем использовать столько формул, сколько нам захочется и этот набор можно
> расширять потом.
>
> Тем не менее список конечно полезно составить/подправить.
>

На мой взгляд, вопрос достаточно принципиальный, так как не все,
особенно внешние люди, вникают в смысл применяемых метрик, но могут
делать те или иные выводы...

Мне кажется, должны быть какие-то метрики оценки - "официальные",
принятые РОМИП, причем, желательно ДО (!) начала годового цикла.

Остальные метрики - неофициальные (!), их можно обсуждать и т.п.,
но они не могут выражать точку зрения оргкомитета в целом.

Какие же метрики взять официальными?
Для меня нет вопроса - это метрики TREC!
Это позволяет нам сравнивать и сравниваться с тем, что там делалось.
Любые другие - только после общего обсуждения.

У любой метрики есть проблемы.
У TRECовской - что делать в случае, если на запрос нет релевантных
документов.
Вопрос непростой - "полнота" неопределена, "точность" - тоже, причем
данная ситуация неустойчива
(привлеченные эксперты-студенты считают что нет релевантных документов,
а затем найдется - и результаты сильно поплывут...)

Я думаю, надо сделать как в TREC - не оценивать запросы, где очень мало
релевантных документов (меньше 5-10).

> > 2) в любом случае, мне кажется, было бы полезно ввести
> > градацию при оценивании релевантности документа:
> >
> > = релевантен
> > = скорее релевантен
> > = не уверен
> > = не оценивался
> > = скорее нерелевантен
> > = не релевантен
>
> технически это не сложно, но есть 2 концептуальных проблемы:
> a. Как объяснить оценщику что эти уровни значат
> b. как правильно такие оценки сводить в бинарную таблицу
> (weak/strong - это были крайности)
>
> И если (b) можно отложить (взяв сейчас несколько простых вариантов
> типа weak/strong и еще парочки) и исследовать детально потом (после
> этого цикла), то вот что делать с (a) я не знаю. Может ли кто-нибудь
> написать внятную инструкцию для ассеосра (типа той, что была в прошлом
> году), в которой объясняется, что это за уровни и как их расставлять
> (с примерами). Иначе, оценщики будут постояно путаться.
>
> Возможно, стоит попробовать расширенную шкалу паралельно обычной
> для одной из дорожек (например, части запросов для adhoc поиска по
> народ.ру). Это позволит понять насколько это работает и совпадает с узкой
> шкалой. Конечно это некоторое усложнение оценки и лишние ресурсы ...
>

Мне кажется (и у нас есть опыт работы с экспертами), что как раз
неширокая, но гибкая шкала более понятна оценщикам.
Лчно я сторонник НИЧЕГО не объяснять оценщикам, когда речь идет, как в
нашем случае,
о "широких запросах" - это более соответствует реальной ситуации поиска
в Web.

Борис

Posted: **Tue Jun 01, 2004 3:20 pm**

От Гарант-Парк-Интернет с 3-го по 6-е будет Александр Ермаков.

+ прилагаю формальный вариант тем для фактографического поиска
Игорь, Георгий - прошу ознакомиться и внести правки.

С уважением,
Владимир Плешко

Posted: **Wed Jun 02, 2004 3:22 pm**

Добрый день!

>> > 1) как я понимаю, возникли вопросы по выбору метрик
>>
>> Если речь идет о формулах по которым вычисляются итоговые оценки на основе
>> таблиц релевантности, то это мне кажется относительно простой вопрос - мы
>> можем использовать столько формул, сколько нам захочется и этот набор можно
>> расширять потом.
>>
>> Тем не менее список конечно полезно составить/подправить.
>>

d> На мой взгляд, вопрос достаточно принципиальный, так как не все,
d> особенно внешние люди, вникают в смысл применяемых метрик, но могут
d> делать те или иные выводы...

d> Мне кажется, должны быть какие-то метрики оценки - "официальные",
d> принятые РОМИП, причем, желательно ДО (!) начала годового цикла.

d> Остальные метрики - неофициальные (!), их можно обсуждать и т.п.,
d> но они не могут выражать точку зрения оргкомитета в целом.

d> Какие же метрики взять официальными?
d> Для меня нет вопроса - это метрики TREC!
d> Это позволяет нам сравнивать и сравниваться с тем, что там делалось.
d> Любые другие - только после общего обсуждения.

Полностью согласен.

d> У любой метрики есть проблемы.
d> У TRECовской - что делать в случае, если на запрос нет релевантных
d> документов.
d> Вопрос непростой - "полнота" неопределена, "точность" - тоже, причем
d> данная ситуация неустойчива
d> (привлеченные эксперты-студенты считают что нет релевантных документов,
d> а затем найдется - и результаты сильно поплывут...)

d> Я думаю, надо сделать как в TREC - не оценивать запросы, где очень мало
d> релевантных документов (меньше 5-10).

Сегодня я нашел описание этой ситуации в описании утилиты trec_eval
(которая используется в TREC):
http://www-nlpir.nist.gov/projects/trecvid/trecvid.tools/trec_eval/README

VERSION 3 changes (from Version 2):
1. Totally disregards queries with no relevant judged documents.
(Previously only disregarded queries with no judged documents)

Соответственно, в TREC запросы, для которых нет релевантных
документов, исключаются из рассмотрения.

Я считаю, что все остальные запросы оценивать нужно.

Михаил Агеев.

Posted: **Wed Jun 02, 2004 3:40 pm**

Добрый день!

>> > 2) в любом случае, мне кажется, было бы полезно ввести
>> > градацию при оценивании релевантности документа:
>> >
>> > = релевантен
>> > = скорее релевантен
>> > = не уверен
>> > = не оценивался
>> > = скорее нерелевантен
>> > = не релевантен
>>
>> технически это не сложно, но есть 2 концептуальных проблемы:
>> a. Как объяснить оценщику что эти уровни значат
>> b. как правильно такие оценки сводить в бинарную таблицу
>> (weak/strong - это были крайности)
>>
>> И если (b) можно отложить (взяв сейчас несколько простых вариантов
>> типа weak/strong и еще парочки) и исследовать детально потом (после
>> этого цикла), то вот что делать с (a) я не знаю. Может ли кто-нибудь
>> написать внятную инструкцию для ассеосра (типа той, что была в прошлом
>> году), в которой объясняется, что это за уровни и как их расставлять
>> (с примерами). Иначе, оценщики будут постояно путаться.
>>
>> Возможно, стоит попробовать расширенную шкалу паралельно обычной
>> для одной из дорожек (например, части запросов для adhoc поиска по
>> народ.ру). Это позволит понять насколько это работает и совпадает с узкой
>> шкалой. Конечно это некоторое усложнение оценки и лишние ресурсы ...
>>

d> Мне кажется (и у нас есть опыт работы с экспертами), что как раз
d> неширокая, но гибкая шкала более понятна оценщикам.
d> Лчно я сторонник НИЧЕГО не объяснять оценщикам, когда речь идет, как в
d> нашем случае,
d> о "широких запросах" - это более соответствует реальной ситуации поиска
d> в Web.

На мой взгляд, кое-что объяснять оценщикам всё-таки придётся.
А именно, нужно хоть как-то объяснить, что такое релевантность
(философский вопрос :-)).
Иначе у экспертов могут возникнуть необычные трактовки того, что нужно
оценивать. Типа "релевантный - если встречаются все слова запроса".

Я предлагаю дать оценщикам инструкцию типа такой:

Представьте себя на месте пользователя, который для поиска документов
сформулировал такой-то запрос. Сделайте (как можно более реальное)
предположение о том, что хотел найти пользователь, какие документы
нужны пользователю, какую информацию пользователь хотел извлечь из
найденных документов. Затем для каждого документа оцените, подходит ли
данный документ этому пользователю.
Документы, которые подходят пользователю, называются релевантными.
Которые не подходят - соответственно, нерелевантными. Можно
ставить также промежуточные оценки "скорее релевантен", "не уверен",
"скорее нерелевантен".

Михаил.

romip.ru

РОМИП & Диалог'2004

Re: [romip] РОМИП & Диалог'2004

Re: [romip] РОМИП & Диалог'2004

Re: [romip] РОМИП & Диалог'2004

Re: [romip] РОМИП & Диалог'2004

Re[2]: [romip] РОМИП & Диалог'2004

Re[2]: [romip] РОМИП & Диалог'2004