Page 1 of 1

PostPosted: Sat May 29, 2004 2:16 pm
by neigor
Добрый день,

сегодня организаторы Диалога сообщили, что доклад о РОМИП перенесен
на субботу (5-е июня), в утреннюю стендовую секцию. Поскольку
у некоторых участников РОМИП доклады в тот же день, то наверное
неформальную встречу по РОМИП тоже правильнее устроить в
субботу (вечером, после секций?).

-igor

Re: [romip] РОМИП & Диалог'2004

PostPosted: Sun May 30, 2004 7:36 am
by pb
> неформальную встречу по РОМИП тоже правильнее устроить в
> субботу (вечером, после секций?).
согласен

ПБ

Re: [romip] РОМИП & Диалог'2004

PostPosted: Sun May 30, 2004 10:54 am
by segalovich
Яндекс будет представлять Александр Садовский

funsad@...

Илья

PostPosted: Tue Jun 01, 2004 9:22 am
by dobroff2003
На Диалог-2004 УИС РОССИЯ будет представлять Наталья Лукашевич.
Она может рассказать об итогах поездки на LREC2004.

Полезно было бы обсудить вопросы оценивания:

1) как я понимаю, возникли вопросы по выбору метрик

2) в любом случае, мне кажется, было бы полезно ввести
градацию при оценивании релевантности документа:

= релевантен
= скорее релевантен
= не уверен
= не оценивался
= скорее нерелевантен
= не релевантен



Борис.

Re: [romip] РОМИП & Диалог'2004

PostPosted: Tue Jun 01, 2004 10:04 am
by neigor
> На Диалог-2004 УИС РОССИЯ будет представлять Наталья Лукашевич.
> Она может рассказать об итогах поездки на LREC2004.

это было бы здорово

> 1) как я понимаю, возникли вопросы по выбору метрик

Если речь идет о формулах по которым вычисляются итоговые оценки на основе
таблиц релевантности, то это мне кажется относительно простой вопрос - мы
можем использовать столько формул, сколько нам захочется и этот набор можно
расширять потом.

Тем не менее список конечно полезно составить/подправить.

> 2) в любом случае, мне кажется, было бы полезно ввести
> градацию при оценивании релевантности документа:
>
> = релевантен
> = скорее релевантен
> = не уверен
> = не оценивался
> = скорее нерелевантен
> = не релевантен

технически это не сложно, но есть 2 концептуальных проблемы:
a. Как объяснить оценщику что эти уровни значат
b. как правильно такие оценки сводить в бинарную таблицу
(weak/strong - это были крайности)

И если (b) можно отложить (взяв сейчас несколько простых вариантов
типа weak/strong и еще парочки) и исследовать детально потом (после
этого цикла), то вот что делать с (a) я не знаю. Может ли кто-нибудь
написать внятную инструкцию для ассеосра (типа той, что была в прошлом
году), в которой объясняется, что это за уровни и как их расставлять
(с примерами). Иначе, оценщики будут постояно путаться.

Возможно, стоит попробовать расширенную шкалу паралельно обычной
для одной из дорожек (например, части запросов для adhoc поиска по
народ.ру). Это позволит понять насколько это работает и совпадает с узкой
шкалой. Конечно это некоторое усложнение оценки и лишние ресурсы ...

-igor

Re: [romip] РОМИП & Диалог'2004

PostPosted: Tue Jun 01, 2004 1:51 pm
by dobroff2003
День добрый,

> > 1) как я понимаю, возникли вопросы по выбору метрик
>
> Если речь идет о формулах по которым вычисляются итоговые оценки на основе
> таблиц релевантности, то это мне кажется относительно простой вопрос - мы
> можем использовать столько формул, сколько нам захочется и этот набор можно
> расширять потом.
>
> Тем не менее список конечно полезно составить/подправить.
>

На мой взгляд, вопрос достаточно принципиальный, так как не все,
особенно внешние люди, вникают в смысл применяемых метрик, но могут
делать те или иные выводы...

Мне кажется, должны быть какие-то метрики оценки - "официальные",
принятые РОМИП, причем, желательно ДО (!) начала годового цикла.

Остальные метрики - неофициальные (!), их можно обсуждать и т.п.,
но они не могут выражать точку зрения оргкомитета в целом.

Какие же метрики взять официальными?
Для меня нет вопроса - это метрики TREC!
Это позволяет нам сравнивать и сравниваться с тем, что там делалось.
Любые другие - только после общего обсуждения.

У любой метрики есть проблемы.
У TRECовской - что делать в случае, если на запрос нет релевантных
документов.
Вопрос непростой - "полнота" неопределена, "точность" - тоже, причем
данная ситуация неустойчива
(привлеченные эксперты-студенты считают что нет релевантных документов,
а затем найдется - и результаты сильно поплывут...)

Я думаю, надо сделать как в TREC - не оценивать запросы, где очень мало
релевантных документов (меньше 5-10).


> > 2) в любом случае, мне кажется, было бы полезно ввести
> > градацию при оценивании релевантности документа:
> >
> > = релевантен
> > = скорее релевантен
> > = не уверен
> > = не оценивался
> > = скорее нерелевантен
> > = не релевантен
>
> технически это не сложно, но есть 2 концептуальных проблемы:
> a. Как объяснить оценщику что эти уровни значат
> b. как правильно такие оценки сводить в бинарную таблицу
> (weak/strong - это были крайности)
>
> И если (b) можно отложить (взяв сейчас несколько простых вариантов
> типа weak/strong и еще парочки) и исследовать детально потом (после
> этого цикла), то вот что делать с (a) я не знаю. Может ли кто-нибудь
> написать внятную инструкцию для ассеосра (типа той, что была в прошлом
> году), в которой объясняется, что это за уровни и как их расставлять
> (с примерами). Иначе, оценщики будут постояно путаться.
>
> Возможно, стоит попробовать расширенную шкалу паралельно обычной
> для одной из дорожек (например, части запросов для adhoc поиска по
> народ.ру). Это позволит понять насколько это работает и совпадает с узкой
> шкалой. Конечно это некоторое усложнение оценки и лишние ресурсы ...
>

Мне кажется (и у нас есть опыт работы с экспертами), что как раз
неширокая, но гибкая шкала более понятна оценщикам.
Лчно я сторонник НИЧЕГО не объяснять оценщикам, когда речь идет, как в
нашем случае,
о "широких запросах" - это более соответствует реальной ситуации поиска
в Web.

Борис

PostPosted: Tue Jun 01, 2004 3:20 pm
by vladimir_pleshko
От Гарант-Парк-Интернет с 3-го по 6-е будет Александр Ермаков.

+ прилагаю формальный вариант тем для фактографического поиска
Игорь, Георгий - прошу ознакомиться и внести правки.

С уважением,
Владимир Плешко

Re[2]: [romip] РОМИП & Диалог'2004

PostPosted: Wed Jun 02, 2004 3:22 pm
by ageev2003
Добрый день!

>> > 1) как я понимаю, возникли вопросы по выбору метрик
>>
>> Если речь идет о формулах по которым вычисляются итоговые оценки на основе
>> таблиц релевантности, то это мне кажется относительно простой вопрос - мы
>> можем использовать столько формул, сколько нам захочется и этот набор можно
>> расширять потом.
>>
>> Тем не менее список конечно полезно составить/подправить.
>>

d> На мой взгляд, вопрос достаточно принципиальный, так как не все,
d> особенно внешние люди, вникают в смысл применяемых метрик, но могут
d> делать те или иные выводы...

d> Мне кажется, должны быть какие-то метрики оценки - "официальные",
d> принятые РОМИП, причем, желательно ДО (!) начала годового цикла.

d> Остальные метрики - неофициальные (!), их можно обсуждать и т.п.,
d> но они не могут выражать точку зрения оргкомитета в целом.

d> Какие же метрики взять официальными?
d> Для меня нет вопроса - это метрики TREC!
d> Это позволяет нам сравнивать и сравниваться с тем, что там делалось.
d> Любые другие - только после общего обсуждения.

Полностью согласен.

d> У любой метрики есть проблемы.
d> У TRECовской - что делать в случае, если на запрос нет релевантных
d> документов.
d> Вопрос непростой - "полнота" неопределена, "точность" - тоже, причем
d> данная ситуация неустойчива
d> (привлеченные эксперты-студенты считают что нет релевантных документов,
d> а затем найдется - и результаты сильно поплывут...)

d> Я думаю, надо сделать как в TREC - не оценивать запросы, где очень мало
d> релевантных документов (меньше 5-10).

Сегодня я нашел описание этой ситуации в описании утилиты trec_eval
(которая используется в TREC):
http://www-nlpir.nist.gov/projects/trecvid/trecvid.tools/trec_eval/README

VERSION 3 changes (from Version 2):
1. Totally disregards queries with no relevant judged documents.
(Previously only disregarded queries with no judged documents)

Соответственно, в TREC запросы, для которых нет релевантных
документов, исключаются из рассмотрения.

Я считаю, что все остальные запросы оценивать нужно.

Михаил Агеев.

Re[2]: [romip] РОМИП & Диалог'2004

PostPosted: Wed Jun 02, 2004 3:40 pm
by ageev2003
Добрый день!

>> > 2) в любом случае, мне кажется, было бы полезно ввести
>> > градацию при оценивании релевантности документа:
>> >
>> > = релевантен
>> > = скорее релевантен
>> > = не уверен
>> > = не оценивался
>> > = скорее нерелевантен
>> > = не релевантен
>>
>> технически это не сложно, но есть 2 концептуальных проблемы:
>> a. Как объяснить оценщику что эти уровни значат
>> b. как правильно такие оценки сводить в бинарную таблицу
>> (weak/strong - это были крайности)
>>
>> И если (b) можно отложить (взяв сейчас несколько простых вариантов
>> типа weak/strong и еще парочки) и исследовать детально потом (после
>> этого цикла), то вот что делать с (a) я не знаю. Может ли кто-нибудь
>> написать внятную инструкцию для ассеосра (типа той, что была в прошлом
>> году), в которой объясняется, что это за уровни и как их расставлять
>> (с примерами). Иначе, оценщики будут постояно путаться.
>>
>> Возможно, стоит попробовать расширенную шкалу паралельно обычной
>> для одной из дорожек (например, части запросов для adhoc поиска по
>> народ.ру). Это позволит понять насколько это работает и совпадает с узкой
>> шкалой. Конечно это некоторое усложнение оценки и лишние ресурсы ...
>>

d> Мне кажется (и у нас есть опыт работы с экспертами), что как раз
d> неширокая, но гибкая шкала более понятна оценщикам.
d> Лчно я сторонник НИЧЕГО не объяснять оценщикам, когда речь идет, как в
d> нашем случае,
d> о "широких запросах" - это более соответствует реальной ситуации поиска
d> в Web.

На мой взгляд, кое-что объяснять оценщикам всё-таки придётся.
А именно, нужно хоть как-то объяснить, что такое релевантность
(философский вопрос :-)).
Иначе у экспертов могут возникнуть необычные трактовки того, что нужно
оценивать. Типа "релевантный - если встречаются все слова запроса".

Я предлагаю дать оценщикам инструкцию типа такой:

Представьте себя на месте пользователя, который для поиска документов
сформулировал такой-то запрос. Сделайте (как можно более реальное)
предположение о том, что хотел найти пользователь, какие документы
нужны пользователю, какую информацию пользователь хотел извлечь из
найденных документов. Затем для каждого документа оцените, подходит ли
данный документ этому пользователю.
Документы, которые подходят пользователю, называются релевантными.
Которые не подходят - соответственно, нерелевантными. Можно
ставить также промежуточные оценки "скорее релевантен", "не уверен",
"скорее нерелевантен".

Михаил.