romip.ru

by **neigor** » Tue Jun 15, 2004 7:00 pm

Добрый день,

на очной части семинара в прошлом году и после этого
высказывалось ряд критических замечаний по поводу использования расширенных
описаний для оценки качества результатов.
(для тех кто не в курсе, что это такое -
описание можно найти в
http://romip.narod.ru/romip2003/1_romip_overview.pdf, например раздел 3.2
а полный список в приложениях
http://romip.narod.ru/romip2003/9A_appendix_adhoc.pdf
и
http://romip.narod.ru/romip2003/9B_appendix_class.pdf)

В корне разногласий безусловно лежит расплывчатость понятия "релевантности"
и субъективность его понимания разными людьми.

В принципе основной целью использования таких расширенных описаний и
было собственно снижение влияния этой самой субъективности -
мы используем мнения разных ассесоров, каждый из которых оценивал
ТОЛЬКО ЧАСТЬ найденных документов. Усреднение таких цифр имеет смысл
только если оценивалось одно и то же, а значит понимание этих экспертов о
том что такое искомая информация примерно одинаково.

Этот вопрос вкраце обсуждался во время встречи на Диалог'2004 и
большинство присутствовавших там участников РОМИП высказалось за
использование расширенных описаний. Конечно, это не все участники -
поэтому, если у кого-то есть возражения по поводу такого подхода,
то сейчас последняя возможность как-то на это повлиять.

С другой чтороны вполне справедливо замечание о том, что способ построения
таких расширенных описаний был нестандартизирован и вероятно в ряде случаев
трактовки исходной поисковой проблемы были не самыми лучшими.

На мой взгляд неплохую подход к решению этого вопроса предложил Александр
Садовский - идея состоит в использовании Яндекс.Директ или
Рамблер-Ассоциации для выяснения самого популярного контекста использования
подобного запроса и расширения запроса в этом направлении. это не полный
ответ, поскольку он применим только к дорожке Веб-поиска и не гарантирует
качества описаний (например, является хорошим ответом комерческое
предложение по какой-то теме из Яндекс.Директ наверное не понять)

Тем не менее можно попробовать подготовить какую-то иснструкцию по
подготовке расширенных описаний, чтобы сделать этот процесс более
детерминированным.

-igor

by **maxgubin** » Wed Jun 16, 2004 6:33 am

Всем привет!
Мое личное мнение:
1. Расширенные описания однозначно должны быть. Ведь в данном случае мы
моделируем реальную деятельность человека, а он проводит поиск в некотором
контексте, который должен быть доступен оценщику. То, что этот контекст
неизвестен поисковой машине не важно - в реальной жизни он тоже не известен.
Такое описание вносит некоторую систематическую погрешность, но качественно
на результате не может сказаться. Использовать дополнительную информацию о
пользовательских предпочтениях для составления запросов можно, хотя, как мне
кажется, качественно это на них не повлияет, только упростит задачу
составителя. В принципе, хорошо было бы разослать запросы с описаниями
участникам до оценки, чтобы их можно было просмотреть и высказаться, если
что-то покажется слишком спорным.
2. В своей практике я использую трехуровневую шкалу: Критичный - документ,
который однозначно должен быть найден по данному запросу, релевантный -
документ на тему запроса, но не критичный, нерелевантный - не связанный с
запросом. Тестерам-юристам я объясняю так:
1. Прочитайте запрос и выберите не более 10 документов, которые однозначно
нужно назвать в связи с этим запросом. (Это они делают, не видя выдачи
машины, к сожалению, к Web коллекции это, в большинстве случаев, не
применимо.)
2. Просмотрите ответ системы. Если документ, или его фрагмент, содержит
информацию, связанную с запросом, то есть он помогает расширить знание о
теме по сравнению с критическими документами или содержит аналогичную
информацию, то он релевантен. Проще говоря, если текст вам показался
полезным с точки зрения запроса. Все остальные - нерелевантны.

Я не представляю, как хорошо объяснить более сложные шкалы. Кроме того, мне
не очень понятно, как использовать результаты этих более сложных шкал с
точки зрения анализа работы системы.

Максим
P.S. Что-то я не получил уведомления, что приняты мои результаты по web
ad-hoc дорожке.

by **dobroff2003** » Wed Jun 16, 2004 4:52 pm

Igor Nekrestyanov wrote:
>
> Этот вопрос вкраце обсуждался во время встречи на Диалог'2004 и
> большинство присутствовавших там участников РОМИП высказалось за
> использование расширенных описаний. Конечно, это не все участники -
> поэтому, если у кого-то есть возражения по поводу такого подхода,
> то сейчас последняя возможность как-то на это повлиять.
>
> С другой чтороны вполне справедливо замечание о том, что способ построения
> таких расширенных описаний был нестандартизирован и вероятно в ряде случаев
> трактовки исходной поисковой проблемы были не самыми лучшими.
>

предлагаю всем выполнить запрос по РОМИП Web коллекции "формула 1" и
внимательно посмотреть на получающиеся документы.

Лично я вижу как минимум ТРИ смысла данного запроса:
1) соревнования "Формула 1"
2) всякая косметика - не знаю, что это значит, возможно какой-то признак
качества
3) прямое вхождения в "математический" текст

Я считаю, что ВСЕ интерпретации РАВНОПРАВНЫ в текущей постановке задачи
РОМИП.

Это значит:
- не требуется НИКАКИХ дополнительных инструкций для оценщиков
- если хотите, можно дать такого рода инструкцию:
"если Вы можете представить человека, который сочтет данный документ
релевантным
(то есть за этим лежит определенная область интересов), то документ
признается
релевантным"
- действительно, это не проблема поисковой машины - это проблема
поискового запроса,
неточного/"широкого"
- то есть при оценке надо избегать таких запросов

Действительно - по "формуле 1":
- с автогонками - мужскому населению ничего не надо пояснять
- с косметикой - подозреваю, тут ничего не надо объяснять женскому
- последний вариант интереснее (первые два - тематические) - поиск "на
точное совпадение"
редко встречающегося фрагмента довольно распространен - посмотрите,
например,
список запросов для romip-legal - там довольно много не тематических,
а запросов, именно,
на поиск КОНКРЕТНОГО, известного пользователю документа

Еще обоснование:
- рассмотрим идеальную поисковую машину - она ЗНАЕТ, что есть три смысла
- не имея дополнительной информации - самая правильная стратегия -
замешать в выдаче
все три смысла
- при этом она со свистом будет проигрывать ПМ, которая СЛУЧАЙНО выдаст
на верх документы со
смыслом, совпадающим с понимаемым "бригадиром" оценщиков

> На мой взгляд неплохую подход к решению этого вопроса предложил Александр
> Садовский - идея состоит в использовании Яндекс.Директ или
> Рамблер-Ассоциации для выяснения самого популярного контекста использования
> подобного запроса и расширения запроса в этом направлении. это не полный
> ответ, поскольку он применим только к дорожке Веб-поиска и не гарантирует
> качества описаний (например, является хорошим ответом комерческое
> предложение по какой-то теме из Яндекс.Директ наверное не понять)
>

Использование ЛЮБОЙ расширенной интерпретации - это ДРУГАЯ задача.

На мой взгляд, поиск с ориентацией на разные истерпретации - оцень
интересная задача.

При этом:
- как было в прошлом году - деление на коммерческий/некоммерческий
- как предлагается - выделение самого "частого" смысла тем или иным
способом

НО это - ДРУГИЕ задачи, которые не были объявлены!

Давайте ставить их на следующий год в таких постановках.
А на этот год пусть оценщики будут "простыми" пользователями интернет -
что хотят думать,
то пусть и думают.

А лучше всего - убрать из оценки все многозначные вопросы.

Давайте лучше получим ЧИСТЫЕ данные для небольшой задачи,
чем непонятно что для "широкой", по которой НЕТ ЕДИНСТВА.

by **neigor** » Wed Jun 16, 2004 6:30 pm

иллюстрация идеи о построении расширенных описаний от Александра Садовского.
Какие есть комментарии или предложения по улучшению?

> 3) Пример для построения расширенных описаний с использованием
> Яндекс-Директ или чего-то подобного.
> Цель: проилюстрировать идею, возможно даже не для будущих
> исполнителей, а хотя бы для участников РОМИП, чтобы осознать
> устраивает ли их подобный подход.

Предположим, мы рассматриваем запрос
[рейтинг фильмов]

1. Из текста запроса ясно, что ищется некоторый список
фильмов, упорядоченный по оценке (например, зрителей или критиков).
Скорее всего, потребность, стоящая за запросом --
выбор фильма для просмотра или покупки видеокассеты.

Неявно можно предположить, что достоинством такого
рейтинга будут:

1) описание каждого фильма (так как по названиям
не всегда просто понять, что за фильм, да и переводы
названий могут отличаться);

2) возможность выбрать в большом списке фильмов
некоторую подгруппу, которую реально просмотреть
глазами. Например, фильмы по жанру --
комедия, боевик и т.д.

Соответственно, ПЕРВОНАЧАЛЬНОЕ ОПИСАНИЕ может выглядеть
так: "Рейтинг фильмов, составленный на основании
оценок зрителей или критиков. Хороший сайт должен
содержать описания для каждого фильма и возможность
смотреть в рейтинге фильмы, отобранные по разным критериям,
например, жанру или актерам".

2. Проверяем запрос по связанным запросам Директа. 10 запросов,
наиболее тесно связанных с запросом [рейтинг фильмов]:
[лучшие фильмы]
[обзор фильмов]
[рецензии фильмов]
[все о кино]
[о кино]
[новинки видео]
[новинки кино]
[новое кино]
[новые фильмы]
[каталог фильмов]
...

Связанные запросы [обзор фильмов] и [рецензии фильмов] показывают,
что пользователи действительно нуждаются в подробной информации
по каждому фильму, то есть просто упорядоченного по оценкам
рейтинга недостаточно.

Связанные запросы со словами "новинки", "новое" показывают,
что пользователи, скорее всего, смотрят много фильмов
и им интересны прежде всего рейтинги новых лент.

3. По запросам Директа, куда входят слова нашего запроса
"рейтинг" и "фильмов" видно, с какими запросами связаны
эти слова в сознании пользователей. Это не может служить
единственным критерием для интерпретации запроса,
но может дополнять Связанные слова Яндекса и Ассоциации Рамблера.
Итак, 10 самых популярных запросов со словами "рейтинг" и
"фильмов":

[рейтинг dvd фильмов]
[рейтинг лучших фильмов]
[рейтинг фильмов на dvd]
[рейтинг новых фильмов]
[рейтинг эротических фильмов]
[рейтинг российских фильмов]
[рейтинг и описание фильмов]
[рейтинг самых популярных фильмов]
[рейтинг проката фильмов]
[рейтинги фильмов в россии]
...

4. Ассоциации Рамблера считаются за более долгий
период, что приводит к некоторому перекосу для
запросов, которые меняются со временем:

[лучшие фильмы]
[рейтинг фильмов 2002]
[кассовые сборы]
[рейтинг видео]
[фильмы]
[киноафиша]
[лучшие фильмы года]
[видео]
[кино]
[властелин колец]
...

Ассоциированный запрос [кассовые сборы] подтверждает,
что в Директе запрос [рейтинг проката фильмов] был
неслучайным, то есть часть пользователей интересует
рейтинг, составленный на основании данных о кассовых сборах.

КОНЕЧНЫЙ ВАРИАНТ описания:

"Рейтинг фильмов, выпущенных за последний год, составленный
на основании оценок зрителей, критиков, либо кассовых сборов,
а также содержащий рецензии фильмов. Хороший сайт должен
иметь возможность смотреть в рейтинге фильмы, отобранные
по разным критериям, например, жанру или актерам"

Примечание.
Нужно понимать, что Связанные слова Директа
и Ассоциации Рамблера строятся на основе анализа
поисковых сессий, то есть запросов, которые задали
пользователи вскоре после того, как задали
[рейтинг фильмов]. Следовательно, на список ассоциаций
влияет содержание результатов поиска. Если запрос
охватывает 2-3 темы, а в результатах поиска представлена
только одна из них, то в ассоциациях отсутствующие темы
будут представлены сильнее, так как неудовлетворенные
пользователи чаще будут уточнять запрос.

-igor

by **dobroff2003** » Wed Jun 16, 2004 6:42 pm

Все это весьма зыбко и неповторяемо в дальнейшем.

Предлагаю:
1) в этом году использовать только однозначно понимаемые запросы
При этом можно использовать только расширяющие интерпретации
2) в следующем году поставить специальную задачу (дорожку)

Борис

by **segalovich** » Wed Jun 16, 2004 7:27 pm

dobroff wrote:

> Все это весьма зыбко и неповторяемо в дальнейшем.

Еще более зыбким и спорным представляется прошлогодний подход.
В результате которого от 40 до 70 процентов запросов оценивались
не из реальных, а из выдуманных информационных потребностей. И в
результате, оценки, поставленные асессорами, получились весьма искаженными.

Мы декларировали максимальное приближение к "боевым условиям",
в частности, попытку придать релевантности смысл максимально
прагматичный. Причем в прошлогодних интерпретациях все "простые
коммерческие" ответы предлагалось считать нерелевантными, от поисковой
системы требовалось нечто большее, чуть ли не прыжок "выше головы",
например "обзоры", "системы выбора" и т.д.

Так почему же в попытке понять прагматику спрашивающего не опереться на
поисковые сессии? Это бесценный материал, помогающий гораздо лучше и
точнее понять, чего хочет пользователь.

Абстрактный подход смазывает картину гораздо больше, чем попытка
однозначной интерпретации запроса по поисковым сессиям.

>
> Предлагаю:
> 1) в этом году использовать только однозначно понимаемые запросы
> При этом можно использовать только расширяющие интерпретации

Согласен. Но как раз пример с формулой 1 для меня более чем однозначный.
Все без исключения запросы, связанные с данным запросом по поисковым
сессиям Директа, говорят об "автомобильной" интерпретации. Да и для
наивного обывательского взгляда нет никакой иной. Я например и
вообразить ничего иного не могу.

> 2) в следующем году поставить специальную задачу (дорожку)

В чем будем состоять ее специальность? В том, чтобы расширенные
интерпретации придумывались бы не из головы, а из анализа поисковых
сессий? Непонятно, какое это имеет отношение к работе поисковой системы.

С уважением,
Илья

by **neigor** » Wed Jun 16, 2004 11:02 pm

> Я считаю, что ВСЕ интерпретации РАВНОПРАВНЫ в текущей постановке задачи
> РОМИП.

с этим я согласен, НО:
в каждом конкретном случае, конкретный пользователь имеет ввиду конкретную
интерпретацию.

> - действительно, это не проблема поисковой машины - это проблема
> поискового запроса, неточного/"широкого"
> - то есть при оценке надо избегать таких запросов

но ведь это РЕАЛЬНЫЕ запросы, и мне кажется что в большинстве случаев
реальный интерес пользователя был довольно узким (косметика или гонки,
но никак не "в текстах про что встречается слова "формула 1"" или
"что могут называть формула 1".

Если разрешены все интерпретации, то:
1) непонятно что в итоге оценивается? идеальная стратегия смешивания
результатов? Но для этого на самом деле надо учитывать частотные
характеристики заинтересованности пользователей.
2) Нет смысла в разделении пула между оценщиками -
часть будет оценена исходя из одного понимания, другая - исходя из
другого.
[В этом году наверное разделения пулов можно попробовать избежать в
любом случае, если человеческих ресурсов хватит]
3) Непонятно как сливать оценки одной и той же пары документ/запрос
разными оценщиками (у них ведб могут быть разные интерпретации).
Точнее, если то что в прошлом году еще называлось weak relevance
еще имеет смысл, то strong relevance - это пересечение
"гонок" и "косметики" ...

> Еще обоснование:
> - рассмотрим идеальную поисковую машину - она ЗНАЕТ, что есть три смысла
> - не имея дополнительной информации - самая правильная стратегия -
> замешать в выдаче
> все три смысла
> - при этом она со свистом будет проигрывать ПМ, которая СЛУЧАЙНО выдаст
> на верх документы со
> смыслом, совпадающим с понимаемым "бригадиром" оценщиков

Это хороший пример, именно поэтому идея привязки к Яндекс.Директ или чему-то
подобному выглядит привлекательно. Будет выбрана типовая интерпретация, а не
та, которая была на уме у "бригадира".

> > На мой взгляд неплохую подход к решению этого вопроса предложил Александр
> > Садовский - идея состоит в использовании Яндекс.Директ или
> > Рамблер-Ассоциации для выяснения самого популярного контекста использования
> > подобного запроса и расширения запроса в этом направлении. это не полный
> > ответ, поскольку он применим только к дорожке Веб-поиска и не гарантирует
> > качества описаний (например, является хорошим ответом комерческое
> > предложение по какой-то теме из Яндекс.Директ наверное не понять)
> >
>
> Использование ЛЮБОЙ расширенной интерпретации - это ДРУГАЯ задача.

Я не согласен. Если эта интерпретация ЗАРАНЕЕ известна системе, то конечно
да. Но ведь на практике это обычно не так (как минимум для систем поиска по
Веб).

> На мой взгляд, поиск с ориентацией на разные истерпретации - оцень
> интересная задача.

Имея ввиду интерпретации, которые заранее известны системе -
да, безусловно. Было бы интересно их попробовать.

Поскольку разногласия похоже серьезные, то я предлагаю попытаться
продублировать оценку для дорожки поиска по Веб, а именно:

1) Собрать по 2 независимые оценки только по запросам без интерпретаций
2) собрать по 2 или лучше 3 оценки с использованием интерпретаций на
основе Яндекс.Директ или Рамблер-Ассоциации (здесь имеет смысл strong
relevance и правила большинства при слиянии голосов)

при этом
- оценщики для разных видов оценки не будут повторятся
- один оценщик оценивает весь пул целиком
- оценивается одно и то же множество запросов

можно даже сделать более публичным процесс подготовки расширенных описаний
- или лучше обсудить алгоритм и потом поручить активность по составлению
описаний тем же ассесорам?

-igor

by **neigor** » Wed Jun 16, 2004 11:10 pm

> > Все это весьма зыбко и неповторяемо в дальнейшем.
>
> Еще более зыбким и спорным представляется прошлогодний подход.
> В результате которого от 40 до 70 процентов запросов оценивались
> не из реальных, а из выдуманных информационных потребностей. И в
> результате, оценки, поставленные асессорами, получились весьма искаженными.

Насколько я понимаю Борис тоже критикует прошлогодние описания :)
Да собственно никто и не отрицает, что там было что улучшить.

> > Предлагаю:
> > 1) в этом году использовать только однозначно понимаемые запросы
> > При этом можно использовать только расширяющие интерпретации
>
> Согласен. Но как раз пример с формулой 1 для меня более чем однозначный.
> Все без исключения запросы, связанные с данным запросом по поисковым
> сессиям Директа, говорят об "автомобильной" интерпретации. Да и для
> наивного обывательского взгляда нет никакой иной. Я например и
> вообразить ничего иного не могу.

А как понять, что запрос "однозначно понимаем"?

> > 2) в следующем году поставить специальную задачу (дорожку)
>
> В чем будем состоять ее специальность? В том, чтобы расширенные
> интерпретации придумывались бы не из головы, а из анализа поисковых
> сессий? Непонятно, какое это имеет отношение к работе поисковой системы.

Направленность описания (типа коммерческое/некомерческое) в частности
определяет и тип поиска - информационный/транзакционный/..
Однако, интерпретация позволяет наложить более детальные ограничения на
ответ, что рейтинг фильмов должен быть детальным.

И насколько я понимаю, идея этой дорожки в том, что системе каким-то образом
заранее скажут, что интересны ответы такого рода (расширенная интерпретация
заранее известна). Борис, я правильно понимаю?

-igor

by **maxgubin** » Thu Jun 17, 2004 10:25 am

Добрый день!

Поглядев на горячую дискуссию "со стороны" мне показалось, что все три
участника говорят об одном и том же. Проблема в смещенности описания должна
решаться привлечением дополнительных средств. Есть два средства:
1. Использовать информацию о сессиях пользователей, чтобы определиться, что
он имел в виду, но это доступно только для Web дорожки.
2. Предоставить описания участникам, чтобы они могли их согласовать,
доработать. Это позволит избежать перекосов, вызванных частным мнением
бригадира и временными отклонениями статистики поисковиков в 1 способе.
Кроме того, это позволит выявить "неоднозначные вопросы" и снять их, если
это потребуется.

Я предлагаю их оба применить и все. Нет проблем.

Максим
P.S. А уведомления, что мои результаты приняты по web ad-hoc до сих пор
нет....

by **dobroff2003** » Thu Jun 17, 2004 11:31 am

Немного общих замечаний.

Я горячо поддерживаю интерес поиска с моделированием "профиля
пользователя" тем или иным методом,
но это ДРУГАЯ задача, не заявленная в этом цикле.

Применение любых расширенных интерпретаций приведет к тому, что
результаты РОМИПа станут несопоставимы с аналогичными конференциями -
нам труднее будет разобраться какие факторы влияют на результаты
(надеюсь это поможет быстрее локализовать и исправлять ошибки при оценке
результатов

Я считаю, что нам важно сначала получить basic line, с которой можно
будет сравнивать другие р-ты.

Igor Nekrestyanov wrote:
>
> А как понять, что запрос "однозначно понимаем"?

Это очень просто. Тот, кто отбирает 50 запросов для оценки, сначала
составляет список из 100 запросов, их "пробивает" в любой ПМ (лучше в
разных). И если есть сомнения в однозначной интерпретации - запрос в
оценку не идет.

Ilya Segalovich wrote:
>
> Согласен. Но как раз пример с формулой 1 для меня более чем однозначный.
> Все без исключения запросы, связанные с данным запросом по поисковым
> сессиям Директа, говорят об "автомобильной" интерпретации. Да и для
> наивного обывательского взгляда нет никакой иной. Я например и
> вообразить ничего иного не могу.
>

Если посмотреть Директ (часть "что еще искали люди" - то что справа) там
есть небольшая, но часть, посвященная "формулам геометрии, физики и
т.п."

Если выполнить запрос по romip-у, то будет и косметика, причем в
достаточном количестве.

Что считать глобально мерой пользователя - Директ (то что спрашивают
пользователи Яндекса),
либо то, о чем пишут в текстах?

Здесь есть опасность старого анекдота про синоптика и чукчу - "раз чукча
лыжи одел, то будет снег, а чукча лыжи одел, потому что по радио
сказали". Происходит самораскрутка и замыкание.

В нашем случае - если люди, ищущие в Яндексе косметику или митематику,
находят только автогонки - они перестают спрашивать об этом в Яндексе.
Но врядли меняют свои информационные потребности.

> > 2) в следующем году поставить специальную задачу (дорожку)
>
> В чем будем состоять ее специальность? В том, чтобы расширенные
> интерпретации придумывались бы не из головы, а из анализа поисковых
> сессий? Непонятно, какое это имеет отношение к работе поисковой системы.
>

> > > 2) в следующем году поставить специальную задачу (дорожку)
> >
> > В чем будем состоять ее специальность? В том, чтобы расширенные
> > интерпретации придумывались бы не из головы, а из анализа поисковых
> > сессий? Непонятно, какое это имеет отношение к работе поисковой системы.
>
> Направленность описания (типа коммерческое/некомерческое) в частности
> определяет и тип поиска - информационный/транзакционный/..
> Однако, интерпретация позволяет наложить более детальные ограничения на
> ответ, что рейтинг фильмов должен быть детальным.
>
> И насколько я понимаю, идея этой дорожки в том, что системе каким-то образом
> заранее скажут, что интересны ответы такого рода (расширенная интерпретация
> заранее известна). Борис, я правильно понимаю?
>

Здесь целых две дорожки, объединенных общей идеей - поиск широкого
запроса, но с учетом дополнительной информации:

1) накладываемой "снаружи" - надо фильтровать, например, коммерцию
2) учета профиля пользователя (в TRECе есть такая пока "резиновая"
дорожка - HARD TREC)

В этом есть большой смысл - так как пользователи спрашивают широкие
запросы (2-3 слова) и это приводит к разным проблемам - и есть вопрос,
что можно что-то сделать - явный или неявный интерактив.

Ясно, что это большие переделки существующих интерфейсов, причем цена
ошибочных решений может быть весьма высока.
На мой взгляд - как раз задача для РОМИП.

Борис

romip.ru

расширенные описания информационных поиребностей?

расширенные описания информационных поиребностей?

Описание и шкала

Re: расширенные описания информацион

Re: расширенные описания информацион

Re: [romip] расширенные описания информационных потребностей?

Re: расширенные описания информацион

Re: [romip] расширенные описания информационных потребностей?

[romip] расширенные описания информационных потребностей?

Re: расширенные описания информацион

Who is online