Re: Parity of participants

Общие обсуждения - потенциальные будущие дорожки, использование материалов РОМИП вне семинара, очные встречи и прочие вопросы для которых нет отдельной подтемы

Postby neigor » Mon Jul 07, 2008 9:42 am

Сергей, добрый день,

Отвечаю в общий список рассылки.

> 1. Моё мнение о процедуре оценки ответов поисковых систем
> оценщиками Вы знаете: она нарушает принцип равноправия
> усастников. Я прошу Вас раcпространить это мнение внутри
> самой организации РОМИП и принять меры по нейтрализации
> негативного фактора занижения оценщиками ответов более
> интеллектуальных систем. Этот фактор я оцениваю как весомый.
> Спасибо.

Список рассылки публичный, так что у вас и у любого другого
участника и просто интересующегося всегда есть возможность
сделать это самостоятельно.

При проведении оценки в РОМИП мы пытаемся опираться на информацию о том,
считают ли КОНЕЧНЫЕ пользователи ответ релевантным
(мы не одни используем такой подход, смотрите, например, TREC).
Хотя безусловно асессоры != конечный пользователь и процедура оценки
не идеальна. И конечно можно/нужно обсуждать улучшение оценки.

С другой стороны - РОМИП это НЕ соревнование, а в основном инструмент
для разработчиков и исследователей, чтобы узнать что-то новое про свою
систему из результатов оценки и комментариев других, кто работает
в этой эе области. Так что некоторая неидеальность методологии
возможно несколько занижает ценность результатов и разрешающую способность
метода оценки, но с другой стороны не является фатальной проблемой.

> 2. У меня ещё один вопрос, уважаемый Игорь.
> Допустим, сравниваются две системы: "Red" vs. "Green". При этом по
> любому из запросов ответы Red и Green либо одинаковые, либо список,
> предложенный Green - длиннее. То есть начало списков Red и Green
> всегда одинаковое: Green сначала "сдирает" отчёты с хорошистки Red,
> возможно, добавляя в хвост ещё что-то, что этот двоечник списывает
> у других, когда учитель не видит.
>
> Верно ли, что метрики Green по любому из критериев (точность,
> полнота, 11-ти точечный график TREC, и bpref) не хуже, чем у Red?
>
> Извините за вопрос, я сам пользуюсь оценками совершенно другого
> типа, поэтому мне разобраться довольно сложно, а Вы, я думаю, легко
> ответите.

Если разница появлятся ниже порога глубины выдачи на котором вычисляется
оценка - то нет. (Например вычисляем точность на глубине 10,
а разница начинается после 50-го элемента)

Если вы имеете ввиду, что разница попадает в порог, и эта разница
в том, что в одном случае ответов нет, а во втором они нерелевантны,
то ответ зависит от того как интерпретировать отсутствующий ответ.
Я думаю, что утилита по расчету оценок будет интерпретировать
такую ситуацию как нерелевантные ответы.
(вычисляем точность на уровне 10, первая система вернула 7 ответов,
вторая 10 из которых первые 7 те же, а 8-10 - нерелевантны.
Точность будет одинаковой).

На практике практически всегда учасники возвращают не меньше требуемого
минимального числа документов, так что это никогда не срабатывает.

Если вы полагаете, что такой способ вычисления метрик плохо подчеркивает
особенности вашей системы, то вы можете самостоятельно расчитать
"откорректированные" оценки для вашей системы и описатьэто в статье/докладе.
Можно также рассмотреть возможность включения доп. метрик для расчета.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] Re: Parity of participants

Postby dobroff2003 » Mon Jul 07, 2008 10:54 am

Добрый день,

Monday, July 7, 2008, 1:42:47 PM, you wrote:

IN> Отвечаю в общий список рассылки.

>> 1. Моё мнение о процедуре оценки ответов поисковых систем
>> оценщиками Вы знаете: она нарушает принцип равноправия
>> усастников. Я прошу Вас раcпространить это мнение внутри
>> самой организации РОМИП и принять меры по нейтрализации
>> негативного фактора занижения оценщиками ответов более
>> интеллектуальных систем. Этот фактор я оцениваю как весомый.
>> Спасибо.

IN> Список рассылки публичный, так что у вас и у любого другого
IN> участника и просто интересующегося всегда есть возможность
IN> сделать это самостоятельно.

IN> При проведении оценки в РОМИП мы пытаемся опираться на информацию о том,
IN> считают ли КОНЕЧНЫЕ пользователи ответ релевантным
IN> (мы не одни используем такой подход, смотрите, например, TREC).
IN> Хотя безусловно асессоры != конечный пользователь и процедура оценки
IN> не идеальна. И конечно можно/нужно обсуждать улучшение оценки.

IN> С другой стороны - РОМИП это НЕ соревнование, а в основном инструмент
IN> для разработчиков и исследователей, чтобы узнать что-то новое про свою
IN> систему из результатов оценки и комментариев других, кто работает
IN> в этой эе области. Так что некоторая неидеальность методологии
IN> возможно несколько занижает ценность результатов и разрешающую способность
IN> метода оценки, но с другой стороны не является фатальной проблемой.


1) наш опыт свидетельствует (что коорелирует с выказанным многими
исследователями мнением), что поисковые потребности "новичков" и
"экспертов" различаются

если первым требуется "хоть что-то", то вторым - развернутые ответы,
новые сведения и т.п.

мне представляется, что текущие дорожки по поиску ориентированы на
моделирование оценки потребности первого типа - следует учесть, что
запросы "новичков" составляют подавляющее число от всех запросов в
Интернет-поисковых машинах

2) если есть желание сравнить "интеллектуальные" системы - требуется
организовать отдельную дорожку

если сообщество помнит - я пытался предложить такую на Круглом столе -
оцениваются только те документы выдачи, где мера пословного
соответствия запроса (скажем, Okapi BM25) меньше заданного порога

однако, постановка задачи не была поддержана - в виду "не
актуальности"

3) если есть желающие организовать такую дорожку - можно пообсуждать

4) про "принять меры" - меня очень позабавило - как-то надо пояснить,
что решения в РОМИП принимаются почти что консенсусом


--
С наилучшими пожеланиями,
Борис Добров
dobroff2003
Оргкомитет
 
Posts: 83
Joined: Fri May 23, 2003 9:52 am

Re: [romip] Re: Parity of participants

Postby dobroff2003 » Mon Jul 07, 2008 2:10 pm

Добрый день, Сергей,

Monday, July 7, 2008, 5:03:08 PM, you wrote:

SK> Тут гораздо всё проще, Борис. Я поясню, о чём идёт речь, коллеги:

SK> Берём для примера две системы: первая отбирает только те документы, в
SK> которых слова из запроса встречаются в точности, как они написаны в запросе
SK> ("контекстная" система), а вторая работает так же, но сначала исправляет
SK> граматические ошибки, причём как в тексте запроса, так и в искомых
SK> документах плюс ещё, возможно, ищет синонимы ("интеллектуальная" система).

хм...

Так как в РОМИП большинство участников УЖЕ автоматически использует
морфологию, а часть исправляет орфографию на лету - тогда уже сейчас
большинство участвующих систем "интеллектуальные"...

С моей точки зрения - это не есть интеллектуальные системы

Замена на синонимы - вопрос гораздо более сложный, так как надо
правильно определить значение слов, чтобы выбрать соответствующие
синонимы и/или подчиненные/ассоциированные термины

И почему ограничиваться только синонимами? А статичные тезаурусы или
динамичные - LSA, PRF, langage models всякие?

Кстати, а что такое "синонимы" - полных синонимов очень мало, а что
такое "квазисинонимы" каждый понимет по своему - невозможно будет
выработать общее объяснение для асессоров

SK> Далее, ответы обеих систем даются аксессору, который загружает отобранные
SK> ими документы в браузер и для того, чтобы побыстрее определить релевантность
SK> документа, действует следующим образом. Он берёт первое слово из запроса,
SK> ищет все его вхождения в документ с помощью встроенного в браузер
SK> контекстного поиска и смотрит окружающие это слово фразы. Затем он берёт
SK> второе слово из запроса, и далее по очереди. Если на каком-то этапе фраза,
SK> найденная браузером, отвечает тексту запроса, то документ оценивается как
SK> релевантный; если же алгорифм заканчивается просмотром всех слов из запроса,
SK> и ничего, отвечающего запросу при этом не находится, то - как нерелевантный
SK> (процедуру несколько упрощаю, так как аксессор может ответить "не знаю", но
SK> это несущественно). Мы все так действуем, чтобы не читать весь документ, а
SK> побыстрее определить, что же именно находят наши системы, не так ли?

Это не выглядит реалистичным - у нас нет таких асессоров - и не будет

Асессоры должны моделировать реальных пользователей, а не программное
обеспечение по формальной проверке совпадения документа запросу

И вроде бы вполне в РОМИП асессоры "похожи" на реальных пользователей

И почему надо просматривать запрос с начала, а не с конца?

Так мы быстренько доберемся до "фокуса запроса" - и опять - что это
такое - слишком разные могут быть взгляды


SK> Так вот, этот алгорифм не действует для оценки ответов "интеллектуальной"
SK> системы, поскольку ни одного из слов запроса в документах, найденных такой
SK> системой, может и не быть.

SK> Примеры:
SK> Запрос: "ping-pong". Ответ абстрактной "интеллектуальной" системы: ...
SK> "пинга-понга" ...
SK> Запрос: "sundschlussels". Ответ: ... "ключ к морским воротам" ... (текст,
SK> окружающий то, что нашла система, опущен)
SK> Запрос: "города". Ответ: ... "gorod.ru" ...
SK> и т.п.; тексты запросов и ответы - реальные (или почти реальные - я по
SK> памяти пишу).

SK> Так вот, аксессор, котрый будет, несомненно, применять средства навигации,
SK> встроенные в броузер, не увидит найденные "интеллектуальной" системой
SK> фрагменты текста, и ошибочно оценит документы как нерелевантные. Он возьмёт
SK> первое слово из запроса, поищет его браузером, а такого слова нет. То же с
SK> остальными словами. Ну, не найдя ничего, может бегло и прочитает текст
SK> документа, но если быстро ничего не найдет (а это объективно сложно в
SK> длинных документах), то сделает вывод: документ нерелевантный.

Как я понимаю - в РОМИП асессоры не работают так формально, как Вы
изобразили - они читают запрос и текст и пытаются понять связь между
ними

Если связь они видят - хорошо, нет - плохо

Дальше действуют общие законы - асессорам требуется больше времени на
осознание релевантности документа не содержащего слов запроса, поэтому
есть опасность пропуска таких документов

Но запретов никаких нет

SK> Я не беру на себя право утверждать, что, скажем, моя система относится к
SK> классу "интеллектуальных", да это и не так вовсе. Одако, в большинстве
SK> случаев (не менее четверти) я действительно далеко не сразу могу сообразить,
SK> что же именно было найдено моей системой. И не понимаю, как это будет
SK> делать аксессор, тем более, что он не знает, что поиск, скажем, у меня
SK> ведётся
SK> не по словам вообще, а по Q-Term'ам. Важно то, что в среднем оценки ответов
SK> более (условно!) "интеллектуальных" систем асксессорами будут сдвигаться в
SK> худшую сторону. Насколько сильно - никто не знает, но речь идёт о
SK> фундаментальном моменте - равноправие систем, которое нарушается, если
SK> аксессор имеет возможность применять средства компьютерной навигации при
SK> оценке ответов систем. Думаю, как минимум процентов 5%-10% релевантных
SK> документов будут оценены как нерелевантные, если не принять никакие меры.

SK> Я предложил вот какие меры:

SK> a) Лишить аксессора права пользоваться любыми средствами компютерной
SK> навигации. Грубо говоря, отнять от них клавиатуру: пусть только листают
SK> документы мышью, как если бы у них в руках была распечатка. Или заставить их
SK> пользоваться специально написанным для них браузером, в котором нет никаких
SK> функций поиска - можно только листать вперёд-назад. И всё. Вот тогда
SK> аксессор вынужден будет действительно читать документы, и все системы будут
SK> равноправны. Поскольку участвую первый раз и не полностью представляю себе,
SK> как именно происходит оценка, то не могу сказать, насколько такая мера
SK> выполнима на практике. Однако, отнять у аксессора возможность использования
SK> любых средств компьютерной навигации, кроме "листания" документов
SK> вперёд-назад, это - идеальное решение.

Это я поддерживаю, так как недобросовенность асессоров, сокращающих
себе время оценки за счет контекстного поиска - возможная проблема
оценки (правда не думаю, что самая критическая)

Гораздо более, все-таки, важнее - найти правильное соотношение между
разными членами запроса и словами документа.

SK> б) Наряду со списком документов включать в отчёты систем те фразы, которые и
SK> были найдены. Тогда ответ систем в виде XML выглядел бы примерно так:
SK>
SK>
SK> http://www.romip.ru/page1.htm
SK> текст найденной фразы, возможно, как-то закодированной, скажем, в
SK> BASE64
SK>
SK> ....

SK> http://www.romip.ru/page2.htm
SK> текст найденной фразы
SK>
SK>
SK> Таг можно сделать необязательным, если система точно не "знает",
SK> где именно находится релевантная фраза (у меня такие технологии также есть).
SK> Ну, а выдаваемую фразу давать аксессору - это здорово упростит и ускорит
SK> процедуру. К сожалению, на этот год уже, наверное, поздно, хотя решение
SK> зависит от нас всех.

это другая дорожка - контекстно-зависимые аннотации, может быть QA -
в любом случае - другая

SK> в) Дать возможность участникам оспорить некоторые из оценок, полученные от
SK> аксессоров, например, указанием таких фраз, до подсчёта оценок. То есть
SK> раздать всем ответы аксессоров, и дать 5 дней, в течении которых отдельные
SK> ответы можно оспорить (в хорошем смысле этого слова). После чего все
SK> оспоренные документы снова дать аксессорам, а их мнение повторно уже не
SK> оспаривать, даже если они продолжают говорить, что документ нерелевантный, а
SK> нам кажется иначе. Это - ещё реализуемо прямо в этом году. Наверное.

РОМИП - не соревнование - это эксперимент.
То есть нет никакой ОБЩЕЙ интерпретации результатов.
Что померили асессоры - само по себе данные эксперимента.

Вы вольны представить на очной встрече свою интерпретацию результатов,
но не можете менять результаты асессоров ПОСЛЕ.

Тут все могут рвануться подчищать по своим правилам.... :)

SK> г) Были у меня ещё предложения типа дать аксессорам мои фонетические
SK> поисковщики, но его я снимаю, поскольку в этом случае предпочтение будет
SK> отдаваться системам, похожим на мою, и равенство при оценивании систем также
SK> будет нарушено; я это как-то сам сразу не понял ...

Думаю, что, в общем случае, с фонетическими синонимами вопросов еще
больше чем с обычными.

SK> Так вот, вопрос заключается в том, будем что-то делать или будем считать,
SK> что проблемы нет, и у меня галлюцинации? Повторяю, речь идёт о
SK> фундаментальном принципе равноправия участников, относительно которого
SK> у меня есть достаточно, как мне кажется, аргументированные сомнения, что
SK> он выполняется при существующей на данный момент процедуре.

SK> Задача пользователя - найти информацию, а задача аксессора, который призван
SK> моделировать пользователя, - поскорее избавиться от документа и перейти к
SK> оценке следующего, поскольку он работает сдельно. Это - разные задачи;
SK> отсюда и источник неравноправия.

Изложу свое мнение.

Нет тут никакого равноправия, так как вопроса такого нет - это не
соревнование.

Или Вы всерьез считаете, что соревнуетесь, скажем, с Яндексом (который
в случае "важного" соревнования в состоянии организовать вычитку всех
результатов по всем 25 тысячам запросов)?

РОМИП - только эксперимент, где для некоторой условной задачи
участники проверяют НЕКОТОРЫЕ грани своих теорий и технологий.

Лучшие результаты говорят только о том, что Ваша или другая технология
находится "на уровне" для некоторых, в меру экзотических задач
информационного поиска.

Надеюсь, участвуя в РОМИП, Вы быстро придете к мысли, что неудачное
применение своей технологии ГОРАЗДО более важно, чем удачное.

Потому что РОМИП - самое ДЕШЕВОЕ средство провести комплексное
тестирование СОБСТВЕННЫХ технологий.

С уважением,
Борис Добров


SK> ----- Original Message -----
SK> From: "Boris V. Dobrov" dobroff@...>
SK> To: "Igor Nekrestyanov" igor@...>
SK> Cc: "Sergey Krylov" SKrylov@...>; romip@yahoogroups.com>
SK> Sent: Monday, July 07, 2008 2:54 PM
SK> Subject: Re: [romip] Re: Parity of participants


>> Добрый день,
>>
>> Monday, July 7, 2008, 1:42:47 PM, you wrote:
>>
>> IN> Отвечаю в общий список рассылки.
>>
>>>> 1. Моё мнение о процедуре оценки ответов поисковых систем
>>>> оценщиками Вы знаете: она нарушает принцип равноправия
>>>> усастников. Я прошу Вас раcпространить это мнение внутри
>>>> самой организации РОМИП и принять меры по нейтрализации
>>>> негативного фактора занижения оценщиками ответов более
>>>> интеллектуальных систем. Этот фактор я оцениваю как весомый.
>>>> Спасибо.
>>
>> IN> Список рассылки публичный, так что у вас и у любого другого
>> IN> участника и просто интересующегося всегда есть возможность
>> IN> сделать это самостоятельно.
>>
>> IN> При проведении оценки в РОМИП мы пытаемся опираться на информацию о
>> том,
>> IN> считают ли КОНЕЧНЫЕ пользователи ответ релевантным
>> IN> (мы не одни используем такой подход, смотрите, например, TREC).
>> IN> Хотя безусловно асессоры != конечный пользователь и процедура оценки
>> IN> не идеальна. И конечно можно/нужно обсуждать улучшение оценки.
>>
>> IN> С другой стороны - РОМИП это НЕ соревнование, а в основном инструмент
>> IN> для разработчиков и исследователей, чтобы узнать что-то новое про свою
>> IN> систему из результатов оценки и комментариев других, кто работает
>> IN> в этой эе области. Так что некоторая неидеальность методологии
>> IN> возможно несколько занижает ценность результатов и разрешающую
>> способность
>> IN> метода оценки, но с другой стороны не является фатальной проблемой.
>>
>>
>> 1) наш опыт свидетельствует (что коорелирует с выказанным многими
>> исследователями мнением), что поисковые потребности "новичков" и
>> "экспертов" различаются
>>
>> если первым требуется "хоть что-то", то вторым - развернутые ответы,
>> новые сведения и т.п.
>>
>> мне представляется, что текущие дорожки по поиску ориентированы на
>> моделирование оценки потребности первого типа - следует учесть, что
>> запросы "новичков" составляют подавляющее число от всех запросов в
>> Интернет-поисковых машинах
>>
>> 2) если есть желание сравнить "интеллектуальные" системы - требуется
>> организовать отдельную дорожку
>>
>> если сообщество помнит - я пытался предложить такую на Круглом столе -
>> оцениваются только те документы выдачи, где мера пословного
>> соответствия запроса (скажем, Okapi BM25) меньше заданного порога
>>
>> однако, постановка задачи не была поддержана - в виду "не
>> актуальности"
>>
>> 3) если есть желающие организовать такую дорожку - можно пообсуждать
>>
>> 4) про "принять меры" - меня очень позабавило - как-то надо пояснить,
>> что решения в РОМИП принимаются почти что консенсусом
>>
>>
>> --
>> С наилучшими пожеланиями,
>> Борис Добров
>>


SK> __________ NOD32 3243 (20080704) Information __________

SK> This message was checked by NOD32 antivirus system.
SK> http://www.eset.com




--
С наилучшими пожеланиями,
Б.В.Добров
dobroff2003
Оргкомитет
 
Posts: 83
Joined: Fri May 23, 2003 9:52 am


Return to Общие вопросы

Who is online

Users browsing this forum: No registered users and 4 guests