Добрый день, Сергей,
Monday, July 7, 2008, 5:03:08 PM, you wrote:
SK> Тут гораздо всё проще, Борис. Я поясню, о чём идёт речь, коллеги:
SK> Берём для примера две системы: первая отбирает только те документы, в
SK> которых слова из запроса встречаются в точности, как они написаны в запросе
SK> ("контекстная" система), а вторая работает так же, но сначала исправляет
SK> граматические ошибки, причём как в тексте запроса, так и в искомых
SK> документах плюс ещё, возможно, ищет синонимы ("интеллектуальная" система).
хм...
Так как в РОМИП большинство участников УЖЕ автоматически использует
морфологию, а часть исправляет орфографию на лету - тогда уже сейчас
большинство участвующих систем "интеллектуальные"...
С моей точки зрения - это не есть интеллектуальные системы
Замена на синонимы - вопрос гораздо более сложный, так как надо
правильно определить значение слов, чтобы выбрать соответствующие
синонимы и/или подчиненные/ассоциированные термины
И почему ограничиваться только синонимами? А статичные тезаурусы или
динамичные - LSA, PRF, langage models всякие?
Кстати, а что такое "синонимы" - полных синонимов очень мало, а что
такое "квазисинонимы" каждый понимет по своему - невозможно будет
выработать общее объяснение для асессоров
SK> Далее, ответы обеих систем даются аксессору, который загружает отобранные
SK> ими документы в браузер и для того, чтобы побыстрее определить релевантность
SK> документа, действует следующим образом. Он берёт первое слово из запроса,
SK> ищет все его вхождения в документ с помощью встроенного в браузер
SK> контекстного поиска и смотрит окружающие это слово фразы. Затем он берёт
SK> второе слово из запроса, и далее по очереди. Если на каком-то этапе фраза,
SK> найденная браузером, отвечает тексту запроса, то документ оценивается как
SK> релевантный; если же алгорифм заканчивается просмотром всех слов из запроса,
SK> и ничего, отвечающего запросу при этом не находится, то - как нерелевантный
SK> (процедуру несколько упрощаю, так как аксессор может ответить "не знаю", но
SK> это несущественно). Мы все так действуем, чтобы не читать весь документ, а
SK> побыстрее определить, что же именно находят наши системы, не так ли?
Это не выглядит реалистичным - у нас нет таких асессоров - и не будет
Асессоры должны моделировать реальных пользователей, а не программное
обеспечение по формальной проверке совпадения документа запросу
И вроде бы вполне в РОМИП асессоры "похожи" на реальных пользователей
И почему надо просматривать запрос с начала, а не с конца?
Так мы быстренько доберемся до "фокуса запроса" - и опять - что это
такое - слишком разные могут быть взгляды
SK> Так вот, этот алгорифм не действует для оценки ответов "интеллектуальной"
SK> системы, поскольку ни одного из слов запроса в документах, найденных такой
SK> системой, может и не быть.
SK> Примеры:
SK> Запрос: "ping-pong". Ответ абстрактной "интеллектуальной" системы: ...
SK> "пинга-понга" ...
SK> Запрос: "sundschlussels". Ответ: ... "ключ к морским воротам" ... (текст,
SK> окружающий то, что нашла система, опущен)
SK> Запрос: "города". Ответ: ... "gorod.ru" ...
SK> и т.п.; тексты запросов и ответы - реальные (или почти реальные - я по
SK> памяти пишу).
SK> Так вот, аксессор, котрый будет, несомненно, применять средства навигации,
SK> встроенные в броузер, не увидит найденные "интеллектуальной" системой
SK> фрагменты текста, и ошибочно оценит документы как нерелевантные. Он возьмёт
SK> первое слово из запроса, поищет его браузером, а такого слова нет. То же с
SK> остальными словами. Ну, не найдя ничего, может бегло и прочитает текст
SK> документа, но если быстро ничего не найдет (а это объективно сложно в
SK> длинных документах), то сделает вывод: документ нерелевантный.
Как я понимаю - в РОМИП асессоры не работают так формально, как Вы
изобразили - они читают запрос и текст и пытаются понять связь между
ними
Если связь они видят - хорошо, нет - плохо
Дальше действуют общие законы - асессорам требуется больше времени на
осознание релевантности документа не содержащего слов запроса, поэтому
есть опасность пропуска таких документов
Но запретов никаких нет
SK> Я не беру на себя право утверждать, что, скажем, моя система относится к
SK> классу "интеллектуальных", да это и не так вовсе. Одако, в большинстве
SK> случаев (не менее четверти) я действительно далеко не сразу могу сообразить,
SK> что же именно было найдено моей системой. И не понимаю, как это будет
SK> делать аксессор, тем более, что он не знает, что поиск, скажем, у меня
SK> ведётся
SK> не по словам вообще, а по Q-Term'ам. Важно то, что в среднем оценки ответов
SK> более (условно!) "интеллектуальных" систем асксессорами будут сдвигаться в
SK> худшую сторону. Насколько сильно - никто не знает, но речь идёт о
SK> фундаментальном моменте - равноправие систем, которое нарушается, если
SK> аксессор имеет возможность применять средства компьютерной навигации при
SK> оценке ответов систем. Думаю, как минимум процентов 5%-10% релевантных
SK> документов будут оценены как нерелевантные, если не принять никакие меры.
SK> Я предложил вот какие меры:
SK> a) Лишить аксессора права пользоваться любыми средствами компютерной
SK> навигации. Грубо говоря, отнять от них клавиатуру: пусть только листают
SK> документы мышью, как если бы у них в руках была распечатка. Или заставить их
SK> пользоваться специально написанным для них браузером, в котором нет никаких
SK> функций поиска - можно только листать вперёд-назад. И всё. Вот тогда
SK> аксессор вынужден будет действительно читать документы, и все системы будут
SK> равноправны. Поскольку участвую первый раз и не полностью представляю себе,
SK> как именно происходит оценка, то не могу сказать, насколько такая мера
SK> выполнима на практике. Однако, отнять у аксессора возможность использования
SK> любых средств компьютерной навигации, кроме "листания" документов
SK> вперёд-назад, это - идеальное решение.
Это я поддерживаю, так как недобросовенность асессоров, сокращающих
себе время оценки за счет контекстного поиска - возможная проблема
оценки (правда не думаю, что самая критическая)
Гораздо более, все-таки, важнее - найти правильное соотношение между
разными членами запроса и словами документа.
SK> б) Наряду со списком документов включать в отчёты систем те фразы, которые и
SK> были найдены. Тогда ответ систем в виде XML выглядел бы примерно так:
SK>
SK>
SK>
http://www.romip.ru/page1.htmSK> текст найденной фразы, возможно, как-то закодированной, скажем, в
SK> BASE64
SK>
SK> ....
SK>
http://www.romip.ru/page2.htmSK> текст найденной фразы
SK>
SK>
SK> Таг можно сделать необязательным, если система точно не "знает",
SK> где именно находится релевантная фраза (у меня такие технологии также есть).
SK> Ну, а выдаваемую фразу давать аксессору - это здорово упростит и ускорит
SK> процедуру. К сожалению, на этот год уже, наверное, поздно, хотя решение
SK> зависит от нас всех.
это другая дорожка - контекстно-зависимые аннотации, может быть QA -
в любом случае - другая
SK> в) Дать возможность участникам оспорить некоторые из оценок, полученные от
SK> аксессоров, например, указанием таких фраз, до подсчёта оценок. То есть
SK> раздать всем ответы аксессоров, и дать 5 дней, в течении которых отдельные
SK> ответы можно оспорить (в хорошем смысле этого слова). После чего все
SK> оспоренные документы снова дать аксессорам, а их мнение повторно уже не
SK> оспаривать, даже если они продолжают говорить, что документ нерелевантный, а
SK> нам кажется иначе. Это - ещё реализуемо прямо в этом году. Наверное.
РОМИП - не соревнование - это эксперимент.
То есть нет никакой ОБЩЕЙ интерпретации результатов.
Что померили асессоры - само по себе данные эксперимента.
Вы вольны представить на очной встрече свою интерпретацию результатов,
но не можете менять результаты асессоров ПОСЛЕ.
Тут все могут рвануться подчищать по своим правилам....
SK> г) Были у меня ещё предложения типа дать аксессорам мои фонетические
SK> поисковщики, но его я снимаю, поскольку в этом случае предпочтение будет
SK> отдаваться системам, похожим на мою, и равенство при оценивании систем также
SK> будет нарушено; я это как-то сам сразу не понял ...
Думаю, что, в общем случае, с фонетическими синонимами вопросов еще
больше чем с обычными.
SK> Так вот, вопрос заключается в том, будем что-то делать или будем считать,
SK> что проблемы нет, и у меня галлюцинации? Повторяю, речь идёт о
SK> фундаментальном принципе равноправия участников, относительно которого
SK> у меня есть достаточно, как мне кажется, аргументированные сомнения, что
SK> он выполняется при существующей на данный момент процедуре.
SK> Задача пользователя - найти информацию, а задача аксессора, который призван
SK> моделировать пользователя, - поскорее избавиться от документа и перейти к
SK> оценке следующего, поскольку он работает сдельно. Это - разные задачи;
SK> отсюда и источник неравноправия.
Изложу свое мнение.
Нет тут никакого равноправия, так как вопроса такого нет - это не
соревнование.
Или Вы всерьез считаете, что соревнуетесь, скажем, с Яндексом (который
в случае "важного" соревнования в состоянии организовать вычитку всех
результатов по всем 25 тысячам запросов)?
РОМИП - только эксперимент, где для некоторой условной задачи
участники проверяют НЕКОТОРЫЕ грани своих теорий и технологий.
Лучшие результаты говорят только о том, что Ваша или другая технология
находится "на уровне" для некоторых, в меру экзотических задач
информационного поиска.
Надеюсь, участвуя в РОМИП, Вы быстро придете к мысли, что неудачное
применение своей технологии ГОРАЗДО более важно, чем удачное.
Потому что РОМИП - самое ДЕШЕВОЕ средство провести комплексное
тестирование СОБСТВЕННЫХ технологий.
С уважением,
Борис Добров
SK> ----- Original Message -----
SK> From: "Boris V. Dobrov" dobroff@...>
SK> To: "Igor Nekrestyanov" igor@...>
SK> Cc: "Sergey Krylov" SKrylov@...>;
romip@yahoogroups.com>
SK> Sent: Monday, July 07, 2008 2:54 PM
SK> Subject: Re: [romip] Re: Parity of participants
>> Добрый день,
>>
>> Monday, July 7, 2008, 1:42:47 PM, you wrote:
>>
>> IN> Отвечаю в общий список рассылки.
>>
>>>> 1. Моё мнение о процедуре оценки ответов поисковых систем
>>>> оценщиками Вы знаете: она нарушает принцип равноправия
>>>> усастников. Я прошу Вас раcпространить это мнение внутри
>>>> самой организации РОМИП и принять меры по нейтрализации
>>>> негативного фактора занижения оценщиками ответов более
>>>> интеллектуальных систем. Этот фактор я оцениваю как весомый.
>>>> Спасибо.
>>
>> IN> Список рассылки публичный, так что у вас и у любого другого
>> IN> участника и просто интересующегося всегда есть возможность
>> IN> сделать это самостоятельно.
>>
>> IN> При проведении оценки в РОМИП мы пытаемся опираться на информацию о
>> том,
>> IN> считают ли КОНЕЧНЫЕ пользователи ответ релевантным
>> IN> (мы не одни используем такой подход, смотрите, например, TREC).
>> IN> Хотя безусловно асессоры != конечный пользователь и процедура оценки
>> IN> не идеальна. И конечно можно/нужно обсуждать улучшение оценки.
>>
>> IN> С другой стороны - РОМИП это НЕ соревнование, а в основном инструмент
>> IN> для разработчиков и исследователей, чтобы узнать что-то новое про свою
>> IN> систему из результатов оценки и комментариев других, кто работает
>> IN> в этой эе области. Так что некоторая неидеальность методологии
>> IN> возможно несколько занижает ценность результатов и разрешающую
>> способность
>> IN> метода оценки, но с другой стороны не является фатальной проблемой.
>>
>>
>> 1) наш опыт свидетельствует (что коорелирует с выказанным многими
>> исследователями мнением), что поисковые потребности "новичков" и
>> "экспертов" различаются
>>
>> если первым требуется "хоть что-то", то вторым - развернутые ответы,
>> новые сведения и т.п.
>>
>> мне представляется, что текущие дорожки по поиску ориентированы на
>> моделирование оценки потребности первого типа - следует учесть, что
>> запросы "новичков" составляют подавляющее число от всех запросов в
>> Интернет-поисковых машинах
>>
>> 2) если есть желание сравнить "интеллектуальные" системы - требуется
>> организовать отдельную дорожку
>>
>> если сообщество помнит - я пытался предложить такую на Круглом столе -
>> оцениваются только те документы выдачи, где мера пословного
>> соответствия запроса (скажем, Okapi BM25) меньше заданного порога
>>
>> однако, постановка задачи не была поддержана - в виду "не
>> актуальности"
>>
>> 3) если есть желающие организовать такую дорожку - можно пообсуждать
>>
>> 4) про "принять меры" - меня очень позабавило - как-то надо пояснить,
>> что решения в РОМИП принимаются почти что консенсусом
>>
>>
>> --
>> С наилучшими пожеланиями,
>> Борис Добров
>>
SK> __________ NOD32 3243 (20080704) Information __________
SK> This message was checked by NOD32 antivirus system.
SK>
http://www.eset.com--
С наилучшими пожеланиями,
Б.В.Добров