romip.ru

by **neigor** » Fri May 23, 2008 6:20 am

Я согласен что каждый N-й это относительно разумный способ построения
выборки, но оценивать случайные запросы сложно. Асессор может плохо
представлять о чем идет речь, а при наших объемах оценки плохо понятные
запросы могут привнести много шума в таблицу релевантности.

Что касается собственно темы письма, то мне кажется, что сейчас реалистично
сделать следующее:
1) включить в число запросов для оценки некоторое количество таких,
слова из которых встречаются в текстах ссылок.
[идеально - на основе пересечения списков таких запросов предоставленных
участниками]
2) попросить асессоров при подготовке расширенных описаний указать
ожидают ли они, что должен быть найден какой-нибудь один конкретный
документ/сайт (и попросить его кратко охарактеризовать - типа "сайт
MTC")
3) расширить число официальных метрик, включив prec(1) например
Можно также посчитать оценку на сужении запросов на те, где важны
ссылки, но можно оставить такой расчет на усмотрение самого учасника.
4) увеличить число оцениваемых заданий (и может быть понизить глубину
пула)
Например, 150 и 20?

Мы безусловно готовы принять новые выборки логов запросов
и по KM и по By.Web для расширения набора заданий.

Процедуру оценки асессорами не менять, если на каких-то запросах
использование ссылок будет приносить дополнительную пользу,
то те кто граф используют смогут это увидеть.

В дополнение к этому лично я хотел бы, чтобы участники могли напрямую
сами влиять на оцениваемую выборку. Мы уже пробовали предложить участникам
отобрать и прислать в оргкомитет несколько запросов из набора заданий,
из которых мы потом бы отобрали часть заданий для оценки.
Реакция была неоднозначной и часть негативной, к тому же это было предложено
уже почти на стадии оценки.

Хотелось бы еще раз вернуться к этому вопросу.

Проблема с нашей неконтролируемой выборкой, что мы можем _вообще_ не
оценить ни одного запроса наиболее интересного конкретному участнику
(например, там где хоть как-то используется ссылочное ранжирование).
Во многом это из-за ее небольшого размера.

Что предлагается. Каждый участник может предложить для оценки некоторое
количество запросов (N) из лога из которых оргкомитет как-то отберет
несколько (K) для включения в оцениваемый набор.
Конечно есть риск, что участник подкрутит результаты по этим запросам,
но в конце концов он так только другим поможет увидеть больше релевантных
документов в пуле.
Кроме того, N может быть достаточно большим, а K маленьким.
Например, N=200, K=5 или 10. Отбор из N будет проводится на общих
основаниях, как и для "нерекомендованных" запросов.
Общий набор таких "рекомендованных" запросов будет 1 прогона, что бывает далеко не всегда.

Вопросы:
1) Какие есть возражения по предлагаемому плану включения запросов где
влияет ссылочное ранжирование?
2) Выскажитесь пожалуйста про принципиальную возможность влияния на
оцениваемые задания со стороны участников и про этот конкретный
вариант (и конечно если есть идеи лучше).

-igor

by **sergei_tatevosian** » Fri May 23, 2008 7:12 am

--- In romip@yahoogroups.com, Igor Nekrestyanov wrote:
1. Возражений нет.
2. Я думаю, что выбор запросов участниками как раз будет правильным
шагом, ибо, будучи поделенными между участниками, в целом запросы
будут представлять собой хорошую выборку для оценки.
3. Пул - да, стоит уменьшить. По таким запросам точно стоит оценивать
не дальше 20-ки, ибо зачем тогда ссылки, если они не выводят нужные
документы на верхушку выдачи.
4. N=200 - вполне разумное число для каждого участника. Получим ~1к
запросов, из которых и выберем(оргкомитет).
5. Касательно prec(1). Думаю, стоит оценивать не число маркеров,
попавших строго на 1ю позицию, а давать за 1-е место 100%, за 2-е -
90% и т.п. и считать итоговую сумму.
6. С белорусским интернетом могут быть быть проблемы с маркерами, т.к.
оценщики его не знают. Мы в прошлом году для себя определили штук 20
для примерной оценки, больше не получилось, т.к. не в курсе специфики
байнета :))) Если маркеры есть у Яндекса, в этом случае стоит
воспользоваться ими. Штук 100 вполне хватит. Оценивать недолго.

Сергей

> Вопросы:
> 1) Какие есть возражения по предлагаемому плану включения
запросов где
> влияет ссылочное ранжирование?
> 2) Выскажитесь пожалуйста про принципиальную возможность влияния
на
> оцениваемые задания со стороны участников и про этот конкретный
> вариант (и конечно если есть идеи лучше).
>
> -igor
>

by **igor_kuralenok** » Fri May 23, 2008 12:04 pm

Привет!

23.05.2008, в 10:20, Igor Nekrestyanov написал(а):

> Я согласен что каждый N-й это относительно разумный способ построения
> выборки, но оценивать случайные запросы сложно. Асессор может плохо
> представлять о чем идет речь, а при наших объемах оценки плохо
> понятные
> запросы могут привнести много шума в таблицу релевантности.
>
> Что касается собственно темы письма, то мне кажется, что сейчас
> реалистично
> сделать следующее:
> 1) включить в число запросов для оценки некоторое количество таких,
> слова из которых встречаются в текстах ссылок.
> [идеально - на основе пересечения списков таких запросов
> предоставленных
> участниками]

Зачем это? Зачем ты репрезентативную выборку смещаешь в непонятную
сторону?

> 2) попросить асессоров при подготовке расширенных описаний указать
> ожидают ли они, что должен быть найден какой-нибудь один
> конкретный
> документ/сайт (и попросить его кратко охарактеризовать - типа
> "сайт
> MTC")
Это тоже что-то странное. По запросу мтс у нас что-то другое в описании?

> 3) расширить число официальных метрик, включив prec(1) например
> Можно также посчитать оценку на сужении запросов на те, где важны
> ссылки, но можно оставить такой расчет на усмотрение самого
> учасника.
Гм.. А сейчас мы его не считаем?

> 4) увеличить число оцениваемых заданий (и может быть понизить
> глубину
> пула)
> Например, 150 и 20?
Может 300/10? Или сменим систему пулинга на динамическую (MtF)?
Предложение второе, давайте оценим по этой дорожке хотя бы 500-1000
запросов путем увеличения работы/стоимости участия.

> Мы безусловно готовы принять новые выборки логов запросов
> и по KM и по By.Web для расширения набора заданий.

> Процедуру оценки асессорами не менять, если на каких-то запросах
> использование ссылок будет приносить дополнительную пользу,
> то те кто граф используют смогут это увидеть.
>
> В дополнение к этому лично я хотел бы, чтобы участники могли напрямую
> сами влиять на оцениваемую выборку. Мы уже пробовали предложить
> участникам
> отобрать и прислать в оргкомитет несколько запросов из набора заданий,
> из которых мы потом бы отобрали часть заданий для оценки.
> Реакция была неоднозначной и часть негативной, к тому же это было
> предложено
> уже почти на стадии оценки.
Ацтой по-моему. Чего мы в итоге оценим? Каждый участник пришлет
запросы, которые ему интересны, группы будут сильно разные, что
получиться в результате усреднения? Правильно, перекос в наиболее
частотную группу. Короче, зачем (кому) это надо? И что от этого
улучшиться?

> Хотелось бы еще раз вернуться к этому вопросу.
>
> Проблема с нашей неконтролируемой выборкой, что мы можем _вообще_ не
> оценить ни одного запроса наиболее интересного конкретному участнику
> (например, там где хоть как-то используется ссылочное ранжирование).
> Во многом это из-за ее небольшого размера.
Мы специальным образом делали выборку так, чтобы она как можно больше
походила на реальность. Если в реальности линки жгут, то и тут зажгут.
А зажигать их специально для участника X - очень странная затея.
Давайте тогда сразу включим 100000 англоязычных запросов, патамучто я
не нашел русской морфологии да и ваще у меня английский тезаурус есть,
а русского нет, а заодно 200000 цитатных, так как мне интересно как у
меня заработает моя библиотечная статистика, ну и, конечно, куда без
500000 запросов со словом mp3, так как наша новая супер система умет
расширять название песни исполнителем.. И чего в итоге получиться? Все
приведенные запросы ложатся в 5% поисковых... Короче, давайте все же
какую-то более предметную мотивацию порчи выборки придумаем. Или
сделаем отдельную дорожку - мои любимые запросы, но не будем ее путать
с веб-поиском.

Если коллекция такая кривая, что некоторые факторы не работают -
давайте чинить коллекцию, но _после_ того как мы поймем, что они
действительно не работают именно поэтому.

> Что предлагается. Каждый участник может предложить для оценки
> некоторое
> количество запросов (N) из лога из которых оргкомитет как-то отберет
> несколько (K) для включения в оцениваемый набор.
> Конечно есть риск, что участник подкрутит результаты по этим запросам,
> но в конце концов он так только другим поможет увидеть больше
> релевантных
> документов в пуле.
Проблема не в этом, проблема в том, что усреднение, а соответственно и
ранжирование участников тогда не будут иметь смысла. Можно, конечно
отказаться от этого, но большого смысла в едином семинаре тогда не
видно.

IK

by **sergei_tatevosian** » Fri May 23, 2008 1:07 pm

Относительно репрезентативности случайной выборки из лога запросов -
по-моему, она репрезентативна только на всем интернете. А для
нынешних коллекций она репрезентативна весьма условно.

Если взять лог запросов, то самыми репрезентативными будут запросы:
1. Порно.
2. Бритни Спирс.
3. Яндекс.
4. Рамблер.
5. Почта.
6. Одноклассники.
7. Дима Билан.
и подобные.

Включив их в маркеры, мы не пойдем против этого слова - репре... :)

Совершенно неважно, по сути, какие именно запросы мы возьмем для
оценки влияния текстов ссылок. Но, например, маркеры вопросы точно
репрезентативные, потому их постоянно задают. Относительно остальных
запросов (не маркеров) - оргкомитету придется вручную просматривать,
на какие запросы есть документы со ссылками. Это увеличит объем
работ. Для его уменьшения можно часть запросов составить из
известных понятий, людей, предметов и т.п., потому что по этим вещам
много документов и есть ссылки В обеих коллекциях.

Предложения (по сути, уже озвученные):
1. Отдельно маркеры. Много. Несколько сотен.
2. В общий пул запросов по возможности включаются те, где можно
учесть влияние ссылок.

Если эти два предложения нормальны - обсуждаем детали. Глубину пула
и т.п.

by **igor_kuralenok** » Fri May 23, 2008 1:15 pm

Гм... Репрезентативная выборка это такое статистическое понятие. Это
такая выборка по поведению которой можно делать выводы о генеральной
совокупности... Как репрезентативность соотносится с частотностью - не
понял. Все остальное, сори, не понял.

Ik
23.05.2008, в 17:07, sergei_tatevosian написал(а):

> Относительно репрезентативности случайной выборки из лога запросов -
> по-моему, она репрезентативна только на всем интернете. А для
> нынешних коллекций она репрезентативна весьма условно.
>
> Если взять лог запросов, то самыми репрезентативными будут запросы:
> 1. Порно.
> 2. Бритни Спирс.
> 3. Яндекс.
> 4. Рамблер.
> 5. Почта.
> 6. Одноклассники.
> 7. Дима Билан.
> и подобные.
>
> Включив их в маркеры, мы не пойдем против этого слова - репре... :)
>
> Совершенно неважно, по сути, какие именно запросы мы возьмем для
> оценки влияния текстов ссылок. Но, например, маркеры вопросы точно
> репрезентативные, потому их постоянно задают. Относительно остальных
> запросов (не маркеров) - оргкомитету придется вручную просматривать,
> на какие запросы есть документы со ссылками. Это увеличит объем
> работ. Для его уменьшения можно часть запросов составить из
> известных понятий, людей, предметов и т.п., потому что по этим вещам
> много документов и есть ссылки В обеих коллекциях.
>
> Предложения (по сути, уже озвученные):
> 1. Отдельно маркеры. Много. Несколько сотен.
> 2. В общий пул запросов по возможности включаются те, где можно
> учесть влияние ссылок.
>
> Если эти два предложения нормальны - обсуждаем детали. Глубину пула
> и т.п.
> ------------------------------------
>
> Yahoo! Groups Links
>
>
>

by **sergei_tatevosian** » Fri May 23, 2008 1:35 pm

--- In romip@yahoogroups.com, Игорь Кураленок wrote:
>
> Гм... Репрезентативная выборка это такое статистическое понятие.
Это
> такая выборка по поведению которой можно делать выводы о
генеральной
> совокупности... Как репрезентативность соотносится с частотностью -
не
> понял. Все остальное, сори, не понял.
>

Все просто - как бы репрезентативные запросы могут не совпасть с
коллекцией. По таким случайным запросам может быть мало результатов. И
со ссылками, и без них.

by **sergei_tatevosian** » Fri May 23, 2008 1:39 pm

Поэтому предлагается к случайным добавить неслучайные, являющиеся
общими понятиями. К примеру:
1. Энциклопедия.
2. Словари.
3. Президент.
4. МТС.

и т.п.

by **igor_kuralenok** » Fri May 23, 2008 1:44 pm

23.05.2008, в 17:35, sergei_tatevosian написал(а):
> Все просто - как бы репрезентативные запросы могут не совпасть с
> коллекцией. По таким случайным запросам может быть мало результатов. И
> со ссылками, и без них.

есть такая проблема, но ее масштаб я оценить не готов. Предложенная
Мишей методика предполагает, что ответы окажутся в by.net с большей
вероятностью чем в среднем от всех пользователей. Надо смотреть на
выборку - без этого ничего не получиться :(. Если ответы в коллекции
будут находиться редко, значит наша выборка (aka by.net) - ...плохая и
ее надо переделывать а не смещать множество запросов. Я очень
_надеюсь_, что это не так. Короче, предлагаю сначала сделать выборку
запросов а потом уже общаться на тему чего там не хватает, а чего там
слишком много. Выборку попробую организовать.

IK

by **sergei_tatevosian** » Fri May 23, 2008 2:15 pm

Разумно. Тогда делаем выборку и смотрим.

by **neigor** » Fri May 23, 2008 4:58 pm

>> Я согласен что каждый N-й это относительно разумный способ построения
>> выборки, но оценивать случайные запросы сложно. Асессор может плохо
>> представлять о чем идет речь, а при наших объемах оценки плохо
>> понятные
>> запросы могут привнести много шума в таблицу релевантности.
>>
>> Что касается собственно темы письма, то мне кажется, что сейчас
>> реалистично
>> сделать следующее:
>> 1) включить в число запросов для оценки некоторое количество таких,
>> слова из которых встречаются в текстах ссылок.
>> [идеально - на основе пересечения списков таких запросов
>> предоставленных
>> участниками]
>
> Зачем это? Зачем ты репрезентативную выборку смещаешь в непонятную
> сторону?

a. наш текущий способ отбора не совсем не совсем случаен и
выборка невелика, так что о том что одна лучше/хуже речи мало
b. О "репрезентативности" чего ты говоришь?
Честная репрезентативность в твоем понимании помогает оценить качество
рещения
задачи для пользователей поиска по белорусскому Веб, что попали
в этот конкретный кусочек лога (и даже тут очень много сомнительных
аспектов).
Но это ли основная цель _всех_ участников?
IMHO, те, кто изучает влияние отдельных факторов на качество
заинтересован в получении оценки таких заданий где эти факторы влиют.
У нас не полный граф и естественно, что не для всех запросов
будут доступны ссылки. Я надеюсь, что число запросов где слова
встречаются в сслыках значительно (>30%) и это не будет смещение в
очень узкую область.
c. Это только часть запросов, остальные сохраняются.

>> 2) попросить асессоров при подготовке расширенных описаний указать
>> ожидают ли они, что должен быть найден какой-нибудь один
>> конкретный
>> документ/сайт (и попросить его кратко охарактеризовать - типа
>> "сайт
>> MTC")
> Это тоже что-то странное. По запросу мтс у нас что-то другое в описании?

у нас вроде бы не было такого запроса среди оценивавшихся,
стандартные примеры чаще имеют информационный характер.
Все что я хочу здесь добиться по сути явную галочку, что они ожидали бы
один конретный ответ. Тогда можно будет посчитать сколько таких у нас
заданий и усреднять по ним. Сейчас надо просмтатривать описания и
самостоятельно их интерпретировать.

>> 3) расширить число официальных метрик, включив prec(1) например
>> Можно также посчитать оценку на сужении запросов на те, где важны
>> ссылки, но можно оставить такой расчет на усмотрение самого
>> учасника.
> Гм.. А сейчас мы его не считаем?

честно говоря не помню, мне казалось prec(5) минимум.

>> 4) увеличить число оцениваемых заданий (и может быть понизить
>> глубину
>> пула)
>> Например, 150 и 20?
> Может 300/10? Или сменим систему пулинга на динамическую (MtF)?

резкое уменьшение глубины пула влияет на качество оценки полноты.
не у всех ключевая метрика prec(10)

> Предложение второе, давайте оценим по этой дорожке хотя бы 500-1000
> запросов путем увеличения работы/стоимости участия.

это можно обсуждать, но в этом году нет гранта и я опасаюсь
что возросшая стоимость может стать проблемой

> Мы специальным образом делали выборку так, чтобы она как можно больше
> походила на реальность. Если в реальности линки жгут, то и тут зажгут.
> А зажигать их специально для участника X - очень странная затея.
> Давайте тогда сразу включим 100000 англоязычных запросов, патамучто я
> не нашел русской морфологии да и ваще у меня английский тезаурус есть,
> а русского нет, а заодно 200000 цитатных, так как мне интересно как у
> меня заработает моя библиотечная статистика, ну и, конечно, куда без
> 500000 запросов со словом mp3, так как наша новая супер система умет
> расширять название песни исполнителем.. И чего в итоге получиться? Все
> приведенные запросы ложатся в 5% поисковых... Короче, давайте все же
> какую-то более предметную мотивацию порчи выборки придумаем. Или
> сделаем отдельную дорожку - мои любимые запросы, но не будем ее путать
> с веб-поиском.

"порча" качается некоторой доли общих оцениваемых запросов,
ведь всегда можно посмотреть на оценку качества на другой ее части

> Если коллекция такая кривая, что некоторые факторы не работают -
> давайте чинить коллекцию, но _после_ того как мы поймем, что они
> действительно не работают именно поэтому.

дело не в коллекции, а в выборке заданий.
возможно оценка 1000 и поможет, а возможно и 1000 это тоже мало.
В любом случае это дороже

>> Что предлагается. Каждый участник может предложить для оценки
>> некоторое
>> количество запросов (N) из лога из которых оргкомитет как-то отберет
>> несколько (K) для включения в оцениваемый набор.
>> Конечно есть риск, что участник подкрутит результаты по этим запросам,
>> но в конце концов он так только другим поможет увидеть больше
>> релевантных
>> документов в пуле.
> Проблема не в этом, проблема в том, что усреднение, а соответственно и
> ранжирование участников тогда не будут иметь смысла. Можно, конечно
> отказаться от этого, но большого смысла в едином семинаре тогда не
> видно.

вот это мне не ясно.
да, ты не получишь ответа на вопрос кто лучше ищет по белорусскому Веб,
но это ведь и не тендер по такому поиску, верно?

ты получишь оценку того что на такой выборке реальных (возможно не частотных)
запросов твои методы работали настолько-то лучше/хуже других,
то есть какой-то повод задуматься.

И совместное участие полезно не только и не столько получением ранга, а
пулами, где будут документы, что нашли другие, Но не нашла твоя система.

-igor

romip.ru

ROMIP'2008 applications for participation

Re: [romip] Re: addition of navigational queries to Web adhoc tasks?

Re: addition of navigational queries to Web adhoc tasks?

Re: [romip] Re: addition of navigational queries to Web adhoc tasks?

Re: addition of navigational queries to Web adhoc tasks?

Re: [romip] Re: addition of navigational queries to Web adhoc tasks?

Re: addition of navigational queries to Web adhoc tasks?

Re: addition of navigational queries to Web adhoc tasks?

Re: [romip] Re: addition of navigational queries to Web adhoc tasks?

Re: addition of navigational queries to Web adhoc tasks?

Re: [romip] Re: addition of navigational queries to Web adhoc tasks?

Who is online