romip.ru

by **igor_kuralenok** » Fri May 23, 2008 5:32 pm

23.05.2008, в 20:58, Igor Nekrestyanov написал(а):

>>> Я согласен что каждый N-й это относительно разумный способ
>>> построения
>>> выборки, но оценивать случайные запросы сложно. Асессор может плохо
>>> представлять о чем идет речь, а при наших объемах оценки плохо
>>> понятные
>>> запросы могут привнести много шума в таблицу релевантности.
>>>
>>> Что касается собственно темы письма, то мне кажется, что сейчас
>>> реалистично
>>> сделать следующее:
>>> 1) включить в число запросов для оценки некоторое количество таких,
>>> слова из которых встречаются в текстах ссылок.
>>> [идеально - на основе пересечения списков таких запросов
>>> предоставленных
>>> участниками]
>>
>> Зачем это? Зачем ты репрезентативную выборку смещаешь в непонятную
>> сторону?
>
> a. наш текущий способ отбора не совсем не совсем случаен и
> выборка невелика, так что о том что одна лучше/хуже речи мало
Это очень плохо и это место мы и пытаемся исправить.
>
> b. О "репрезентативности" чего ты говоришь?
> Честная репрезентативность в твоем понимании помогает оценить
> качество рещения
> задачи для пользователей поиска по белорусскому Веб, что попали
> в этот конкретный кусочек лога (и даже тут очень много сомнительных
> аспектов).
Нет. Для всех пользователей с беларусскими IP. Для того, чтобы это
оценить мы делаем равномерную выборку по логу их запросов. Такая
ситуация моделирует национальный поиск. Если никому из участников не
интересна задача национального поиска, то сори за флейм.

> Но это ли основная цель _всех_ участников?
> IMHO, те, кто изучает влияние отдельных факторов на качество
> заинтересован в получении оценки таких заданий где эти факторы
> влиют.
Это другая задача. Ее тоже можно решать, но я не понимаю при чем здесь
РОМИП. Мы хотим делать оценку на заказ? Это наш новый род бизнеса?

> У нас не полный граф и естественно, что не для всех запросов
> будут доступны ссылки. Я надеюсь, что число запросов где слова
> встречаются в сслыках значительно (>30%) и это не будет смещение в
> очень узкую область.
Ссылки вообще-то доступны не для всех документов интернета. При этом
мы умеем искать по таким коллекциям. Не понимаю проблемы. Формулу для
подобных условий надо будет переобучать, но линковые факторы никто не
отменит если выкинуть 9/10 линков.

> c. Это только часть запросов, остальные сохраняются.

50% это существенная часть, которая здорово влияет на среднее. Не
понимаю зачем это надо.

IK

by **igor_kuralenok** » Fri May 23, 2008 5:36 pm

> Это другая задача. Ее тоже можно решать, но я не понимаю при чем здесь
> РОМИП. Мы хотим делать оценку на заказ? Это наш новый род бизнеса?
В этом месте я, кстати, вполне серьезно... Коль скоро у нас нету гос
финансирования можно попробовать заняться подобными экспертными
оценками, если есть рынок. Я правда не представляю себе его объема.
Насколько я понимаю это не противоречит идеологии РОМИП и позволит
несколько более проффессионально подходить к решению технических
вопросов.

IK

by **neigor** » Sun May 25, 2008 12:32 am

Привет,

извини за паузу, я перемещаюсь в пространстве и
не везде есть доступ к почте :)

>>>> 1) включить в число запросов для оценки некоторое количество таких,
>>>> слова из которых встречаются в текстах ссылок.
>>>> [идеально - на основе пересечения списков таких запросов
>>>> предоставленных
>>>> участниками]
>>>
>>> Зачем это? Зачем ты репрезентативную выборку смещаешь в непонятную
>>> сторону?
>>
>> a. наш текущий способ отбора не совсем не совсем случаен и
>> выборка невелика, так что о том что одна лучше/хуже речи мало
> Это очень плохо и это место мы и пытаемся исправить.

согласен, что это вносит значительные отклонения
по сравнению с потоком запросов всех пользователей.

согласен, что стоит увеличивать число запросов.

пока не согласен, что в постановке задачи (как описано и как
планировалось) следует, что мы хотим оценивать качество
поиска по сайтам KM или BY.Web (aka национальный поиск).

Точнее, это хорошая и интересная задача, но это не так как я понимал,
что и зачем мы делаем.

>> Но это ли основная цель _всех_ участников?
>> IMHO, те, кто изучает влияние отдельных факторов на качество
>> заинтересован в получении оценки таких заданий где эти факторы
>> влиют.
> Это другая задача. Ее тоже можно решать, но я не понимаю при чем здесь
> РОМИП. Мы хотим делать оценку на заказ? Это наш новый род бизнеса?

Это мне не ясно.

В моем понимании:
1) РОМИП занимается
"проведением независимой оценки методов информационного поиска,
ориентированных на работу с русскоязычной информацией"
2) правила и условия обсуждаются и формируются участниками

это оценка на заказ? Наверное в какой-то мере, поскольку участники
могут влиять на то какие задачи рассматриваются и что оценивается.

Сейчас поиск по Веб коллекции - это не то же самое как
национальный поиск. Во-первых, формально искать надо по объединению коллекций
BY и KM. Во-вторых, входная выборка и оцениваемые запросы
- это смесь запросов из логов. В-третьих, выборка
для оценки маленькая, чтобы считать ее репрезентативной для
популяции пользователей с белорусским IP.

Мы можем смещаться в этом направлении, но, IMHO, это по сути новая дорожка.

Для оценки поиска по любой коллекции важно, чтобы запросы были родные.
Это у нас есть. Но есть проблема, что для экспериментов, которые
ставят участники участвуя в РОМИП может быть мало информации (по результатам
оценки). Понятно, что если они смотрят на что-то частотное, то
при большом объеме выборки оно попадет. Но десятки тысяч запросов мы
оценивать явно не будем. Поэтому и предлагалось попробовать комбинацию:
1) увеличить независимую выборку
2) дать возможность участникам указывать то подмножество запросов,
что они считают наиболее важным для своих экспериментов

>> У нас не полный граф и естественно, что не для всех запросов
>> будут доступны ссылки. Я надеюсь, что число запросов где слова
>> встречаются в сслыках значительно (>30%) и это не будет смещение в
>> очень узкую область.
> Ссылки вообще-то доступны не для всех документов интернета. При этом
> мы умеем искать по таким коллекциям. Не понимаю проблемы. Формулу для
> подобных условий надо будет переобучать, но линковые факторы никто не
> отменит если выкинуть 9/10 линков.

Я имел ввиду, что если ты хочешь ту часть формулы что отвечает за
линковые факторы, то тебе нужно оценивать запросы, текст которых
присутствует в ссылках. Иначе в выборку могут попасть только те,
где эти факторы не влияют (и в частности потому что у нас подмножество
общего графа).

-igor

by **igor_kuralenok** » Mon May 26, 2008 4:40 am

Привет!

> согласен, что это вносит значительные отклонения
> по сравнению с потоком запросов всех пользователей.
>
> согласен, что стоит увеличивать число запросов.
>
> пока не согласен, что в постановке задачи (как описано и как
> планировалось) следует, что мы хотим оценивать качество
> поиска по сайтам KM или BY.Web (aka национальный поиск).
>
> Точнее, это хорошая и интересная задача, но это не так как я понимал,
> что и зачем мы делаем.
Ну я, как всегда, забыл рассказать исходную идею :). В BY это имелось
в виду. Хорошо, что сейчас этот вопрос подняли.

> В моем понимании:
> 1) РОМИП занимается
> "проведением независимой оценки методов информационного поиска,
> ориентированных на работу с русскоязычной информацией"
> 2) правила и условия обсуждаются и формируются участниками
>
> это оценка на заказ? Наверное в какой-то мере, поскольку участники
> могут влиять на то какие задачи рассматриваются и что оценивается.
>
> Сейчас поиск по Веб коллекции - это не то же самое как
> национальный поиск. Во-первых, формально искать надо по объединению
> коллекций
> BY и KM. Во-вторых, входная выборка и оцениваемые запросы
> - это смесь запросов из логов. В-третьих, выборка
> для оценки маленькая, чтобы считать ее репрезентативной для
> популяции пользователей с белорусским IP.
На самом деле нормальность начинает проявляться уже где-то на 300
запросах, по-этому можно говорить о том, что репрезентативную выборку
_можно_ получить и это не настолько недостижимо, как может показаться.
Да дисперсия там большая, но тем не менее можно говорить о
доверительных интервалах и вообще о чем-то объективном.

> Мы можем смещаться в этом направлении, но, IMHO, это по сути новая
> дорожка.
Тут, видимо, я не понял целей веб-дорожки.

> Для оценки поиска по любой коллекции важно, чтобы запросы были родные.
> Это у нас есть. Но есть проблема, что для экспериментов, которые
> ставят участники участвуя в РОМИП может быть мало информации (по
> результатам
> оценки). Понятно, что если они смотрят на что-то частотное, то
> при большом объеме выборки оно попадет. Но десятки тысяч запросов мы
> оценивать явно не будем. Поэтому и предлагалось попробовать
> комбинацию:
> 1) увеличить независимую выборку
> 2) дать возможность участникам указывать то подмножество запросов,
> что они считают наиболее важным для своих экспериментов
Мне кажется 2-й пункт - очень факультативен. Может быть сделать это за
дополнительную плату? Просто очень странно это... Мне бы как участнику
было бы обидно платить за данные, которые мне бесполезны.

> Я имел ввиду, что если ты хочешь ту часть формулы что отвечает за
> линковые факторы, то тебе нужно оценивать запросы, текст которых
> присутствует в ссылках. Иначе в выборку могут попасть только те,
> где эти факторы не влияют (и в частности потому что у нас подмножество
> общего графа).
Не. Это не совсем так. Линковые факторы бывают разные (PR, например
никак от запросов не зависит). Что касается твоего опасения, то
запросы, для которых линки встречаются _часто_ составляют 1/5 большого
лога... Этого разве мало? Короче, про линки давайте рассуждать когда
будет выборка (это место не очень простое, к сожалению). Очень
надеюсь, что выборка запросов появиться на этой неделе.

IK

by pb » Tue May 27, 2008 1:57 pm

Добрый день,

я хотел напомнить, что заявки на участие во II Российской летней школе
по информационному поиску (RuSSIR2008, http://romip.ru/russir2008/)
принимаются до 1 июня 2008 года.

Если Вы, Ваши коллеги или ученики планируете участовать в школе,
пожалуйста, зарегистрируйтесь в ближайшее время.

Всего доброго,
Павел Браславский

romip.ru

ROMIP'2008 applications for participation

Re: [romip] Re: addition of navigational queries to Web adhoc tasks?

Re: [romip] Re: addition of navigational queries to Web adhoc tasks?

Re: [romip] Re: addition of navigational queries to Web adhoc tasks?

Re: [romip] Re: addition of navigational queries to Web adhoc tasks?

RuSSIR2008 - reminder

Who is online