ROMIP'2008 applications for participation

Общие обсуждения - потенциальные будущие дорожки, использование материалов РОМИП вне семинара, очные встречи и прочие вопросы для которых нет отдельной подтемы

ROMIP'2008 applications for participation

Postby neigor » Fri May 16, 2008 7:53 am

Текущий список поступивших заявок опубликован:
http://romip.ru/ru/2008/participants.html

Пожалуйста, проверьте что ваша заявка там корректно представлена.
В случае каких-либо неточностей - сообщите в оргкомитет.

Если вы по каким-либо причинам не успели прислать заявку, но хотите
участвовать в РОМИП - у вас еще есть возможность это сделать.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: ROMIP'2008 applications for participation

Postby sergei_tatevosian » Wed May 21, 2008 11:02 am

--- In romip@yahoogroups.com, Igor Nekrestyanov wrote:
>
> Текущий список поступивших заявок опубликован:
> http://romip.ru/ru/2008/participants.html
>
> Пожалуйста, проверьте что ваша заявка там корректно представлена.
> В случае каких-либо неточностей - сообщите в оргкомитет.
>
> Если вы по каким-либо причинам не успели прислать заявку, но хотите
> участвовать в РОМИП - у вас еще есть возможность это сделать.
>
> -igor
>

Здравствуйте!
Предлагается включить в список запросов такие, с помощью которых
можно оценивать правильность отработки ссылочного ранжирования, о
чем говорилось на очной встрече РОМИП-2007. Думаю, приближение к
реальному интернету, а не простой поиск по документам, будет
интереснее.

Что для этого требуется (на примере коллекции KM.RU):
1. Сформировать список соответствующий список запросов. (делает КМ)
Можно взять список исполнителей и композиций с домена music.km.ru.
Пример: исполнители в каталоге на букву "А" -
http://music.km.ru/asearch.asp?l=%C0&mp3_atp=1, Леонид Агутин.
Соответственно, тестовым запросом будет "Леонид Агутин", нужной
страницей - сводная информация о нем
http://music.km.ru/performer.asp?id=551b5db451a74bc59a3c12e3f7ec873f
Это будет витальный ответ.
Поскольку в коллекции есть энциклопедия mega.km.ru со статьями об
исполнителях, то витальным также будет любой документ с этого
домена, т.к. это энциклопедическая статья. Например,
этот http://mega.km.ru/rock_2002/Encyclop.asp?Topic=topic_rock_8

Т.о. смотрим какой документ из этих в выдаче стоит первым, его и
берем. (Обычно "витальный" это единственный ответ, в данном случае
из-за особенностей коллекции это один из списка документов - сводный
на music.km.ru и любая статья с mega.km.ru)

Для разнообразия дополним список запросов так, что витальными будут
документы с других доменов.
а) Погода в разных городах;
б) список игр;
в) Названия самих доменов ("Музыка" на music.km.ru);
г) Названия разделов ("новости политики", "курс цб")
и т.п.

2. Выбрать меру оценки. (обсуждается и принимается участниками)
Например, берем 100 произвольных исполнителей или композиций,
оценщики смотрят в какой позиции находится нужный документ. 1-е
место - 100% попадание, 2-е место - 90% и т.д. Не попал в 10-ку -
0%. оценивать в процентах. Это самая простая мера, можно придумать
другую. Фактически, это т.н. маркеры.

3. Сформировать список запросов, по которым будет произведена
оценка.
Мы смотрим на какие документы точно есть нужные ссылки и
предоставляем их расширенный список. (делает КМ)
4. Из списка в п.3 оргкомитет произвольным образом выбирает нужное
количество. По ним и производится оценка. (делает оргкомитет)

Сейчас, перед рассылкой заданий, требуется только составить список
дополнительных вопросов. Это 2-3 дня.

Просьба высказаться.
Спасибо.
Сергей Татевосян
sergei_tatevosian
Оргкомитет
 
Posts: 38
Joined: Mon May 28, 2007 9:21 am

Re: addition of navigational queries to Web adhoc tasks?

Postby neigor » Wed May 21, 2008 5:10 pm

Добрый день,

расширить список запросов не проблема, если есть общее понимание
того как расширять и согласие участников дорожки.

На мой взгляд имеет смысл говорить не только о коллекции KM,
а о единой веб коллекции. В by.web можно найти больше разнообразия для
навигационных запросов.

Большая просьба к участникам поисковой дорожки по Веб и всем сочуствующим
высказаться ASAP. В частностинам важно понять:
- интересно ли вам расширение заданий навигационными запросами
- есть ли идеи/предложения/критика о том как отбирать такие задания для
включения

Ну и конечно это не значит, что все участники обязаны будут внедрить ссылочное
ранжирование. Это не соревнование ...

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] Re: addition of navigational queries to Web adho

Postby maslov70 » Wed May 21, 2008 5:29 pm

Добрый день,

В потоке запросов(российском) навигационных обычно процентов 20. Я бы
не стал искусственно повышать их долю.

Вот как я бы формировал запросы и оценки к коллекции белорусских
документов:
   а) взял бы запросы с белорусских IP
   б) сделал бы выборку "каждый n-ый по времени"
   в) при оценке сказал бы асессорам: представьте, что вы белорусы ;-)
и оценивайте
         (это значит, напр. что по запросу 'МТС' лучший док-т www.mts.by а не
.ru)

С уважением
Михаил

PS
выборку запросов от белорусов Яндекс, по идее, может довольно легко
сделать

Igor Nekrestyanov пишет:

Добрый день,

расширить список запросов не проблема, если есть общее понимание
того как расширять и согласие участников дорожки.

На мой взгляд имеет смысл говорить не только о коллекции KM,
а о единой веб коллекции. В by.web можно найти больше разнообразия для
навигационных запросов.

Большая просьба к участникам поисковой дорожки по Веб и всем
сочуствующим
высказаться ASAP. В частностинам важно понять:
- интересно ли вам расширение заданий навигационными запросами
- есть ли идеи/предложения/критика о том как отбирать такие задания для
включения

Ну и конечно это не значит, что все участники обязаны будут внедрить
ссылочное
ранжирование. Это не соревнование ...

-igor

>Здравствуйте!
>Предлагается включить в список запросов такие, с помощью которых
>можно оценивать правильность отработки ссылочного ранжирования, о
>чем говорилось на очной встрече РОМИП-2007. Думаю, приближение к
>реальному интернету, а не простой поиск по документам, будет
>интереснее.
>
>Что для этого требуется (на примере коллекции KM.RU):
>1. Сформировать список соответствующий список запросов. (делает КМ)
>Можно взять список исполнителей и композиций с домена music.km.ru.
>Пример: исполнители в каталоге на букву "А" -
>http://music.km.ru/asearch.asp?l=%C0&mp3_atp=1,
Леонид Агутин.
>Соответственно, тестовым запросом будет "Леонид Агутин", нужной
>страницей - сводная информация о нем
>http://music.km.ru/performer.asp?id=551b5db451a74bc59a3c12e3f7ec873f
>Это будет витальный ответ.
>Поскольку в коллекции есть энциклопедия mega.km.ru со статьями об
>исполнителях, то витальным также будет любой документ с этого
>домена, т.к. это энциклопедическая статья. Например,
>этот http://mega.km.ru/rock_2002/Encyclop.asp?Topic=topic_rock_8
>
>Т.о. смотрим какой документ из этих в выдаче стоит первым, его и
>берем. (Обычно "витальный" это единственный ответ, в данном случае
>из-за особенностей коллекции это один из списка документов - сводный
>на music.km.ru и любая статья с mega.km.ru)
>
>Для разнообразия дополним список запросов так, что витальными будут
>документы с других доменов.
>а) Погода в разных городах;
>б) список игр;
>в) Названия самих доменов ("Музыка" на music.km.ru);
>г) Названия разделов ("новости политики", "курс цб")
>и т.п.
>
>2. Выбрать меру оценки. (обсуждается и принимается участниками)
>Например, берем 100 произвольных исполнителей или композиций,
>оценщики смотрят в какой позиции находится нужный документ. 1-е
>место - 100% попадание, 2-е место - 90% и т.д. Не попал в 10-ку -
>0%. оценивать в процентах. Это самая простая мера, можно придумать
>другую. Фактически, это т.н. маркеры.
>
>3. Сформировать список запросов, по которым будет произведена
>оценка.
>Мы смотрим на какие документы точно есть нужные ссылки и
>предоставляем их расширенный список. (делает КМ)
>4. Из списка в п.3 оргкомитет произвольным образом выбирает нужное
>количество. По ним и производится оценка. (делает оргкомитет)
>
>Сейчас, перед рассылкой заданий, требуется только составить список
>дополнительных вопросов. Это 2-3 дня.
>

maslov70
 
Posts: 21
Joined: Thu Mar 25, 2004 5:48 pm

Re: [romip] Re: addition of navigational queries to Web adho

Postby maslov70 » Wed May 21, 2008 5:36 pm

> Я бы
не стал искусственно повышать их долю

Состав запросов тоже не стал бы менять. А то добавят частотных 
запросов, как на analyzethis.ru ...




Михаил Маслов пишет:

Добрый день,

В потоке запросов(российском) навигационных обычно процентов 20. Я бы
не стал искусственно повышать их долю.

Вот как я бы формировал запросы и оценки к коллекции белорусских
документов:
   а) взял бы запросы с белорусских IP
   б) сделал бы выборку "каждый n-ый по времени"
   в) при оценке сказал бы асессорам: представьте, что вы белорусы ;-)
и оценивайте
         (это значит, напр. что по запросу 'МТС' лучший док-т www.mts.by а не
.ru)

С уважением
Михаил

PS
выборку запросов от белорусов Яндекс, по идее, может довольно легко
сделать

Igor Nekrestyanov пишет:



Добрый день,

расширить список запросов не проблема, если есть общее понимание
того как расширять и согласие участников дорожки.

На мой взгляд имеет смысл говорить не только о коллекции KM,
а о единой веб коллекции. В by.web можно найти больше разнообразия для
навигационных запросов.

Большая просьба к участникам поисковой дорожки по Веб и всем
сочуствующим
высказаться ASAP. В частностинам важно понять:
- интересно ли вам расширение заданий навигационными запросами
- есть ли идеи/предложения/критика о том как отбирать такие задания для
включения

Ну и конечно это не значит, что все участники обязаны будут внедрить
ссылочное
ранжирование. Это не соревнование ...

-igor

>Здравствуйте!
>Предлагается включить в список запросов такие, с помощью которых
>можно оценивать правильность отработки ссылочного ранжирования, о
>чем говорилось на очной встрече РОМИП-2007. Думаю, приближение к
>реальному интернету, а не простой поиск по документам, будет
>интереснее.
>
>Что для этого требуется (на примере коллекции KM.RU):
>1. Сформировать список соответствующий список запросов. (делает КМ)
>Можно взять список исполнителей и композиций с домена music.km.ru.
>Пример: исполнители в каталоге на букву "А" -
>http://music.km.ru/asearch.asp?l=%C0&mp3_atp=1,
Леонид Агутин.
>Соответственно, тестовым запросом будет "Леонид Агутин", нужной
>страницей - сводная информация о нем
>http://music.km.ru/performer.asp?id=551b5db451a74bc59a3c12e3f7ec873f
>Это будет витальный ответ.
>Поскольку в коллекции есть энциклопедия mega.km.ru со статьями об
>исполнителях, то витальным также будет любой документ с этого
>домена, т.к. это энциклопедическая статья. Например,
>этот http://mega.km.ru/rock_2002/Encyclop.asp?Topic=topic_rock_8
>
>Т.о. смотрим какой документ из этих в выдаче стоит первым, его и
>берем. (Обычно "витальный" это единственный ответ, в данном случае
>из-за особенностей коллекции это один из списка документов - сводный
>на music.km.ru и любая статья с mega.km.ru)
>
>Для разнообразия дополним список запросов так, что витальными будут
>документы с других доменов.
>а) Погода в разных городах;
>б) список игр;
>в) Названия самих доменов ("Музыка" на music.km.ru);
>г) Названия разделов ("новости политики", "курс цб")
>и т.п.
>
>2. Выбрать меру оценки. (обсуждается и принимается участниками)
>Например, берем 100 произвольных исполнителей или композиций,
>оценщики смотрят в какой позиции находится нужный документ. 1-е
>место - 100% попадание, 2-е место - 90% и т.д. Не попал в 10-ку -
>0%. оценивать в процентах. Это самая простая мера, можно придумать
>другую. Фактически, это т.н. маркеры.
>
>3. Сформировать список запросов, по которым будет произведена
>оценка.
>Мы смотрим на какие документы точно есть нужные ссылки и
>предоставляем их расширенный список. (делает КМ)
>4. Из списка в п.3 оргкомитет произвольным образом выбирает нужное
>количество. По ним и производится оценка. (делает оргкомитет)
>
>Сейчас, перед рассылкой заданий, требуется только составить список
>дополнительных вопросов. Это 2-3 дня.
>

maslov70
 
Posts: 21
Joined: Thu Mar 25, 2004 5:48 pm

RE: [romip] Re: addition of navigational queries to Web adho

Postby maxgubin » Wed May 21, 2008 10:35 pm

Добрый день!
Я считаю, что чем больше реальных пользовательских запросов тем
лучше, это реально важный материал, который очень трудно "добыть". Так
что я двумя руками "за" любых расширений базы запросов. И для
белорусской коллекции подход Михаила выглядит волне разумным, я поддерживаю.

Мне не очень понятно, как из идеи оценки "ссылочного
ранжирования" возникли "навигационные запросы". Мне кажется,
что тут проблема не в запросах а в отсутствии или не полноте графа в коллекции. 
Мне кажется, что идея "искусственных запросов" не правильная, тем
более когда они подбираются под коллекцию, тут можно далеко уйти от реальности.
 Как альтернативное решение, может быть просто для каждого запроса посчитать
количество связей в графе документов коллекции, содержащих его слова, и
учитывать эту метрику при отборе запросов для оценки?

Спасибо,
Максим
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

Re: addition of navigational queries to Web adhoc tasks?

Postby sergei_tatevosian » Thu May 22, 2008 8:35 am

Да, с белорусским интернетом имхо очень хорошая идея. Только как из
каждого условно 20-го запроса, взятого из общего потока запросов,
можно будет точно получить навигационные? Там их может быть 2-3, и
все. Как из ссылочного возникли навигационные - все просто: такие
запросы проще всего оценивать. И коллекция под них может быть
минимальна. Оценивать выдачу в целом, мне кажется, будет нездорово.
Поясню: берем запрос "мтс", смотрим выдачу. У кого mts.by на 1-м
месте, тот молодец. Если же смотреть, например, первые 10-ть
релевантных документов, то на 9 остальных может вообще не быть
ссылок. Как раз ситуация, когда графа не хватит. В результате
получаем ограничения:
1) Проще взять навигационные запросы. Потому что точно будет видно,
где работает именно ссылочное. При оценке выдачи в целом в первых 10-
ти релевантных документах со ссылкой может быть любой... и его
местоположение не будет влиять на выдачу в целом. Он может быть 21-м
релевантным в выдаче, если ссылка на него совсем слабенькая.
2) Выдачу в целом взять, конечно же можно. Но это будет гораздо
сложнее. Потому что тогда на оценочный запрос должно быть
достаточное число документов с соответствующими ссылками на них. И
такие запросы уже должны присутствовать в задании! То есть сначала
надо будет взять большой пул случайных запросов. Потом оценить
сколько ссылок со словами из запросов присутствует на документы в
коллекции. Только тогда при достаточном числе ссылок можно принять
этот список запросов. Если ссылок будет недостаточно, надо выбирать
новые запросы.
3) В этом случае можно поступить так: взять часть навигационных
запросов и часть обычных. Запросов общего пула должно быть
достаточно много, чтобы из них можно было выбрать те, на которые
выдача содержит документы со ссылками на них.
sergei_tatevosian
Оргкомитет
 
Posts: 38
Joined: Mon May 28, 2007 9:21 am

Re: [romip] Re: addition of navigational queries to Web adhoc tasks?

Postby igor_kuralenok » Thu May 22, 2008 10:31 am

Привет всем!

Правильно ли я понимаю, что:
-- Навигационые запросы достаточно частотны (Миша приводил цифру в
20%), что при оценке даже 100-200 запросов приведет к 20-40
навигационным
-- Поиск по навигационным запросам значительно отличается от поиска по
остальным видам запросов
-- Коллекция by выбрана равномерно, по сему:
-- да, сайты с небольшим количеством входящих ссылок могут остаться
вообще без них, но реально популярные сайты по прежнему будут иметь
много входящих
-- основные свойства графа остались прежними

22.05.2008, в 12:35, sergei_tatevosian написал(а):
> Да, с белорусским интернетом имхо очень хорошая идея. Только как из
> каждого условно 20-го запроса, взятого из общего потока запросов,
> можно будет точно получить навигационные? Там их может быть 2-3, и
> все. Как из ссылочного возникли навигационные - все просто: такие
> запросы проще всего оценивать. И коллекция под них может быть
> минимальна. Оценивать выдачу в целом, мне кажется, будет нездорово.
> Поясню: берем запрос "мтс", смотрим выдачу. У кого mts.by на 1-м
> месте, тот молодец. Если же смотреть, например, первые 10-ть
> релевантных документов, то на 9 остальных может вообще не быть
> ссылок. Как раз ситуация, когда графа не хватит. В результате
> получаем ограничения:
> 1) Проще взять навигационные запросы. Потому что точно будет видно,
> где работает именно ссылочное. При оценке выдачи в целом в первых 10-
> ти релевантных документах со ссылкой может быть любой... и его
> местоположение не будет влиять на выдачу в целом. Он может быть 21-м
> релевантным в выдаче, если ссылка на него совсем слабенькая.
Граница навигационный/не навигационный не такая четкая как кажется
(заварка, медведев, шнур), так что не факт, что их "проще взять" из
рандомного потока. Ценность подобной оценки IMHO вызывает большие
сомнения. Даже с точки зрения оценки качества линковых факторов это
плохо, так как непонятно какой шум они вносят в случае информационных,
например, запросов где основную роль играют (по идее :)) текстовые
факторы.

> 2) Выдачу в целом взять, конечно же можно. Но это будет гораздо
> сложнее. Потому что тогда на оценочный запрос должно быть
> достаточное число документов с соответствующими ссылками на них. И
> такие запросы уже должны присутствовать в задании! То есть сначала
> надо будет взять большой пул случайных запросов. Потом оценить
> сколько ссылок со словами из запросов присутствует на документы в
> коллекции. Только тогда при достаточном числе ссылок можно принять
> этот список запросов. Если ссылок будет недостаточно, надо выбирать
> новые запросы.
Не понял. Если у нас есть узкий информационный запрос, на документы
которого в реальной жизни бывает мало или нет ссылок (были, поэтому
проиндексировали, но сплыли), то на него отвечать не надо?

IMHO запросы, на которых "жгут" линки пострадать не должны, так как
скорее всего документы выдачи должны иметь _много_ линков (для того,
чтобы фактор стал значимым (хотя, конечно, все зависит от
фактора :))). В итоге значение фактора понизится но не выродится в 0,
что не повлияет на обучение. Главный перекос будет на запросах, где
текстовые/линковые факторы одинаково важны и линки вырождаются в 0.
Сколько таких запросов я не знаю, но думаю, что не так много.

> 3) В этом случае можно поступить так: взять часть навигационных
> запросов и часть обычных. Запросов общего пула должно быть
> достаточно много, чтобы из них можно было выбрать те, на которые
> выдача содержит документы со ссылками на них.
Это - странная схема, которая заведомо поднимает значимость линковых
факторов. По полученным результатам никаких выводов о поведении на
всем множестве запросов сделать будет нельзя.
На мой взгляд надо использовать "правильную" выборку, а ее проблемы
решать по мере поступления. Пока все минусы этого подхода основываются
на достаточно спорных рассуждениях.
Если все будет плохо и понадобится разметка навигационный/
информационный/транзакционный (?) - мы ее проведем. Не понадобится -
забъем.

Что касается процедуры оценки: она очевидно зависит от метрики,
которая для нас значима. Если мы принимаем, что p1 (или как в
приведенном проекте, видимо receprocalRank) - единственное, что нам
надо знать - давайте оценивать top1. Если есть другие мнения по
метрикам (а я бы предложил включить в наш стандартный набор еще NDCG10/
DCG10) то процедура оценки должна им соответствовать. Я бы, возможно,
поборолся за эффективность пулинга, используя динамическую очередь
оценки, но точно не стал бы оценивать top1.

В любом случае, можно реализовать предложенный вначале вариант, так
как он сравнительно дешев, если наберется достаточно (больше 1-го :))
участника, которому были бы интересны эти данные. Токо вот для меня
остается загадкой что же эти данные будут значить.

IK
igor_kuralenok
Оргкомитет
 
Posts: 21
Joined: Fri Oct 03, 2003 7:24 am

Re: addition of navigational queries to Web adhoc tasks?

Postby sergei_tatevosian » Thu May 22, 2008 11:06 am

--- In romip@yahoogroups.com, Игорь Кураленок wrote:
>
> Граница навигационный/не навигационный не такая четкая как кажется
> (заварка, медведев, шнур), так что не факт, что их "проще взять" из
> рандомного потока.

Я как раз говорю, что из рандомного их брать не надо. Их надо
назначить. Как маркеры. Пример с music.km.ru (коллекция KM.RU) в этом
случае хорош тем, что об известных людях есть не только сведения о
выпущенных альбомах, но и немало других материалов (новостей и
статей). Берем запрос "Иосиф Кобзон". http://go.km.ru/index.asp?sq=C8
Получаем 2541 на 22.05.2008. И из всех этих документов на 1м месте
стоит http://music.km.ru/performer.asp?
id=dbb56f1a0ccd48d3907e8ec905e3d5e6 Это "правильный" документ, т.е.
маркер стоит на 1м месте. Показывает он то, что по коротким запросам
на 1м месте находится документ с общими сведениями о предмете запроса.
То есть ссылочное отработало правильно. В остальных документах "Иосиф
Кобзон" упоминиается достаточное число раз. То есть получаем баланс.
Ибо:

Ссылки на 1е 10 документов в выдаче по этому запросу:

док1 Ссылки :
иосиф давыдович кобзон
иосиф кобзон
иосифа кобзона
иосифу кобзону

док2 Ссылки :
кобзон стал жертвой жестокого обмана

док3 Ссылки :
cделать стартовой
добавить в избранное
кобзона нагло обманули устроители премии олимпия

док4 Ссылки :
и д кобзона
и кобзон
и кобзона
иосиф кобзон
иосифа кобзона
иосифом кобзоном
кобзон иосиф

док5 Ссылки :
и д кобзона
и кобзон
и кобзона
иосиф кобзон
иосифа кобзона
иосифом кобзоном
иосифу кобзону

док6 Ссылки :
раскрыт заговор против иосифа кобзона
репортажраскрыт заговор против иосифа кобзона

док7 Ссылки :
иосиф кобзон

док8 Ссылки :
иосиф кобзон

док9 Ссылки :
иосиф кобзон популярный певец политический деятель россии

док10 Ссылки :
cделать стартовой
добавить в избранное
иосиф кобзон популярный певец политический деятель россии


Вообще говоря, получается, что по такому запросу можно оценивать и
первые сколько-то документов, потому что в 2541 документах будут как
документы о предмете, так и те, где он упоминается. То есть выбрав
популярных людей, мы можем спокойно оценивать выдачу в целом (к
примеру, первые 10 релевантных документов). В KM.RU число ссылок очень
велико :) Поэтому набрать запросы ипа предложенного (с нормальным
числом ссылок на документы о предмете) будет не очень сложно.
Соглашусь, что просто маркеры, смотреть не очень интересно :))
Смотреть, конечно, можно, но отдельно. Тот самый top1.
sergei_tatevosian
Оргкомитет
 
Posts: 38
Joined: Mon May 28, 2007 9:21 am

Re: [romip] Re: addition of navigational queries to Web adho

Postby igor_kuralenok » Thu May 22, 2008 11:25 am

Все отлично, но что мы в итоге измеряем? Поиск по km.ru с такими
критериями - это прекрасно, но имеет непонятное отношение к качеству
поиска. Сделать можно, весь вопрос - зачем.

IK
igor_kuralenok
Оргкомитет
 
Posts: 21
Joined: Fri Oct 03, 2003 7:24 am

Next

Return to Общие вопросы

Who is online

Users browsing this forum: No registered users and 17 guests

cron