Веб коллекции для РОМИП 2007

Классическая задача поиска по запросу (ad-hoc track), поиск по образцу

Веб коллекции для РОМИП 2007

Postby neigor » Thu May 24, 2007 8:23 am

Добрый день,

Благодаря активной помощи Яндекс и KM.RU в этом году у нас появляется сразу
две новых Веб коллекции:

1) Коллекция KM.RU

Коллекция КМ является копией мультипортала www.km.ru и содержит 3.010.455
документов в 1892 архивных файлах, занимающих 13.7 GB. Это примерно 90% от
общего объема www.km.ru на май 2007. В коллекции представлены документы с 57
сайтов.

Более подробное описание коллекции ниже.

2) Коллекция построенная как выборка части белорусского сегмента Рунет

~400.000 Документов
Процент ссылок ведущих внутрь коллекции - ~25%.
Более подробное описание коллекции пока еще недоступно.

Предлагается использовать обе коллекции в рамках Веб-дорожки.
То, есть:
- дородка будет состоять из двух коллекций и единого набора запросов.
- участники могут вернуть по два набора ответов для каждого запроса
(ответы для каждой из коллекций отдельно) или только один набор для
одной коллекции
- при оценке мы будем сливать в пул ответы из разных коллекций и
оценивать совместно. Вычислять итоговые оценки будет сужая пул на
соответствующую коллекцию.

Есть возражения/предложения/комментарии?

-igor

---------------------------------------------------------------------------
Описание коллекции КМ

Коллекция КМ является копией мультипортала www.km.ru и содержит 3.010.455
документов в 1892 архивных файлах, занимающих 13.7 GB. Это примерно 90% от
общего объема www.km.ru на май 2007. В коллекции представлены документы с 57
сайтов, список которых приведен ниже.

Особенности коллекции:
1. Довольно большое число нечетких дублей документов. Обычно это ситуация,
когда документ представлен в виде самого себя, копии для печати и архивной
копии.
2. В документах часто присутствует большое число информационных блоков, не
относящихся к данному документу (заголовки других материалов в виде ссылок).
3. Некоторые сайты с большим числом документов имеют хорошо перелинкованную
структуру, что приводит к необоснованно высокому весу их документов по
сравнению с документами других сайтов.
4. Выдачу лучше делать подокументно, т.к. число сайтов мало и крупными
являются только некоторые из них.


Список сайтов в коллекции:

http://www.km.ru/
http://conference.km.ru/
http://star.km.ru/
http://opinion.km.ru/
http://inosmi.km.ru/
http://top100.km.ru/
http://tribuna.km.ru/
http://armia.km.ru/
http://belorussia.km.ru/
http://wto.km.ru/
http://demografia.km.ru/
http://kavkaz.km.ru/
http://masmedia.km.ru/
http://obrazovanie.km.ru/
http://pribaltika.km.ru/
http://ukraina.km.ru/
http://auto.km.ru/
http://afisha.km.ru/
http://business.km.ru/
http://cinema.km.ru/
http://pc.km.ru/
http://music.km.ru/
http://science.km.ru/
http://travel.km.ru/
http://job.km.ru/
http://sport.km.ru/
http://www.shopping.ru/
http://startmail.ru/
http://mail.km.ru/
http://www.girlmail.ru/
http://www.boymail.ru/
http://www.bossmail.ru/
http://www.safebox.ru/
http://www.megabox.ru/
http://www.freemail.ru/
http://partner.km.ru/
http://forum2.km.ru/
http://hosting.km.ru/
http://cards.km.ru/
http://mobile.km.ru/
http://vip.km.ru/
http://mega.km.ru/
http://student.km.ru/
http://fun.km.ru/
http://game.km.ru/
http://crossword.km.ru/
http://photo-video.km.ru/
http://stylemania.ru/
http://realty.km.ru/
http://aska.km.ru/
http://pushkov.km.ru/
http://markov.km.ru/
http://horoscope.km.ru/
http://personal-horo.km.ru/personal/
http://vkids.km.ru/
http://tv.km.ru/
http://2007.km.ru/
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] Веб коллекции для РОМИП 2007

Postby neigor » Thu May 24, 2007 12:01 pm

> 2) Коллекция построенная как выборка части белорусского сегмента Рунет
>
> ~400.000 Документов
> Процент ссылок ведущих внутрь коллекции - ~25%.

уточнение : 900.000 документов

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] Веб коллекции для РОМИП 2007

Postby ageev2003 » Fri May 25, 2007 2:38 pm

Добрый день!

Новые коллекции - это хорошо!

Возникает естественный вопрос, а что будем оценивать?
Cтандартная ad-hoc оценка "документ релевантен/нерелевантен", или ещё
что-то типа
- "разнообразие результатов" (если 10 дублей хорошего документа на
первой странице, то это плохо)
- "authority search" (лучше выдать главную страницу авторитетного
сайта, релевантного запросу, чем сообщение в форуме)

С уважением,
Михаил Агеев.
ageev2003
Оргкомитет
 
Posts: 28
Joined: Wed Apr 07, 2004 6:58 am

Re: [romip] Веб коллекции для РОМИП 2007

Postby segalovich » Fri May 25, 2007 6:47 pm

Добрый день всем!

Я ровно об метриках тоже хотел написать. :-)

1. Про стандартные метрики.

Не хотим ли мы попробовать bpref-10 (или ее развития типа rpref
или infAP), как более устойчивую для больших неполно оцененных
коллекций?

Подробнее про bpref, bpref-10:
Retrieval Evaluation With Incomplete Information
http://www.nist.gov/itl/iad/IADpapers/2004/p102-buckley.pdf

Для совместимости продолжать считать P10, MAP и компанию.

2. Разнообразие.

У Микрософта была метрика типа "recall разнообразия".

Не могу быстро найти статью (там было несколько reciprocal rank
для каждого subtopic-а).

3. "authority search"

Представляется сомнительным сама постановка.
Важнее найти глубокую страницу с непосредственным ответом,
чем главную без оного.

Илья
segalovich
Оргкомитет
 
Posts: 46
Joined: Fri Jan 31, 2003 1:21 pm

RE: [romip] Веб коллекции для РОМИП 2007

Postby maxgubin » Sat May 26, 2007 7:36 am

Всем привет!

Из описания коллекции не понятно, а какие есть запросы? Насколько они
соответствуют данной коллекции?

Вещи, типа удаления дублей не радуют, так как не всегда под рукой есть
готовые средства борьбы с ними, если хочешь сделать быстро экспериментальную
систему. Белорусский сегмент рунета - он чисто русский, или там еще надо
отфильтровывать белорусские документы?

Насчет метрик - почему бы не посчитать, это же совсем не проблема, правда, у
меня есть сильное предчувствие, что они не изменят "ранк" системы по
сравнению с "устоявшимися" метриками. Тем более будет интересно, если это
окажется не так.

Максим
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

Re: [romip] Веб коллекции для РОМИП 2007

Postby segalovich » Mon May 28, 2007 2:15 pm

bpref не про изменение ранка участников внутри коллективной дорожки, а
про переиспользование дорожки в дальнейшем.

Для больших коллекций новые участники (или новые алгоритмы старых
участников) находят слишком много неоценных документов.

В P10/MAP неоцененные документы вносят слишком большое искажение.

Max Gubin пишет:

> Насчет метрик - почему бы не посчитать, это же совсем не проблема, правда, у
> меня есть сильное предчувствие, что они не изменят "ранк" системы по
> сравнению с "устоявшимися" метриками. Тем более будет интересно, если это
> окажется не так.
segalovich
Оргкомитет
 
Posts: 46
Joined: Fri Jan 31, 2003 1:21 pm

RE: [romip] Веб коллекции для РОМИП 2007

Postby maxgubin » Tue May 29, 2007 6:09 am

Илья, спасибо за ответ.

Я не спорю, посчитать еще метрики я не вижу проблемы. Насколько я понимаю,
имея таблицы релевантности и результаты системы их можно вычислить в любой
момент времени.
Правда, не в целях развернуть дискуссию, а чтобы мне, темному, понять.
Рассмотрим два случая:
1. В данном запросе все системы вернули мало релевантных документов. При
этом, так как в пуле число релевантных документов заниженно, то мы получим
более высокие оценки полноты, чем есть на самом деле. Это не хорошо, но так
как любые оценки относительны коллекции, то что в этом страшного, мы все
равно можем сравнивать алгоритмы.
2. Мы сделали новый алгоритм, с лучшей полнотой. При попытке
переиспользовать данные, для многих документов должно появится в результате
"не знаю", если таблица релевантности содержит все документы "старого" пула.
При настройке алгоритма мы можем посмотреть эту разницу и решить, что они
релевантны или нет, то есть не 100%, но все-таки переиспользование. В
следующем цикле семинара наша система добавит эти документы в пулы и мы
получим более точные оценки. Никакая метрика в данном случае не поможет, так
как мы все равно не знаем релевантны или нет новые включенные в результат
документы.


Конечно, если мы имеем огромные коллекции с таким большим количеством
релевантных документов запросу, что они не помещаются ни в какие пулы, то
bperf - вполне разумная мера, но на текущих РОМИП коллекциях до этого пока
далеко. Или я не прав?

Максим

Re: [romip] Веб коллекции для РОМИП 2007

bpref не про изменение ранка участников внутри коллективной дорожки, а
про переиспользование дорожки в дальнейшем.

Для больших коллекций новые участники (или новые алгоритмы старых
участников) находят слишком много неоценных документов.

В P10/MAP неоцененные документы вносят слишком большое искажение.

Max Gubin пишет:

> Насчет метрик - почему бы не посчитать, это же совсем не проблема, правда,
у
> меня есть сильное предчувствие, что они не изменят "ранк" системы по
> сравнению с "устоявшимися" метриками. Тем более будет интересно, если это
> окажется не так.






Yahoo! Groups Links
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am


Return to Поисковые дорожки

Who is online

Users browsing this forum: No registered users and 1 guest

cron