Описание запросов

Классическая задача поиска по запросу (ad-hoc track), поиск по образцу

Описание запросов

Postby sergei_tatevosian » Tue Sep 16, 2008 9:04 am

Оргкомитету: просьба выложить описания документов, релевантных
запросам (по крайней мере, для веб-коллекции). Нужно для написания
статьи. Без описаний возникают оригинальные ситуации: запрос "фабрика
звезд", документ http://music.km.ru/
album.asp?id=e876f611e88a4f0cba43de6f31f30e71 признан нерелевантным,
документ http://www.km.ru/magazin/view.asp?id=E0 ... 295EECB15& - релевант-минус.
Какие тогда документы оценивать как релевантные? :))
Спасибо!
sergei_tatevosian
Оргкомитет
 
Posts: 38
Joined: Mon May 28, 2007 9:21 am

Re: [romip] Описание запросов

Postby SKrylov » Tue Sep 16, 2008 10:15 am

Уважаемый Орг. Комитет!

1. Какой последний срок сдачи статей? 10-е сентября прошло, но я не могу завершить статью до тех пор, пока не буду иметь хотя бы предварительные результаты по BY.WEB. Ответьте, пожалуйста.

2. Вот, кстати, просьба моего тёзки выдать информацию о том, как именно РОМИП трактует запросы - это ещё одна "ласточка", говорящая о том, что трактование конкретных запросов, по-моему мнению, должно находиться исключительно в компетенции а) аксессора, и b) поисковых систем, но никоим образом не РОМИП! Я уже писал об этом Игорю Н. более подробно, и мы договорились, что кто-то из нас обязательно поднимет эту тему в очной встрече.

В частности, я отнюдь не уверен, что указанные Сергеем документы действительно отвечают запросу "фабрика звёзд", а вот Сергей - другого мнения. ТАК И ДОЛЖНО БЫТЬ, а РОМИП'у не следует навязывать аксессорам своё мнение; это, как я считаю, - излишнее администрирование.

Дайте знать срок сдачи статей, пожалуйста.

С уважением,
Сергей Крылов
SKrylov
 
Posts: 9
Joined: Tue Jul 08, 2008 8:46 am

ближайшие планы

Postby neigor » Tue Sep 16, 2008 10:40 am

Добрый день,

постараюсь ответить на основные вопросы всем сразу :)

1) Срок сдачи статей

было бы очень желательно получить тексты статей до 23 сентября,
включительно. Если текст готов раньше - присылайте, мы начнем над ним
работу (можно прислать предварительную версию, а потом обновить).

Даже если вы еще не получили результаты оценки для вашей дорожки -
пожалуйста, начните работать над текстом статьи.

2) Результаты оценки

до завтра (в основном сегодня) мы планируем разослать результаты
- web adhoc по by.web (обновление)
- поиск нечетких дубликатов изображений
- классификация Веб страниц (предварительно)

на подходе аннотирование и классификация веб сайтов

3) Расширенные описания

a) их составляют асессоры а не оргкомитет
b) они безусловно будут открыты, мы постараемся форсировать
этот процесс и разослать участникам дорожки в ближайшее время
На сайте все это будет опубликовано позже, вместе с таблицами
релевантности.

4) Очная часть

Состоится 9 октября (впервые до, а не после банкета :) ).

Организаторы RCDL просят зарегистрироваться заранее, чтобы
гарантированно успеть оформить списки для охраны.

В программе RCDL - http://rcdl2008.jinr.ru/?programm
есть ряд докладов на близкие темы в смежные с РОМИП дни.

Программа РОМИП будет составляться в первых числах октября.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] Описание запросов

Postby sergei_tatevosian » Tue Sep 16, 2008 12:29 pm

Вопрос: сейчас каждый документ оцениваются только одним аксессором?
Коллекция Web.
sergei_tatevosian
Оргкомитет
 
Posts: 38
Joined: Mon May 28, 2007 9:21 am

Re: оценка Веб дорожек

Postby neigor » Tue Sep 16, 2008 1:19 pm

> Вопрос: сейчас каждый документ оцениваются только одним аксессором? Коллекция
Web.

Сейчас каждый документ ОЦЕНЕН одним асессором.
Будет оценен двумя и для By.Web и для коллекции KM.
Поэтому текущие оценки предварительные.

Для части заданий эти оценки уже есть, но полностью мы однозначно не успеем
их дособрать на этой неделе.

Разница в оценивании KM и BY следующая:
1) Глубина пула (35 и 20)
2) Число запросов (60 и 500)
[запросы из части задания, которая соответствует коллекции]
3) Для BY каждый асессор пишет СВОЕ описание запроса
Для KM ВТОРОЙ асессор использует описание составленное первым асессром
задания.
4) В случае KM фильтрация набора запросов на оценку (производилась
оргкомитетом) была строже. Из случайного набора отсеивались
- мусор, опечатки, явно навигационные запросы на что-то чего нет в
коллекции (типа однокласники.ру)

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] Re: оценка Веб дорожек

Postby neigor » Tue Sep 16, 2008 1:43 pm

> Разница в оценивании KM и BY следующая:
> 1) Глубина пула (35 и 20)

50 и 20, опечатался.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: оценка Веб дорожек

Postby sergei_tatevosian » Tue Sep 16, 2008 1:44 pm

Игорь, спасибо за оперативный ответ! :)
sergei_tatevosian
Оргкомитет
 
Posts: 38
Joined: Mon May 28, 2007 9:21 am

Re: Описание запросов

Postby SKrylov » Tue Sep 16, 2008 1:52 pm

Ну да, и я про то же самое: не очень релевантный этот документ. Вот нас уже двое. Однако, Сергей Татевосян тоже прав, если понимать запрос "фабрика звёзд" как поиск их песен. Ведь в запросе прямо не сказано "песни Фабрики звёзд". Однако также не сказано и "выпускники Фабрики", потому считаю, что каждый аксессор сам должен решать для себя, как именно он понимает конкретный запрос. Повторяю, Сергей Татевосян - тоже прав. И РОМИП прав, пытаясь хоть как-то трактовать запросы. Все правы.

Вот я на очной встрече постараюсь затронуть эту тему. Дело в том, что исторически так сложилось, что люди вынуждены задавать подобные неясные вопросы просто потому, что иначе поисковые системы не отвечают - у них нет блока, который бы "трактовал" запрос; вместо этого ищутся слова прямо из запроса (возможно, в других формах и в какой-то степени, возможно, синонимы, но это всё в зачаточной стадии). Отсюда и появляется необходимость в "развёрнутых описаниях".

Более правильным подходом является следующий (далее - "идеальный" отчёт машины):
В ответ на Ваш запрос "фабрика звёзд" система также искала ответы на следующие запросы:
"песни фабрики звёзд", "выпускники фабрики звёзд", "возникновение фабрики звёзд", "статьи о фабрике звёзд", "участники фабрики звёзд", "концерты фабрики звёзд". Далее следуют отчёты системы по Вашему, а также по каждому из указанных выше уточнённых запросов, которые были автоматически сгенерированы системой в соответствии с Вашим исходным запросом:

1. "фабрика звёзд":
http://music.km.ru/album.asp?id=e876f61 ... 6f31f30e71
...
2. "песни фабрики звёзд" (нажмите на эту ссылку, чтобы получить отчёт по этому уточнённому запросу):
http://music.km.ru/album.asp?id=e876f61 ... 6f31f30e71
...
10. "участники фабрики звёзд" (то же):
...

Как генерировать подобные серии запросов - это другая тема. Подходы есть, но нужно много работать ...

С уважением,
Сергей Крылов
SKrylov
 
Posts: 9
Joined: Tue Jul 08, 2008 8:46 am

Re: Ответ для "oldkharkiv" <dsstepanov@...>

Postby sergei_tatevosian » Tue Sep 16, 2008 2:59 pm

> ----- Original Message -----
> From: "oldkharkiv" <dsstepanov@...>
> To: "Sergey Krylov" <SKrylov@...>
> Sent: Tuesday, September 16, 2008 3:37 PM
> Subject: Re: Описание запросов
>
>
> > Как один из ассесор, оценивавший это задание "Фабрика звезд",
позволю
> > себе выложить его расширенное описание:
> >
> > идеальный - сайт фабрики звезд

Проанализируем описание.
1. В коллекции KM.RU _по_определению_ не может существовать сайта
"Фабрики звезд". Поэтому этот пункт сразу неправильный. Напомню, что
у нас не коллекция, состоящая из 3-4 млрд документов рунета, о
ограниченный набор документов. С таким же успехом можно искать этот
сайт в коллекции нормативно-правовых документов. Описание
сферического коня в вакууме - не наш случай.


> > релевантный+ - новости о "фабрике звезд", интервью со "звездами",
> > релевантный- - обсуждения на форумах, статьи о выпускниках
фабрики,
> > ссылки на песни "звезд"

1. Чем интервью со звездами отличаются от статей о выпускниках?
Звезды это не выпускники? Или выпускники уже не звезды?

2. Ссылки почти никогда не являются искомой информацией. Ссылка
означает, что мне надо перейти на другой, как раз релевантный
документ. За исключением каталогов, когда встречается много
однотипных ссылок (много сковородок и т.п.). Поэтому ссылки обычно
воспринимаются: если они по теме, как релевант-, в других случаях как
спам. В данном случае, следуя вашим словам, документ точно следует
оценивать как релевант-, однако ему поставлена оценка нерелевантный.

> >
> > Когда пользователи делают такие запросы, они хотят получить
информацию
> > о самой фабрике звезд (о том что это такое, кто там живет и
т.п.), а
> > не ее отходах (которыми в данном случае являются песни).

Про "хотят". Откуда вы знаете, что именно хотят получить
пользователи? Я, например, заходя на сайт с музыкой буду рад получить
песни на прослушку + список людей, входящих в "фабрику звезд". В этом
документе в явном виде присутствует список людей, входящих в Фабрику
- 2, что тоже хорошо.

Про отходы.
Вопрос: для чего создавалась фабрика звезд? Я думаю, для исполнения
песен. Это ее прямое назначение. Это документ - сборник этих песен.
Например, по запросу "Битлз" релевантными будут документы с
названиями их пластинок, потому что это их "Отходы". По запросу
"Яндекс" будет релевантным документ blogs.yandex.ru, потому что это
его "отходы", то бишь его продукция. А не только статьи и новости о
Яндексе.

В целом, описание очень академично. Точно также по запросу
"Голландия" будут нерелевантными документы с описаниями туров в
Голландию и их стоимостью. Что и было в прошлом году. А, может, я
собрался в отпуск в Голландию, и мне нужны именно туры, а статьи в
Википедии и прочие информационные материалы мне вообще неинтересны.
То есть "коммерческие" документы, документы о книгах про фабрику
звезд, туры в студию, где снималась фабрика звезд и т.п. будут
признаны нерелевантными. Я думаю, это плохая практика. Это сильно
затрудняет работу и делает процесс оптимизации параметров похожим на
шаманство, чего нужно избегать.
В этом году мы специально для таких случаев составили классификацию
возможных релевантных документов. Классификация была направлена в
оргкомитет. По представленному описанию видно, что можно "задрать"
все документы из энциклопедии mega.km.ru, тогда они будут
релевантными. Это неправильно. Выдача должна быть разнообразна. Это
самый хороший критерий выдачи. Новости ли это о предмете, статьи и
нем, о продукции, которую он выпускает. И пользователь уже сам решает
что ему нужно, что интересно. Разным нужно разное.

Так что
> > документ http://music.km.ru/album.asp?
> > id=e876f611e88a4f0cba43de6f31f30e71 максимум можно было оценить
как
> > релевантный-
> >
sergei_tatevosian
Оргкомитет
 
Posts: 38
Joined: Mon May 28, 2007 9:21 am

Re: асессоры

Postby neigor » Tue Sep 16, 2008 7:11 pm

> > Как один из ассесор, оценивавший это задание "Фабрика звезд", позволю
> > себе выложить его расширенное описание:
> >
> > идеальный - сайт фабрики звезд

> Проанализируем описание.
> 1. В коллекции KM.RU _по_определению_ не может существовать сайта
> "Фабрики звезд". Поэтому этот пункт сразу неправильный. Напомню, что
> у нас не коллекция, состоящая из 3-4 млрд документов рунета, о
> ограниченный набор документов. С таким же успехом можно искать этот
> сайт в коллекции нормативно-правовых документов. Описание
> сферического коня в вакууме - не наш случай.

Я не хочу ввязываться в полемику по поводу этого конкретного запроса.
Но хочу прояснить пару моментов.

1) Асессор не знает точно содержимого коллекции и вообще толком
не знает по какой коллекции проводился поиск.
Возможно, асессоры должны знать больше.
Но непонятно, где проходит грань и что им знать уже не надо.

2) Асессоры САМИ решали как должно выглядеть описание.

В качестве вводной информации асессоры получали следующие рекомендации:
http://meta.math.spbu.ru/~igor/examples-and-instructions.doc

Возможно, что разнообразная выдоча и является ОПТИМАЛЬНЫМ ответом,
но у конкретного пользователя может быть и конкретная цель.
Поэтому вполне логично, что оценки остаются субъективными.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm


Return to Поисковые дорожки

Who is online

Users browsing this forum: No registered users and 2 guests

cron