Я согласен что каждый N-й это относительно разумный способ построения
выборки, но оценивать случайные запросы сложно. Асессор может плохо
представлять о чем идет речь, а при наших объемах оценки плохо понятные
запросы могут привнести много шума в таблицу релевантности.
Что касается собственно темы письма, то мне кажется, что сейчас реалистично
сделать следующее:
1) включить в число запросов для оценки некоторое количество таких,
слова из которых встречаются в текстах ссылок.
[идеально - на основе пересечения списков таких запросов предоставленных
участниками]
2) попросить асессоров при подготовке расширенных описаний указать
ожидают ли они, что должен быть найден какой-нибудь один конкретный
документ/сайт (и попросить его кратко охарактеризовать - типа "сайт
MTC")
3) расширить число официальных метрик, включив prec(1) например
Можно также посчитать оценку на сужении запросов на те, где важны
ссылки, но можно оставить такой расчет на усмотрение самого учасника.
4) увеличить число оцениваемых заданий (и может быть понизить глубину
пула)
Например, 150 и 20?
Мы безусловно готовы принять новые выборки логов запросов
и по KM и по By.Web для расширения набора заданий.
Процедуру оценки асессорами не менять, если на каких-то запросах
использование ссылок будет приносить дополнительную пользу,
то те кто граф используют смогут это увидеть.
В дополнение к этому лично я хотел бы, чтобы участники могли напрямую
сами влиять на оцениваемую выборку. Мы уже пробовали предложить участникам
отобрать и прислать в оргкомитет несколько запросов из набора заданий,
из которых мы потом бы отобрали часть заданий для оценки.
Реакция была неоднозначной и часть негативной, к тому же это было предложено
уже почти на стадии оценки.
Хотелось бы еще раз вернуться к этому вопросу.
Проблема с нашей неконтролируемой выборкой, что мы можем _вообще_ не
оценить ни одного запроса наиболее интересного конкретному участнику
(например, там где хоть как-то используется ссылочное ранжирование).
Во многом это из-за ее небольшого размера.
Что предлагается. Каждый участник может предложить для оценки некоторое
количество запросов (N) из лога из которых оргкомитет как-то отберет
несколько (K) для включения в оцениваемый набор.
Конечно есть риск, что участник подкрутит результаты по этим запросам,
но в конце концов он так только другим поможет увидеть больше релевантных
документов в пуле.
Кроме того, N может быть достаточно большим, а K маленьким.
Например, N=200, K=5 или 10. Отбор из N будет проводится на общих
основаниях, как и для "нерекомендованных" запросов.
Общий набор таких "рекомендованных" запросов будет 1 прогона, что бывает далеко не всегда.
Вопросы:
1) Какие есть возражения по предлагаемому плану включения запросов где
влияет ссылочное ранжирование?
2) Выскажитесь пожалуйста про принципиальную возможность влияния на
оцениваемые задания со стороны участников и про этот конкретный
вариант (и конечно если есть идеи лучше).
-igor