23.05.2008, в 20:58, Igor Nekrestyanov написал(а):
>>> Я согласен что каждый N-й это относительно разумный способ
>>> построения
>>> выборки, но оценивать случайные запросы сложно. Асессор может плохо
>>> представлять о чем идет речь, а при наших объемах оценки плохо
>>> понятные
>>> запросы могут привнести много шума в таблицу релевантности.
>>>
>>> Что касается собственно темы письма, то мне кажется, что сейчас
>>> реалистично
>>> сделать следующее:
>>> 1) включить в число запросов для оценки некоторое количество таких,
>>> слова из которых встречаются в текстах ссылок.
>>> [идеально - на основе пересечения списков таких запросов
>>> предоставленных
>>> участниками]
>>
>> Зачем это? Зачем ты репрезентативную выборку смещаешь в непонятную
>> сторону?
>
> a. наш текущий способ отбора не совсем не совсем случаен и
> выборка невелика, так что о том что одна лучше/хуже речи мало
Это очень плохо и это место мы и пытаемся исправить.
>
> b. О "репрезентативности" чего ты говоришь?
> Честная репрезентативность в твоем понимании помогает оценить
> качество рещения
> задачи для пользователей поиска по белорусскому Веб, что попали
> в этот конкретный кусочек лога (и даже тут очень много сомнительных
> аспектов).
Нет. Для всех пользователей с беларусскими IP. Для того, чтобы это
оценить мы делаем равномерную выборку по логу их запросов. Такая
ситуация моделирует национальный поиск. Если никому из участников не
интересна задача национального поиска, то сори за флейм.
> Но это ли основная цель _всех_ участников?
> IMHO, те, кто изучает влияние отдельных факторов на качество
> заинтересован в получении оценки таких заданий где эти факторы
> влиют.
Это другая задача. Ее тоже можно решать, но я не понимаю при чем здесь
РОМИП. Мы хотим делать оценку на заказ? Это наш новый род бизнеса?
> У нас не полный граф и естественно, что не для всех запросов
> будут доступны ссылки. Я надеюсь, что число запросов где слова
> встречаются в сслыках значительно (>30%) и это не будет смещение в
> очень узкую область.
Ссылки вообще-то доступны не для всех документов интернета. При этом
мы умеем искать по таким коллекциям. Не понимаю проблемы. Формулу для
подобных условий надо будет переобучать, но линковые факторы никто не
отменит если выкинуть 9/10 линков.
> c. Это только часть запросов, остальные сохраняются.
50% это существенная часть, которая здорово влияет на среднее. Не
понимаю зачем это надо.
IK