Igor Kuralenok пишет:
> Кстати, как вам идея уменьшить
> глубину оценки (например до 14-15) и увеличить количество оцененных
> запросов? Было бы здорово оценить не 60 - 80 запросов а 200-300.
Maxim Gubin пишет:
>> Конечно, если мы имеем огромные коллекции с таким большим количеством
>> релевантных документов запросу, что они не помещаются ни в какие пулы, то
>> bperf - вполне разумная мера, но на текущих РОМИП коллекциях до этого пока
>> далеко. Или я не прав?
Я все про bpref.
Если мы примем предложение Игоря (к которому я присоединяюсь)
оценивать много (не менее 200?) запросов, но НЕ глубоко, при этом
выставляя максимально надежные (релевантные и нерелевантные) оценки в
небольшом колчиестве на запрос, то метрика bpref покажется существенно
более обоснованной: она меньше зависит от глубины (полноты) оценки пула,
так как опирается на отношения порядка по оцененным парам.
Дискуссия - чуть ниже.
> 1. В данном запросе все системы вернули мало релевантных документов. При
> этом, так как в пуле число релевантных документов заниженно, то мы получим
> более высокие оценки полноты, чем есть на самом деле. Это не хорошо, но так
> как любые оценки относительны коллекции, то что в этом страшного, мы все
> равно можем сравнивать алгоритмы.
А зачем нам полнота, если мы считаем bpref?
> 2. Мы сделали новый алгоритм, с лучшей полнотой. При попытке
Постараюсь описать это так, как я понимаю.
В некотором смысле "полнота" (как функция от полного
числа выданных системой "относительно" релевантных документов)
не так уж важна. В условиях веб поиска, больших коллекций etc etc.
Важнее умение находить "самые" релевантные документы вверху выдачи
по максимальному количеству запросов, по которым их можно хоть
как-то выявить.
В предложенной модели (много неглубоко оцененных запросов)
мы заведомо НЕ надеемся получить полный список релевантных
документов.
Зато мы аппроксимируем "умение системы находить релевантные документы" в
самом верху выдачи тем, что штрафуем запросы, в которых система ставит
заведомо нерелевантные (оцененные нами) документы над релевантными.
Это, по сути, и есть идея bpref от Buckley & Voorhees.
> переиспользовать данные, для многих документов должно появится в результате
> "не знаю", если таблица релевантности содержит все документы "старого" пула.
> При настройке алгоритма мы можем посмотреть эту разницу и решить, что они
> релевантны или нет, то есть не 100%, но все-таки переиспользование. В
> следующем цикле семинара наша система добавит эти документы в пулы и мы
> получим более точные оценки. Никакая метрика в данном случае не поможет, так
> как мы все равно не знаем релевантны или нет новые включенные в результат
> документы.
Проблема в том, что любая новая система привнесет слишко много
неоцененных документов и автоматически получит штраф.
Ждать следующего цикла оценки - дорого и долго.
Кроме того, в классической модели (когда новые документы приравнены к
оцененным нерелевантным документам) трудно сравнивать две новые системы
между собой.
Поясню мысль.
Пусть R - релевантный, N - нерелвантный, а ? - не оцененный документ.
Система A выдала документы в таком порядке: ??RRNN???..
Система B выдала документы в таком порядке: NNRR?????..
bpref накажет систему B, традиционные метрики посчитают системы
одинаковыми. ... these measures [R-precision, MAP, and P(10)]
make no distinction in pooled collections
between documents that are explicitly judged as nonrelevant
and documents that are assumed to be nonrelevant because
they are unjudged ..
Если посмотреть на поисковые конференции, которые измеряют точность, то
можно увидеть bpref уже в 33 публикациях на ACM
google:[site:portal.acm.org bpref]
Илья