Добрый день!
>> > 1) как я понимаю, возникли вопросы по выбору метрик
>>
>> Если речь идет о формулах по которым вычисляются итоговые оценки на основе
>> таблиц релевантности, то это мне кажется относительно простой вопрос - мы
>> можем использовать столько формул, сколько нам захочется и этот набор можно
>> расширять потом.
>>
>> Тем не менее список конечно полезно составить/подправить.
>>
d> На мой взгляд, вопрос достаточно принципиальный, так как не все,
d> особенно внешние люди, вникают в смысл применяемых метрик, но могут
d> делать те или иные выводы...
d> Мне кажется, должны быть какие-то метрики оценки - "официальные",
d> принятые РОМИП, причем, желательно ДО (!) начала годового цикла.
d> Остальные метрики - неофициальные (!), их можно обсуждать и т.п.,
d> но они не могут выражать точку зрения оргкомитета в целом.
d> Какие же метрики взять официальными?
d> Для меня нет вопроса - это метрики TREC!
d> Это позволяет нам сравнивать и сравниваться с тем, что там делалось.
d> Любые другие - только после общего обсуждения.
Полностью согласен.
d> У любой метрики есть проблемы.
d> У TRECовской - что делать в случае, если на запрос нет релевантных
d> документов.
d> Вопрос непростой - "полнота" неопределена, "точность" - тоже, причем
d> данная ситуация неустойчива
d> (привлеченные эксперты-студенты считают что нет релевантных документов,
d> а затем найдется - и результаты сильно поплывут...)
d> Я думаю, надо сделать как в TREC - не оценивать запросы, где очень мало
d> релевантных документов (меньше 5-10).
Сегодня я нашел описание этой ситуации в описании утилиты trec_eval
(которая используется в TREC):
http://www-nlpir.nist.gov/projects/trecvid/trecvid.tools/trec_eval/READMEVERSION 3 changes (from Version 2):
1. Totally disregards queries with no relevant judged documents.
(Previously only disregarded queries with no judged documents)
Соответственно, в TREC запросы, для которых нет релевантных
документов, исключаются из рассмотрения.
Я считаю, что все остальные запросы оценивать нужно.
Михаил Агеев.