шкала оценки?

Классическая задача поиска по запросу (ad-hoc track), поиск по образцу

шкала оценки?

Postby neigor » Tue Jun 15, 2004 7:32 pm

Еще один вопрос требующий решения - шкала оценки.

в прошлом году шкала была почти бинарная:
релевантен/нерелевантен/не могу оценить
причем третий вариант означал наличие технических проблем
и невозможность ознакомится с содержимым документа для его оценки.

в этом году поступило несколько предложений об использовании
более детальной шкалы.

Мотивация основана не только на интуитивно понятном рассуждении о
том, что обычно одни документы более полезны, чем другие. Еще известно,
что люди склоны к оценке относительно других увиденных ими ответов,
то есть релевантным могут назвать лучший документ из просмотренных
(в котором есть хоть какое-то упоминание близкой информации),
или наоборот нерелевантным будет вполне хороший полезный
документ, если оценщик уже видел "гораздо лучший".

С другой стороны известно, что при очень детальной шкале и отсутствии
четких инструкций оценщики запутываются и это работает плохо.

Собственно предлагается следующее:
1) попробовать расширенную шкалу с 4-5 градациями
(то есть добавить 1-2)
2) часть оценки продублировать на основе старой шкалы
чтобы можно было оценить насколько это помогает

Возникающие вопросы (и мое понимание на данный момент):
A) Как это связано с метриками?

Стандартные метрики, которые мы использовали в прошлом году
и будем использовать в этом основаны на использовании бинарных оценок.
Есть их вариации и для более детальных шкал, но
самый простой подход - построить несколько бинарных таблиц релевантности
наподобие того как это было в прошлом году при расхождении мнений
экспертов. (типа, все считают это строго релевантным или хоть кто-то
считатет это слабо релевантным). Ну а дальше применить те же метрики.

B) Какая будет шкала?

Простой подход - ввести 2 вида релевантности - сильная и слабая,
но их все равно надо четко описать.
Александр Садовский обещал поделится информацией о шкале оценки
используемой в Яндекс - в чистом виде она к РОМИП плохо применима
(так, я не думаю, что у нас есть "витальные" ответы и нескольких
разновидностей ошибок у нас нет).

Александр, может быть пришлете описания уровней прямо в форум?

C) Применять ли такой подход для всех дорожек или нет?

Лично я склонен был бы проэкспериментировать на
1-2 дорожках (один поиск и одна классификация?) с дублежом оценки.
В консервативном случае, даже для этих дорожек основным вариантом могла
бы быть бинарная шкала, а расширенная только для части заданий.
Для дорожки поиска фактов, мне бинарная шкала кажется лучше -
итак там задача оценщика усложнена.

Какие есть идеи/вопросы/предложения?
Ни один из ответов еще не зафиксирован и ваше мнение может на него повлиять
:)

В итоге нам надо подготовить инструкцию ассесору наподобие тех, что
использовались в прошлом году
(см. http://romip.narod.ru/romip2003/1_romip_overview.pdf)
А поскольку оценка очень скоро начнется, то подготовить ее надо быстро :(

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Return to Поисковые дорожки

Who is online

Users browsing this forum: No registered users and 14 guests

cron