Здравствуйте!
В рамках проведения вопросно-ответной дорожки представляю
организаторам семинара РОМИП таблицу тестовых вопросов (200 шт.) с
ответами на них. С ней можно ознакомиться скачав архив по ссылке
http://www.stocona.ru/download/search/files/QAtestcase.zip
Данная таблица содержит предложения ответов, взятые из коллекции
текстов narod.ru.
Таблицу можно использовать для оценки качества работы вопросно-
ответных поисковых систем как вручную, так и автоматически.
Ответ поисковой системы должен содержать слово (слова)
семантического ответа в соответствующем контексте.
Для расчета обобщенного показателя качества функционирования
тестируемых поисковых систем предлагаю использовать следующую
методику:
Ответам поисковых систем присваиваются коэффициенты корректности
ранжирования, определяемые на основе показателей Mean Reprocal Rank
рассчитанные по testcase на основании первых 5 ответов.
Если правильный ответ находится в первом сниппете, то данному
тестовому случаю присваивается коэффициент 1.
Если правильный ответ находится во втором сниппете, то данному
тестовому случаю присваивается коэффициент 0.5.
Если правильный ответ находится в третьем сниппете, то данному
тестовому случаю присваивается коэффициент 0.33.
Если правильный ответ находится в четвертом сниппете, то данному
тестовому случаю присваивается коэффициент 0.25.
Если правильный ответ находится в пятом сниппете, то данному
тестовому случаю присваивается коэффициент 0.2.
Если правильного ответа нет в первых пяти сниппетах, то данному
тестовому случаю присваивается коэффициент 0.
Тестовые случаи рассчитаны на получение, как правило, одного
правильного ответа. Если корректных ответов несколько, то
учитывается только один максимальный коэффициент по данному
тестовому случаю. (Например, если корректные ответы имеются в 1 и 3
сниппете, то коэффициент присваивается равным 1).
Результирующее значение обобщенного показателя качества
функционирования тестируемых поисковых систем рассчитывается на
основе среднего арифметического по всем тестовым случаям.
Данная методика оценки наиболее приближена к формату TREC 2001,
являющемуся, на мой взгляд, наиболее удачным вариантом оценки QA
систем.
Жду от организаторов семинара РОМИП итогового списка вопросов (с
учетом тестовых случаев организаторов и оставшихся участников), а
также решения по методике оценки.
С уважением Огарок Андрей.