Уважаемые господа!

Общие обсуждения - потенциальные будущие дорожки, использование материалов РОМИП вне семинара, очные встречи и прочие вопросы для которых нет отдельной подтемы

Уважаемые господа!

Postby rybinkin » Thu Oct 14, 2004 2:02 pm

Уважаемые господа!

Хотелось бы, чтобы форум жил не только перед семинаром, но и в
остальное время - темы же, вроде, интересные. Я, как новичок, жду
затравки, а ее нет и нет. Рискну сам...

Что У НАС получилось на РОМИП-2004, мы анализировали уже после
семинара. Если кому интересно - http://www.2bit.ru/romip.htm.

Вопросы (имею в виду в первую очередь рубрикацию):
1. Нужны ли вообще метрики "Аккуратность" и "Ошибка"? Мне показалось,
что из них нельзя выжать никакой информации. Кому они помогли и чем?

2. Не кажется ли вам, что на анализ по "Полноте", "Точности" и "F-
мере" должны выдаваться РАЗНЫЕ множества (или, если угодно, разные
версии ПО)? Мне лично ИМЕННО ТАК кажется, поскольку задачи в этих
трех случаях несколько разные.

3. В отчете "двух Игорей" прозвучала мысль, что "не бинарная оценка" -
это есть хорошо, поскольку "отдача" от асессоров повышается. Я с
этим полностью согласен. А как насчет "небинарной рубрикации"?
Типа: "этот ресурс точно входит, этот - скорее всего, а этот - скорее
всего нет"? По-моему, разумно...

4. На "круглом столе" семинара участники "накидали" довольно много
предложений. Может, обсудим их здесь и превратим в решения?
rybinkin
 
Posts: 2
Joined: Thu Oct 14, 2004 11:09 am

Re: [romip] Уважаемые господа!

Postby ageev2003 » Thu Oct 14, 2004 4:43 pm

Добрый день!

Поддержу дискуссию...

r> 1. Нужны ли вообще метрики "Аккуратность" и "Ошибка"? Мне
r> показалось, что из них нельзя выжать никакой информации. Кому они
r> помогли и чем?

r> 2. Не кажется ли вам, что на анализ по "Полноте", "Точности" и
r> "F-мере" должны выдаваться РАЗНЫЕ множества (или, если угодно,
r> разные версии ПО)? Мне лично ИМЕННО ТАК кажется, поскольку задачи в
r> этих трех случаях несколько разные.

Эти вопросы перекликаются с тем, что обсуждалось на очной части
семинара: было предложение выделить среди множества метрик некоторые
"основные", по которым все будут сравниваться/публиковаться.

Действительно, в этом году организаторы разослали участникам огромное
число оценок, подсчитанных разными способами. Особенно большое
разнообразие было для дорожки web-поиска: 24 таблицы релевантности,
для каждой из которых были вычислены метрики качества поиска (6 метрик
+ 11 точек TREC). Целых 408 чисел для одной дорожки!

Отчасти такое разнообразие было порождено многочисленными спорами о
том, как нужно мерить результаты: давать ли расширенные описания
запросов асессорам, расширять ли таблицу релевантности и т.д.

На мой взгляд, выбранное решение является хорошим компромиссом в
спорах о "правильных" оценках. Каждый получает возможность измерить
результаты прогонов с помощью той оценки, которую он считает
правильной, и организаторы не берут на себя роль судей в споре о правильных
оценках. Если, например, некая система рубрицирования ориентирована в
первую очередь на полноту, то участник может закрыть глаза на другие
оценки, и измерять только полноту.

С другой стороны, большое разнообразие оценок требует большей работы
от участников - для того, чтобы уверенно утверждать о преимуществе
того или иного метода приходится разбираться в разных оценках и
сравнивать результаты разными способами.

Тут самое главное, чтобы способы получения всех оценок были тщательно
задокументированы и участники могли разобраться, какая оценка чему
соответствует. В РОМИП'2004 использовались широко распространённые
оценки, которые используются в англоязычном TREC.

Михаил Агеев.
ageev2003
Оргкомитет
 
Posts: 28
Joined: Wed Apr 07, 2004 6:58 am

Уважаемые господа! - 2

Postby rybinkin » Thu Oct 14, 2004 5:28 pm

Уважаемые господа!

Хотелось бы, чтобы форум жил не только перед семинаром, но и в
остальное время - темы же, вроде, интересные. Я, как новичок, жду
затравки, а ее нет и нет. Рискну сам...

Что У НАС получилось на РОМИП-2004, мы анализировали уже после
семинара. Если кому интересно - http://www.2bit.ru/romip.htm.

Вопросы (имею в виду в первую очередь рубрикацию):
1. Нужны ли вообще метрики "Аккуратность" и "Ошибка"? Мне показалось,
что из них нельзя выжать никакой информации. Кому они помогли и чем?

2. Не кажется ли вам, что на анализ по "Полноте", "Точности" и "F-
мере" должны выдаваться РАЗНЫЕ множества (или, если угодно, разные
версии ПО)? Мне лично ИМЕННО ТАК кажется, поскольку задачи в этих
трех случаях несколько разные.

3. В отчете "двух Игорей" прозвучала мысль, что "не бинарная оценка" -
это есть хорошо, поскольку "отдача" от асессоров повышается. Я с
этим полностью согласен. А как насчет "небинарной рубрикации"?
Типа: "этот ресурс точно входит, этот - скорее всего, а этот - скорее
всего нет"? По-моему, разумно...

4. На "круглом столе" семинара участники "накидали" довольно много
предложений. Может, обсудим их здесь и превратим в решения?
rybinkin
 
Posts: 2
Joined: Thu Oct 14, 2004 11:09 am


Return to Общие вопросы

Who is online

Users browsing this forum: No registered users and 18 guests

cron