RE: [romip] Re: заметки с круглого стола в Петрозаводске
Posted: Tue Sep 29, 2009 2:57 pm
В том-то и дело, что именно так. Смотрим отчет организаторов:
http://romip.ru/romip2009/01_organizers.pdf
"В процессе анализа результатов участниками было обнаружено расхождение в
понимании задачи асессорами и участниками дорожки, которое не было
регламентировано правилами. В частности, асессоры предполагали, что они ищут
ответ для "реальной" юридической проблемы, а участники решали задачу
текстового поиска. В результате, например, зачастую участники считали все
редакции одного документа релевантными, а асессоры - нет."
При том, что:
"В отличие от предыдущих лет в этом году асессоры руководствовались более
формальной инструкцией по оценке (см. Приложение D). При этом, как и в
предыдущие циклы, мы предполагали, что оценка экспертов в данной прикладной
области более аккуратна, чем, например, оценка в дорожках поиска для Веб.
Этим, в частности, было обусловлено решение об использовании одной оценки."
То есть:
1. Люди посмотрели на то, что им написали - руководствуйся формальной
инструкцией. Организаторы им это написали.
2. И благополучно забили на это - искали ответ для реальной юридической
проблемы. Несмотря на то, что написали им организаторы.
В итоге поставленную задачу не решили. При том, что у нас хороший график,
как его улучшать, полагаясь на такие оценки, вообще непонятно. )
Про дубли - да, хорошая мысль. Мы предлагали тоже самое сделать для
коллекции КМ.RU. У нас уже были цепочки дублей. Тогда (год назад)
предложение не прошло. А качество оценок одинаковых документов на коллекции
KM.RU тоже хромает - на 8-9 дублей обязательно найдется 1-2 противоречащих
оценки (7 - рел, 2 - нерел). То есть качество оценок у нас где-то плюс-минус
15-20%. Игорь Некрестьянов давно говорил, что к результатам РОМИП надо
относиться осторожно )
Суть в том как малой кровью и внятными средствами улучшить качество оценки,
понимая, что пользователь (оценщик) в одном настроении может оценить
документ релевантным, в другом - нерелеватным и тп. То есть дать хорошие
инструменты. Определение цепочек дублей - один из таких грамотных шагов.
Надо придумать еще несколько таких инструментов.
[romip] Re: заметки с круглого стола в Петрозаводске
--- In romip@yahoogroups.com, "Tatevosyan Sergey" wrote:
>
> каждый год аксессоры не знают, что
> от них требуется оценивать результаты поиска, а не юридическую
> реальность, данную им в полностью обновившихся документах.
Насколько я понимаю, это не совсем так. В инструкции по нормативной
коллекции сказано:
"При составлении описания необходимо учитывать, что коллекция документов, в
которой производился поиск ответов на запрос и которые впоследствии будут
оцениваться, трехгодичной давности (2006 года) и содержит документы, которые
созданы не позднее 2006 года."
Т.е. вроде бы асессор должен знать об этой особенности коллекции.
> В 2010 году у них все
> документы в коллекции будут нерелевантны.
Ну, это все же преувеличение. На некоторые запросы (например, "N 573 от
18.09.2006") выход новых нормативных документов вообще не оказывает никакого
влияния.
> ИМХО, при таких вводных дорожку
> надо просто отменить
Я верю в то, что после реализации предложенных Б.В.Добровым доработок среды
асессора (отслеживание дубликатов) результаты оценки по коллекции legal
будут вполне адекватными.
Сафронов.
------------------------------------
Yahoo! Groups Links
http://romip.ru/romip2009/01_organizers.pdf
"В процессе анализа результатов участниками было обнаружено расхождение в
понимании задачи асессорами и участниками дорожки, которое не было
регламентировано правилами. В частности, асессоры предполагали, что они ищут
ответ для "реальной" юридической проблемы, а участники решали задачу
текстового поиска. В результате, например, зачастую участники считали все
редакции одного документа релевантными, а асессоры - нет."
При том, что:
"В отличие от предыдущих лет в этом году асессоры руководствовались более
формальной инструкцией по оценке (см. Приложение D). При этом, как и в
предыдущие циклы, мы предполагали, что оценка экспертов в данной прикладной
области более аккуратна, чем, например, оценка в дорожках поиска для Веб.
Этим, в частности, было обусловлено решение об использовании одной оценки."
То есть:
1. Люди посмотрели на то, что им написали - руководствуйся формальной
инструкцией. Организаторы им это написали.
2. И благополучно забили на это - искали ответ для реальной юридической
проблемы. Несмотря на то, что написали им организаторы.
В итоге поставленную задачу не решили. При том, что у нас хороший график,
как его улучшать, полагаясь на такие оценки, вообще непонятно. )
Про дубли - да, хорошая мысль. Мы предлагали тоже самое сделать для
коллекции КМ.RU. У нас уже были цепочки дублей. Тогда (год назад)
предложение не прошло. А качество оценок одинаковых документов на коллекции
KM.RU тоже хромает - на 8-9 дублей обязательно найдется 1-2 противоречащих
оценки (7 - рел, 2 - нерел). То есть качество оценок у нас где-то плюс-минус
15-20%. Игорь Некрестьянов давно говорил, что к результатам РОМИП надо
относиться осторожно )
Суть в том как малой кровью и внятными средствами улучшить качество оценки,
понимая, что пользователь (оценщик) в одном настроении может оценить
документ релевантным, в другом - нерелеватным и тп. То есть дать хорошие
инструменты. Определение цепочек дублей - один из таких грамотных шагов.
Надо придумать еще несколько таких инструментов.
[romip] Re: заметки с круглого стола в Петрозаводске
--- In romip@yahoogroups.com, "Tatevosyan Sergey" wrote:
>
> каждый год аксессоры не знают, что
> от них требуется оценивать результаты поиска, а не юридическую
> реальность, данную им в полностью обновившихся документах.
Насколько я понимаю, это не совсем так. В инструкции по нормативной
коллекции сказано:
"При составлении описания необходимо учитывать, что коллекция документов, в
которой производился поиск ответов на запрос и которые впоследствии будут
оцениваться, трехгодичной давности (2006 года) и содержит документы, которые
созданы не позднее 2006 года."
Т.е. вроде бы асессор должен знать об этой особенности коллекции.
> В 2010 году у них все
> документы в коллекции будут нерелевантны.
Ну, это все же преувеличение. На некоторые запросы (например, "N 573 от
18.09.2006") выход новых нормативных документов вообще не оказывает никакого
влияния.
> ИМХО, при таких вводных дорожку
> надо просто отменить
Я верю в то, что после реализации предложенных Б.В.Добровым доработок среды
асессора (отслеживание дубликатов) результаты оценки по коллекции legal
будут вполне адекватными.
Сафронов.
------------------------------------
Yahoo! Groups Links