romip.ru

Posted: **Tue Sep 29, 2009 2:57 pm**

В том-то и дело, что именно так. Смотрим отчет организаторов:
http://romip.ru/romip2009/01_organizers.pdf

"В процессе анализа результатов участниками было обнаружено расхождение в
понимании задачи асессорами и участниками дорожки, которое не было
регламентировано правилами. В частности, асессоры предполагали, что они ищут
ответ для "реальной" юридической проблемы, а участники решали задачу
текстового поиска. В результате, например, зачастую участники считали все
редакции одного документа релевантными, а асессоры - нет."

При том, что:
"В отличие от предыдущих лет в этом году асессоры руководствовались более
формальной инструкцией по оценке (см. Приложение D). При этом, как и в
предыдущие циклы, мы предполагали, что оценка экспертов в данной прикладной
области более аккуратна, чем, например, оценка в дорожках поиска для Веб.
Этим, в частности, было обусловлено решение об использовании одной оценки."

То есть:
1. Люди посмотрели на то, что им написали - руководствуйся формальной
инструкцией. Организаторы им это написали.
2. И благополучно забили на это - искали ответ для реальной юридической
проблемы. Несмотря на то, что написали им организаторы.

В итоге поставленную задачу не решили. При том, что у нас хороший график,
как его улучшать, полагаясь на такие оценки, вообще непонятно.

)
Про дубли - да, хорошая мысль. Мы предлагали тоже самое сделать для
коллекции КМ.RU. У нас уже были цепочки дублей. Тогда (год назад)
предложение не прошло. А качество оценок одинаковых документов на коллекции
KM.RU тоже хромает - на 8-9 дублей обязательно найдется 1-2 противоречащих
оценки (7 - рел, 2 - нерел). То есть качество оценок у нас где-то плюс-минус
15-20%. Игорь Некрестьянов давно говорил, что к результатам РОМИП надо
относиться осторожно

)

Суть в том как малой кровью и внятными средствами улучшить качество оценки,
понимая, что пользователь (оценщик) в одном настроении может оценить
документ релевантным, в другом - нерелеватным и тп. То есть дать хорошие
инструменты. Определение цепочек дублей - один из таких грамотных шагов.
Надо придумать еще несколько таких инструментов.

[romip] Re: заметки с круглого стола в Петрозаводске

--- In romip@yahoogroups.com, "Tatevosyan Sergey" wrote:
>
> каждый год аксессоры не знают, что
> от них требуется оценивать результаты поиска, а не юридическую
> реальность, данную им в полностью обновившихся документах.

Насколько я понимаю, это не совсем так. В инструкции по нормативной
коллекции сказано:
"При составлении описания необходимо учитывать, что коллекция документов, в
которой производился поиск ответов на запрос и которые впоследствии будут
оцениваться, трехгодичной давности (2006 года) и содержит документы, которые
созданы не позднее 2006 года."
Т.е. вроде бы асессор должен знать об этой особенности коллекции.

> В 2010 году у них все
> документы в коллекции будут нерелевантны.

Ну, это все же преувеличение. На некоторые запросы (например, "N 573 от
18.09.2006") выход новых нормативных документов вообще не оказывает никакого
влияния.

> ИМХО, при таких вводных дорожку
> надо просто отменить

Я верю в то, что после реализации предложенных Б.В.Добровым доработок среды
асессора (отслеживание дубликатов) результаты оценки по коллекции legal
будут вполне адекватными.

Сафронов.

------------------------------------

Yahoo! Groups Links

Posted: **Tue Sep 29, 2009 3:00 pm**

Ну, и совсем гениальное:
"Среди причин, по которым только некоторые из схожих документов были
признаны релевантными, эксперт отметил, например:
· Документы недействительны (на конец 2006 года), и существует их
обновленная редакция, или в документах явно сказано, что они утратили
силу/отменены.
· Есть "другой" новый закон/нормативный акт, который регламентирует этот
вопрос. Этот факт отсутствует в результатах, но асессор "знает" о его
существовании.
· "Проект" закона бесполезен, нужен окончательный принятый текст."

:))

[romip] Re: заметки с круглого стола в Петрозаводске

--- In romip@yahoogroups.com, "Tatevosyan Sergey" wrote:
>
> каждый год аксессоры не знают, что
> от них требуется оценивать результаты поиска, а не юридическую
> реальность, данную им в полностью обновившихся документах.

Насколько я понимаю, это не совсем так. В инструкции по нормативной
коллекции сказано:
"При составлении описания необходимо учитывать, что коллекция документов, в
которой производился поиск ответов на запрос и которые впоследствии будут
оцениваться, трехгодичной давности (2006 года) и содержит документы, которые
созданы не позднее 2006 года."
Т.е. вроде бы асессор должен знать об этой особенности коллекции.

> В 2010 году у них все
> документы в коллекции будут нерелевантны.

Ну, это все же преувеличение. На некоторые запросы (например, "N 573 от
18.09.2006") выход новых нормативных документов вообще не оказывает никакого
влияния.

> ИМХО, при таких вводных дорожку
> надо просто отменить

Я верю в то, что после реализации предложенных Б.В.Добровым доработок среды
асессора (отслеживание дубликатов) результаты оценки по коллекции legal
будут вполне адекватными.

Сафронов.

------------------------------------

Yahoo! Groups Links

Posted: **Tue Sep 29, 2009 3:57 pm**

Я лично наблюдал работу нескольких legal ассесоров и не видел подобной
проблемы, хотя она могла присутствовать, но одинаково для всех участников.
На самом деле, количество запросов на котором данная проблема МОГЛА
проявится не так много, большинство запросов было либо навигационным либо не
имело явно временного ограничения.

Общий вопрос - мы можем обновить юридическую коллекцию по 2010 год в
следующем году. Вопросы:
1. Делать ли ее больше (+регионы)?
2. Делать ли специальную разметку редакций? В исходной базе они отмечены, но
для упрощения в формате РОМИП этого нет
3. Откуда брать запросы. Борис, можешь поговорить с Гарантом?

Насчет разного настроения ассесора и т.д. - это неизбежный шум. Например сам
инструмент с большими задержками показа больших документов приводит к
множеству ошибок когда ассесор не может понять сменился ли документ и ставит
оценку предыдущего документа следующему. Уменьшить уровень шума может стоить
очень дорого и привлечение неквалифицированных ассесоров просто внесет
другую составляющую. Ну будет любой документ содержащий текст запроса оценен
как релевантный, разве это что-то даст.

Максим

RE: [romip] Re: заметки с круглого стола в Петрозаводске

В том-то и дело, что именно так. Смотрим отчет организаторов:
http://romip.ru/romip2009/01_organizers.pdf

"В процессе анализа результатов участниками было обнаружено расхождение в
понимании задачи асессорами и участниками дорожки, которое не было
регламентировано правилами. В частности, асессоры предполагали, что они ищут
ответ для "реальной" юридической проблемы, а участники решали задачу
текстового поиска. В результате, например, зачастую участники считали все
редакции одного документа релевантными, а асессоры - нет."

При том, что:
"В отличие от предыдущих лет в этом году асессоры руководствовались более
формальной инструкцией по оценке (см. Приложение D). При этом, как и в
предыдущие циклы, мы предполагали, что оценка экспертов в данной прикладной
области более аккуратна, чем, например, оценка в дорожках поиска для Веб.
Этим, в частности, было обусловлено решение об использовании одной оценки."

То есть:
1. Люди посмотрели на то, что им написали - руководствуйся формальной
инструкцией. Организаторы им это написали.
2. И благополучно забили на это - искали ответ для реальной юридической
проблемы. Несмотря на то, что написали им организаторы.

В итоге поставленную задачу не решили. При том, что у нас хороший график,
как его улучшать, полагаясь на такие оценки, вообще непонятно.

)
Про дубли - да, хорошая мысль. Мы предлагали тоже самое сделать для
коллекции КМ.RU. У нас уже были цепочки дублей. Тогда (год назад)
предложение не прошло. А качество оценок одинаковых документов на коллекции
KM.RU тоже хромает - на 8-9 дублей обязательно найдется 1-2 противоречащих
оценки (7 - рел, 2 - нерел). То есть качество оценок у нас где-то плюс-минус
15-20%. Игорь Некрестьянов давно говорил, что к результатам РОМИП надо
относиться осторожно

)

Суть в том как малой кровью и внятными средствами улучшить качество оценки,
понимая, что пользователь (оценщик) в одном настроении может оценить
документ релевантным, в другом - нерелеватным и тп. То есть дать хорошие
инструменты. Определение цепочек дублей - один из таких грамотных шагов.
Надо придумать еще несколько таких инструментов.

[romip] Re: заметки с круглого стола в Петрозаводске

--- In romip@yahoogroups.com, "Tatevosyan Sergey" wrote:
>
> каждый год аксессоры не знают, что
> от них требуется оценивать результаты поиска, а не юридическую
> реальность, данную им в полностью обновившихся документах.

Насколько я понимаю, это не совсем так. В инструкции по нормативной
коллекции сказано:
"При составлении описания необходимо учитывать, что коллекция документов, в
которой производился поиск ответов на запрос и которые впоследствии будут
оцениваться, трехгодичной давности (2006 года) и содержит документы, которые
созданы не позднее 2006 года."
Т.е. вроде бы асессор должен знать об этой особенности коллекции.

> В 2010 году у них все
> документы в коллекции будут нерелевантны.

Ну, это все же преувеличение. На некоторые запросы (например, "N 573 от
18.09.2006") выход новых нормативных документов вообще не оказывает никакого
влияния.

> ИМХО, при таких вводных дорожку
> надо просто отменить

Я верю в то, что после реализации предложенных Б.В.Добровым доработок среды
асессора (отслеживание дубликатов) результаты оценки по коллекции legal
будут вполне адекватными.

Сафронов.

Posted: **Tue Sep 29, 2009 3:57 pm**

--- In romip@yahoogroups.com, "Tatevosyan Sergey" wrote:

> "В процессе анализа результатов участниками было обнаружено расхождение в
> понимании задачи асессорами и участниками дорожки, которое не было
> регламентировано правилами. В частности, асессоры предполагали, что они ищут
> ответ для "реальной" юридической проблемы, а участники решали задачу
> текстового поиска.

На мой взгляд, в этом случае асессоры правы. "Решение задачи текстового поиска"
- это то же самое, что и решение задачи по разгону сферического коня в вакууме.
Интересно, но никому не нужно. В случае коллекции legal поисковая система и
должна ничем иным, как инструментом решения реальной юридической проблемы.

Давайте посмотрим, как проблема сформулирована в отчете организаторов:
"...зачастую участники считали все редакции одного документа релевантными, а
асессоры - нет."
В самом факте того, что юристы считают некоторые версии релевантными, а другие -
нерелевантными, нет ничего плохого. В реальной жизни это вполне нормальная
ситуация. Проблема возникает лишь тогда, когда выбор релевантной версии
основывается на непонятных принципах. Чтобы решить эту проблему, достаточно
сделать следующее:
1. Оценку всей цепочки версий одного документа должен производить один и тот же
асессор.
2. При этом асессор должен понимать, что оценивает именно цепочку версий.

Сафронов.

Posted: **Wed Sep 30, 2009 5:40 am**

--- In romip@yahoogroups.com, "Max Gubin" wrote:

> Общий вопрос - мы можем обновить юридическую коллекцию по 2010 год в
> следующем году.

Мне кажется, здесь должны принять решение организаторы. Лично я предпочел бы,
чтобы коллекция осталась прежней (из-за наличия таблиц релевантности). Но для
того, чтобы оставить коллекцию 2007 года, необходимо решить вопрос с оценкой
нечетких дубликатов. Если с организационной точки зрения это не слишком сложно -
можно оставить и старую коллекцию.

> 1. Делать ли ее больше (+регионы)?
А какой объем коллекции используется в реальных правовых системах типа
Консультанта/Гаранта/Кодекса? Я за то, чтобы размер и содержание коллекции были
близки к "реальным".

> 2. Делать ли специальную разметку редакций? В исходной базе они отмечены, но
> для упрощения в формате РОМИП этого нет

Можно рассмотреть такой вариант: убирать из коллекции все версии документов,
кроме последней.

Сафронов.

Posted: **Wed Sep 30, 2009 5:57 am**

>Мне кажется, здесь должны принять решение организаторы.
Я как организатор и спрашиваю общественное мнение. Старая коллекция с
таблицами никуда не денется, а оценивать по ней новые задания станет все
сложнее и сложнее.

>А какой объем коллекции используется в реальных правовых системах типа
Консультанта/Гаранта/Кодекса? Я >за то, чтобы размер и содержание коллекции
были близки к "реальным".

Сейчас это абсолютно реальная коллекция российского законодательства, такого
же объема какой вы купили бы в этих системах в год выхода коллекции. Просто
возможности растут и многим интересны большие коллекции.

>Можно рассмотреть такой вариант: убирать из коллекции все версии
документов, кроме последней.

Я думал об этом, в самой первой коллекции в 2004 так и было сделано. Но тут
есть большой недостаток, это "рвет" гипертекстовый граф коллекции, потому
что ситуации ссылок на конкретную редакцию перестают обрабатываться, а их
порядко 3% графа (хотя это оценка по всему законодательству в 2006 году, не
могу точно сказать в коллекции), что уже заметно. Кроме того, реальная
правовая система должна уметь работать с редакциями, потому что может быть
запрос направленный в конкретную старую редакцию, например норму, которая
убрана из какого-то закона.

Максим

------------------------------------

Yahoo! Groups Links

Posted: **Wed Sep 30, 2009 6:49 am**

Я думаю, что надо решить, что для нас эта коллекция:
1. Еще одна коллекция для информационного поиска.
или
2. Правовая база данных.

Отвечаем на этот вопрос - понимаем что делать.
Например, нам вариант #2 не очень интересен, т.к. вообще говоря, тогда надо
организовывать поиск по базе данных, в которой есть четкая привязка закона,
всех его редакций, актов и тп. И проставлены даты всех документов.
Если принимаем коллекцию за вариант #1, тогда ничего не надо менять,
остаются таблицы релевантности и настраиваться проще.

В этом году получилось смешение (и довольно серьезное - см. статью УИС)
понимания, из-за чего возникла обсуждаемая ситуация.

RE: [romip] Re: заметки с круглого стола в Петрозаводске

>Мне кажется, здесь должны принять решение организаторы.
Я как организатор и спрашиваю общественное мнение. Старая коллекция с
таблицами никуда не денется, а оценивать по ней новые задания станет все
сложнее и сложнее.

>А какой объем коллекции используется в реальных правовых системах типа
Консультанта/Гаранта/Кодекса? Я >за то, чтобы размер и содержание коллекции
были близки к "реальным".

Сейчас это абсолютно реальная коллекция российского законодательства, такого
же объема какой вы купили бы в этих системах в год выхода коллекции. Просто
возможности растут и многим интересны большие коллекции.

>Можно рассмотреть такой вариант: убирать из коллекции все версии
документов, кроме последней.

Я думал об этом, в самой первой коллекции в 2004 так и было сделано. Но тут
есть большой недостаток, это "рвет" гипертекстовый граф коллекции, потому
что ситуации ссылок на конкретную редакцию перестают обрабатываться, а их
порядко 3% графа (хотя это оценка по всему законодательству в 2006 году, не
могу точно сказать в коллекции), что уже заметно. Кроме того, реальная
правовая система должна уметь работать с редакциями, потому что может быть
запрос направленный в конкретную старую редакцию, например норму, которая
убрана из какого-то закона.

Максим

Posted: **Wed Sep 30, 2009 7:13 am**

Здравствуйте.

Очевидно, мы ждем разного от результатов участия в поиске по legal.
Для нас дорожка legal - не только возможность получить график, оценивающий
результаты поисковой выдачи. Мы хотим получить материал для дальнейшей
настройки алгоритма, т.е. набор адекватно и объективно (!!!) оцененных
документов, поэтому в этом ключе нас не устраивают по-разному оцененные
дубли и просроченные документы, признанные нерелевантными, т.к. наша система
оптимизации просто этого не поймет:)

С уважением,
Брызгалова Наташа, КМ

[romip] Re: заметки с круглого стола в Петрозаводске

--- In romip@yahoogroups.com, "Tatevosyan Sergey" wrote:

> "В процессе анализа результатов участниками было обнаружено расхождение в
> понимании задачи асессорами и участниками дорожки, которое не было
> регламентировано правилами. В частности, асессоры предполагали, что они
ищут
> ответ для "реальной" юридической проблемы, а участники решали задачу
> текстового поиска.

На мой взгляд, в этом случае асессоры правы. "Решение задачи текстового
поиска" - это то же самое, что и решение задачи по разгону сферического коня
в вакууме. Интересно, но никому не нужно. В случае коллекции legal поисковая
система и должна ничем иным, как инструментом решения реальной юридической
проблемы.

Давайте посмотрим, как проблема сформулирована в отчете организаторов:
"...зачастую участники считали все редакции одного документа релевантными, а
асессоры - нет."
В самом факте того, что юристы считают некоторые версии релевантными, а
другие - нерелевантными, нет ничего плохого. В реальной жизни это вполне
нормальная ситуация. Проблема возникает лишь тогда, когда выбор релевантной
версии основывается на непонятных принципах. Чтобы решить эту проблему,
достаточно сделать следующее:
1. Оценку всей цепочки версий одного документа должен производить один и тот
же асессор.
2. При этом асессор должен понимать, что оценивает именно цепочку версий.

Сафронов.

Posted: **Wed Sep 30, 2009 8:03 am**

--- In romip@yahoogroups.com, "Bryzgalova Natalja" wrote:

> Мы хотим получить материал для дальнейшей
> настройки алгоритма, т.е. набор адекватно и объективно (!!!) оцененных
> документов, поэтому в этом ключе нас не устраивают по-разному оцененные
> дубли

Как решать проблему дублей - в целом понятно (я писал об этом выше).
Проинформировав асессора о существовании дублей, мы получим _рациональную_
оценку ("объективную" оценку получить, пожалуй, будет затруднительно в силу
субъективности понятия релевантности).
Я думаю, что это единственное, что нужно сделать с коллекцией legal.
Навязывать же асессору какие-либо принципы оценки документов (например, считать
все нечеткие дубли релевантными, если хотя бы один из них релевантен) - не
совсем правильно, поскольку решение задач с такими искусственными правилами не
имеет практического смысла.

> нас не устраивают по-разному оцененные дубли
> и просроченные документы, признанные нерелевантными, т.к. наша система
> оптимизации просто этого не поймет:)

Думаю, что при формировании правил дорожки нужно отталкиваться от потребностей
пользователя, а не от возможностей систем-участниц.

Сафронов.

Posted: **Wed Sep 30, 2009 8:25 am**

Как это не имеет практического смысла? А зачем мы тогда вообще участвуем в
РОМИП? Нам, например, 1) нужны таблицы релевантности; 2) однозначное
понимание того, что мы считаем релевантным документом. Иначе получится, что
для каннибалов человекосъедение нормально, а для нас - нет. То есть
аксессоры сами по себе, мы - сами по себе. У нас одни правила игры. У них -
другие. Тогда дорожка вообще не имеет смысла. Давайте тогда в в Вебе старые
документы оценивать как нерелевантные. Все эти разговоры о том как бы не
повлиять не оценщика, чтобы его оценка не стала субъективной с моей точки
зрения - бред.

Потому что есть четкая задача поиска релевантных
документов и есть задача настройки алгоритма. И какое бы мнение у оценщика
не было, но www.yandex.ru по запросу "Яндекс" однозначно релевантен. Иначе
мы сейчас договоримся до полной демократии, которая повлечет за собой
невозможность решения задачи вообще.

)
Дело не в том, кто что считает, а в однозначности понимания задачи в целом(в
частностях, конечно же могут быть различия). Если старые документы(например)
признаются нерелевантными, тогда мы парсим дату, включаем е в формулу
ранжирования и настраиваемся. Если нет, тогда не делаем этого. А то мы
считаем, что ее учитывать не надо. А оценщики, что надо. И к чему мы
приходим? К бесполезности дорожки в принципе

Одни играют в преферанс,
другие в 21. Результат: 12, черное (рулетка).
То есть: если мы признаем дорожку legal как правовую базу данных с
соответствующими целями поиска (только самая последняя редакция документа
признается релевантной), значит, так и делаем. И об этом знаем и мы, и
оценщики. Не вижу препятствий

Кроме того, сначала:
>tatevosyan: каждый год аксессоры не знают, что
> от них требуется оценивать результаты поиска, а не юридическую
> реальность, данную им в полностью обновившихся документах.

>Safronov: Насколько я понимаю, это не совсем так. В инструкции по
нормативной коллекции сказано:
>"При составлении описания необходимо учитывать, что коллекция документов, в
которой производился поиск ответов на запрос и которые впоследствии будут
>оцениваться, трехгодичной давности (2006 года) и содержит документы,
которые созданы не позднее 2006 года."
>Т.е. вроде бы асессор должен знать об этой особенности коллекции.

А потом:
>Safronov: На мой взгляд, в этом случае асессоры правы. "Решение задачи
текстового поиска" - это то же самое, что и решение задачи по разгону
сферического коня в вакууме. Интересно, но никому не нужно. В случае
коллекции legal поисковая система и должна ничем иным, как инструментом
решения реальной юридической проблемы.

Так какого вы мнения? 1-го или 2-го?

[romip] Re: заметки с круглого стола в Петрозаводске

--- In romip@yahoogroups.com, "Bryzgalova Natalja" wrote:

> Мы хотим получить материал для дальнейшей настройки алгоритма, т.е.
> набор адекватно и объективно (!!!) оцененных документов, поэтому в
> этом ключе нас не устраивают по-разному оцененные дубли

Как решать проблему дублей - в целом понятно (я писал об этом выше).
Проинформировав асессора о существовании дублей, мы получим _рациональную_
оценку ("объективную" оценку получить, пожалуй, будет затруднительно в силу
субъективности понятия релевантности).
Я думаю, что это единственное, что нужно сделать с коллекцией legal.
Навязывать же асессору какие-либо принципы оценки документов (например,
считать все нечеткие дубли релевантными, если хотя бы один из них
релевантен) - не совсем правильно, поскольку решение задач с такими
искусственными правилами не имеет практического смысла.

> нас не устраивают по-разному оцененные дубли и просроченные документы,
> признанные нерелевантными, т.к. наша система оптимизации просто этого
> не поймет:)

Думаю, что при формировании правил дорожки нужно отталкиваться от
потребностей пользователя, а не от возможностей систем-участниц.

Сафронов.