заметки с круглого стола в Петрозаводске

Общие обсуждения - потенциальные будущие дорожки, использование материалов РОМИП вне семинара, очные встречи и прочие вопросы для которых нет отдельной подтемы

Re: заметки с круглого стола в Петрозаводске

Postby salexunder » Wed Sep 30, 2009 8:30 am

--- In romip@yahoogroups.com, "Tatevosyan Sergey" wrote:
>
> Я думаю, что надо решить, что для нас эта коллекция:
> 1. Еще одна коллекция для информационного поиска.
> или
> 2. Правовая база данных.

Как к коллекции относится поисковая система - не очень важно. Важно понять, чего
ждет живой пользователь.
Задача, которая решается поисковой системой в дорожке legal - удовлетворить
информационные потребности тех пользователей, для которых предназначена
коллекция. Я полагаю, что мы не имеем права закрывать глаза на тот факт, что
правовая коллекция предназначена для юристов (и, возможно, отчасти бухгалтеров).
Поэтому оценка должна производится именно с точки зрения юриста. Отступление от
этого правила, как мне кажется, уменьшит ее практическую ценность.


> В этом году получилось смешение (и довольно серьезное - см. статью УИС)
> понимания, из-за чего возникла обсуждаемая ситуация.

Единственная серьезная проблема, описанная в статье УИС, состоит в том, что
оценка асессорами цепочек дублей была иррациональна. Относительно простыми
техническими методами можно добиться того, чтобы эта оценка стала рациональной
(я писал об этом выше).
Таким образом, кроме этих технических мер, ничего особенного делать с дорожкой
не нужно.


Сафронов.
salexunder
 
Posts: 16
Joined: Tue Mar 17, 2009 8:21 am

RE: [romip] Re: заметки с круглого стола в Петрозаводске

Postby sergei_tatevosian » Wed Sep 30, 2009 9:12 am

Разумные доводы. Надо решать что делаем :)



[romip] Re: заметки с круглого стола в Петрозаводске

--- In romip@yahoogroups.com, "Tatevosyan Sergey" wrote:
>
> Я думаю, что надо решить, что для нас эта коллекция:
> 1. Еще одна коллекция для информационного поиска.
> или
> 2. Правовая база данных.

Как к коллекции относится поисковая система - не очень важно. Важно понять,
чего ждет живой пользователь.
Задача, которая решается поисковой системой в дорожке legal - удовлетворить
информационные потребности тех пользователей, для которых предназначена
коллекция. Я полагаю, что мы не имеем права закрывать глаза на тот факт, что
правовая коллекция предназначена для юристов (и, возможно, отчасти
бухгалтеров). Поэтому оценка должна производится именно с точки зрения
юриста. Отступление от этого правила, как мне кажется, уменьшит ее
практическую ценность.


> В этом году получилось смешение (и довольно серьезное - см. статью
> УИС) понимания, из-за чего возникла обсуждаемая ситуация.

Единственная серьезная проблема, описанная в статье УИС, состоит в том, что
оценка асессорами цепочек дублей была иррациональна. Относительно простыми
техническими методами можно добиться того, чтобы эта оценка стала
рациональной (я писал об этом выше).
Таким образом, кроме этих технических мер, ничего особенного делать с
дорожкой не нужно.


Сафронов.
sergei_tatevosian
Оргкомитет
 
Posts: 38
Joined: Mon May 28, 2007 9:21 am

Re: заметки с круглого стола в Петрозаводске

Postby salexunder » Wed Sep 30, 2009 4:02 pm

--- In romip@yahoogroups.com, "Tatevosyan Sergey" wrote:

> Надо решать что делаем :)

На мой взгляд, можно сделать следующее:
1. Реализовать в инструменте асессора механизм поиска нечетких дубликатов.
2. При обнаружении с помощью этого механизма в общем котле кластера дубликатов
обеспечить проверку всех документов кластера одним асессором.
3. Обеспечить информирование асессора о существовании кластера дубликатов. Один
из способов это сделать - предлагать асессору оценивать документы из кластера
последовательно один за другим.
4. Если кто-то из участников дорожки выскажется за обновление коллекции -
обновить ее до актуального состояния (лично я не считаю это необходимым).

Как, собственно, выполнить пункты 1-3 - я пока не совсем представляю. Возможно,
для этого придется привлечь фрилансеров. В этом случае оплата, очевидно, должна
быть возложена на будущих участников дорожки.


Сафронов.
salexunder
 
Posts: 16
Joined: Tue Mar 17, 2009 8:21 am

Re: заметки с круглого стола в Петрозаводске

Postby salexunder » Wed Sep 30, 2009 5:15 pm

--- In romip@yahoogroups.com, "Max Gubin" wrote:

> Я как организатор и спрашиваю общественное мнение.

К идее обновления коллекции лично я отношусь нейтрально. Если кто-то из других
участников сочтет это необходимым - почему бы и нет.


> это "рвет" гипертекстовый граф коллекции

Да, тогда выбрасывать старые версии документов нежелательно.


> Кроме того, реальная
> правовая система должна уметь работать с редакциями

Логично.
Насколько я понимаю, в реальных правовых системах информация о версиях документа
закладывается на этапе добавления документа в коллекцию. Другими словами,
поисковик не должен решать задачу выявления дубликатов во время выполнения
запроса.
Мы можем добавить в коллекцию нормативных документов специальное поле, которое
позволит участникам понять, что некоторые документы являются версиями друг
друга. Кто захочет - будет использовать это поле.

Было бы интересно услышать, что думают по этому поводу другие участники дорожки.

Сафронов.
salexunder
 
Posts: 16
Joined: Tue Mar 17, 2009 8:21 am

Re: [romip] Re: заметки с круглого стола в Петрозаводске

Postby maxgubin » Wed Sep 30, 2009 5:33 pm


>Мы можем добавить в коллекцию нормативных документов специальное поле, которое позволит участникам >понять, что некоторые документы являются версиями друг друга. � то захочет - будет использовать это поле.
Я именно так это и вижу. Поле, которое говорит что это редакция и какого документа (его� ID) система должна сама принимать решение о необходимости выводить редакцию или основной документ.

Максим
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

Re: [romip] Re: заметки с круглого стола в Петрозаводске

Postby dobroff2003 » Wed Sep 30, 2009 6:12 pm

Добрый день,

с некоторым запазданием присоединяюсь к дискуссии, зато внесу 10
копеек

Wednesday, September 30, 2009, 12:30:37 PM, you wrote:

AS> --- In romip@yahoogroups.com, "Tatevosyan Sergey" wrote:
>>
>> Я думаю, что надо решить, что для нас эта коллекция:
>> 1. Еще одна коллекция для информационного поиска.
>> или
>> 2. Правовая база данных.

AS> Как к коллекции относится поисковая система - не очень важно.
AS> Важно понять, чего ждет живой пользователь. Задача, которая
AS> решается поисковой системой в дорожке legal - удовлетворить
AS> информационные потребности тех пользователей, для которых
AS> предназначена коллекция. Я полагаю, что мы не имеем права
AS> закрывать глаза на тот факт, что правовая коллекция предназначена
AS> для юристов (и, возможно, отчасти бухгалтеров). Поэтому оценка
AS> должна производится именно с точки зрения юриста. Отступление от
AS> этого правила, как мне кажется, уменьшит ее практическую ценность.

я согласен, что мы должны ориентироваться на потребности реальных
пользователей

однако, это совершенно не означает, что эти потребности как-то скрыты
и их нельзя сформулировать или, по крайней мере, выделить ограничения

сейчас основная проблема, что не совпадают ожидания участников дорожки
(которые действуют в строгом соответствии с заданием) и ожидания
асессоров (которые действуют "как хочется")

я знаю не менее трех РЕАЛЬНЫХ постановок задачи поиска по правовым
коллекциям, разных по отношению к дубликатам

1) (основная - востребована большинством пользователей) релевантным
признается только актуальный документ (для РОМИП дата актуальности
- дата формирования коллекции)

2) нужна версия документа на заданную дату - это достаточно
распространенная постановка задачи, связанная с судебными
разбирательствами, например, с налоговой инспекцией, когда
признаются только документы, действующие на конкретную дату

3) (специально юридическая) юристы вполне себе рассматривают документы
"в развитии" - как они говорят "чтобы понять логику законодателя",
особенно когда эту "логику" невозможно извлечь из самих текстов
законов

считаю, что это вполне внятные постановки задачи

можно сформулировать и другие, чтобы учесть следующие особенности
коллекции:
- если документ включен в коллекцию, то это "не просто так"
- если есть принятый текст, то проект текста не очень релевантен, или,
наоборот интересен
- необходимо учитывать иерархию нормативных актов - типа "кодекс" --
"законы" -- "указы" -- "распоряжения" и т.д.

я выступаю только за то, что может быть и несколько дорожек по той же
Legal коллекции (если потянем, что, впрочем, сомнительно), но чтобы
для фиксированной дорожки была выбрана ровно ОДНА интерпретация,
заранее согласованная с участниками, а асессоры должны действовать
в рамках этой интерпретации (в конце концов у каждого юриста есть
начальник - РОМИП здесь начальник)

можно и согласовать с асессорами постановку - но только все надо
зафиксировать заранее

(кстати, следует более детально оговорить и инструкции по типам
запросов - кроме решения "смысловых юридических проблем" поиск "по
номеру", "по статье" и т.п.)

а далее - нет особенных проблем в поиске дубликатов, включении в
индекс даты документа, его типа и т.п.

>> 1. Еще одна коллекция для информационного поиска.

для оценки формальной релевантности по коллекции Legal (интересные
документы) можно ее включить в web-коллекцию - обернуть только для
приличия, например, в домен типа kodex.by :) - там же никто не
оценивает правда на странице или нет

>> В этом году получилось смешение (и довольно серьезное - см. статью УИС)
>> понимания, из-за чего возникла обсуждаемая ситуация.

AS> Единственная серьезная проблема, описанная в статье УИС, состоит в
AS> том, что оценка асессорами цепочек дублей была иррациональна.

именно - совершенно иррационально, причем по многим запросам

AS> Относительно простыми техническими методами можно добиться того,
AS> чтобы эта оценка стала рациональной (я писал об этом выше). Таким
AS> образом, кроме этих технических мер, ничего особенного делать с
AS> дорожкой не нужно.

с технической точки зрения согласен


Wednesday, September 30, 2009, 8:02:51 PM, you wrote:

AS> --- In romip@yahoogroups.com, "Tatevosyan Sergey" wrote:

>> Надо решать что делаем :)

AS> На мой взгляд, можно сделать следующее:

AS> 1. Реализовать в инструменте асессора механизм поиска нечетких
AS> дубликатов.

это, можно сказать, уже есть
(ясно, что работает с определенной полнотой/точностью, но при пороге в
80% на порядок снизит ошибку оценивания)

AS> 2. При обнаружении с помощью этого механизма в общем котле
AS> кластера дубликатов обеспечить проверку всех документов кластера
AS> одним асессором.

можно и разными асессорами (ничего страшного, если будут оценки AND и
OR), только чтобы каждый оценил единообразно все близкие документы

AS> 3. Обеспечить информирование асессора о существовании кластера
AS> дубликатов. Один из способов это сделать - предлагать асессору
AS> оценивать документы из кластера последовательно один за другим.

это должно стать обязательным, причем для legal коллекции -
последовательно по дате опубликования

AS> 4. Если кто-то из участников дорожки выскажется за обновление
AS> коллекции - обновить ее до актуального состояния (лично я не
AS> считаю это необходимым).

как говорят наше законодательство уезжает от "актуального состояния"
каждые полгода - РОМИПу все равно не угнаться - считаю, что обновлять
не требуется (матрицы релевантности дороже)

AS> Как, собственно, выполнить пункты 1-3 - я пока не совсем
AS> представляю. Возможно, для этого придется привлечь фрилансеров. В
AS> этом случае оплата, очевидно, должна быть возложена на будущих
AS> участников дорожки.

В оценке трудоемкости мы расходимся с Игорем. Мне кажется, что можно
легко (http://www.cir.ru/temp/leg09_clus/dist_0.80/index.htm) оценить
все кластеры похожих часа за два. Привлеченные организаторами асессоры
говорили, что, наоборот, очень трудно. Не знаю, не знаю...

>>Мне кажется, здесь должны принять решение организаторы.
MG> Я как организатор и спрашиваю общественное мнение. Старая коллекция с
MG> таблицами никуда не денется, а оценивать по ней новые задания станет все
MG> сложнее и сложнее.

почему?
кажется 300 тыс. документов - это вполне много (не обозримо вручную),
а запросы можно менять

>>А какой объем коллекции используется в реальных правовых системах типа
MG> Консультанта/Гаранта/Кодекса? Я >за то, чтобы размер и содержание коллекции
MG> были близки к "реальным".

MG> Сейчас это абсолютно реальная коллекция российского законодательства, такого
MG> же объема какой вы купили бы в этих системах в год выхода коллекции. Просто
MG> возможности растут и многим интересны большие коллекции.

здесь есть еще вопрос - а даст ли, например, Кодекс еще раз псевдоактуальную
коллекцию (актуальную на какую-то дату)? Это ведь доп.работа для них.
Как нам это обосновать, кроме того, что "нам хочется"?


Tuesday, September 29, 2009, 7:57:33 PM, you wrote:

MG> Общий вопрос - мы можем обновить юридическую коллекцию по 2010 год в
MG> следующем году. Вопросы:
MG> 1. Делать ли ее больше (+регионы)?

величение коллекции за счет региональных и ведомственных НПА - это, на
самом деле, интересная задача

но тогда вопросы "актуальности" и "правомочности" документов перейдут
из разряда технических (типа последняя версия) в существенно не
разрешенные юридически

сформулировать четкие постановки станет сложнее

MG> 2. Делать ли специальную разметку редакций? В исходной базе они
MG> отмечены, но для упрощения в формате РОМИП этого нет

хороший вопрос - естественно, такие данные очень полезны, только
насколько это честно с точки зрения IR?

кроме того дело не только в версиях - нам встречались, например, акты
об индексировании зарплат - они не версионные, они близкие (меняются
только суммы)

MG> 3. Откуда брать запросы. Борис, можешь поговорить с Гарантом?

поговорить, конечно, могу

у нас даже есть запросы (даже с определенной частотнотностью) -
достаточно разрешения - но гарантировать успех переговоров на 100%
априори, конечно, не могу

но, тогда можно будет поговорить и с К+ :)

MG> Насчет разного настроения ассесора и т.д. - это неизбежный шум.
MG> Например сам инструмент с большими задержками показа больших
MG> документов приводит к множеству ошибок когда ассесор не может
MG> понять сменился ли документ и ставит оценку предыдущего документа
MG> следующему. Уменьшить уровень шума может стоить очень дорого и
MG> привлечение неквалифицированных ассесоров просто внесет другую
MG> составляющую. Ну будет любой документ содержащий текст запроса
MG> оценен как релевантный, разве это что-то даст.

у нас другой случай - могу только еще раз дать ссылку
http://www.cir.ru/temp/leg09_clus/dist_0.80/index.htm

или я чего не понимаю?




--
С уважением,
Борис Добров
dobroff2003
Оргкомитет
 
Posts: 83
Joined: Fri May 23, 2003 9:52 am

Re: заметки с круглого стола в Петрозаводске

Postby salexunder » Thu Oct 01, 2009 8:41 am

--- In romip@yahoogroups.com, "Boris V. Dobrov" wrote:

> я знаю не менее трех РЕАЛЬНЫХ постановок задачи поиска по правовым
> коллекциям, разных по отношению к дубликатам
...
> я выступаю только за то, что может быть и несколько дорожек по той же
> Legal коллекции (если потянем, что, впрочем, сомнительно), но чтобы
> для фиксированной дорожки была выбрана ровно ОДНА интерпретация,
> заранее согласованная с участниками, а асессоры должны действовать
> в рамках этой интерпретации

Полностью согласен.

Есть предположение, что для разных типов запросов нужно прописать свою
интерпретацию. Например, так:
1. Если запрос явно навигационный, т.е. в нем указано название документа, а
также версия документа ("Федеральный закон N 94-ФЗ от 21.07.2005"), то
релевантной считается только именно эта версия документа. Другие редакции (даже
более актуальные) - нерелевантны.
2. Если навигационный запрос содержит название документа, но не уточняет версию
("Федеральный закон О гражданстве РФ"), то релевантной считается только
актуальная редакция.
3. Если запрос "смысловой", т.е. в нем упоминается какое-либо понятие или
описывается юридическая проблема ("виндикационный иск"), то документ считается
релевантным или нерелевантным в зависимости от полноты и точности раскрытия в
нем данной темы, и независимо от актуальности самого документа.

Вероятно, эта схема нуждается в уточнениях и дополнениях, но сам принцип
прописывания интерпретации для _типов_ запросов мне кажется разумным.


> для оценки формальной релевантности по коллекции Legal (интересные
> документы) можно ее включить в web-коллекцию - обернуть только для
> приличия, например, в домен типа kodex.by :) - там же никто не
> оценивает правда на странице или нет

Я бы, пожалуй, не стал в такой дорожке участвовать. Но если кто-то захочет -
почему бы и нет.


> MG> 2. Делать ли специальную разметку редакций? В исходной базе они
> MG> отмечены, но для упрощения в формате РОМИП этого нет
> хороший вопрос - естественно, такие данные очень полезны, только
> насколько это честно с точки зрения IR?

Я бы предпочел, чтобы данные о версионности присутствовали в коллекции, - даже
если это не совсем корректно с точки зрения "чистого IR". Хотя ведь никого не
смущает использование разметки википедии для различных исследований в области
IR. Будем рассматривать legal как такую правовую википедию :)
С другой стороны, я бы не хотел, чтобы увеличение "специализированности" дорожки
legal привело бы к оттоку с нее участников. Было бы интересно выслушать других
участников по этому вопросу.


Сафронов.
salexunder
 
Posts: 16
Joined: Tue Mar 17, 2009 8:21 am

RE: [romip] Re: заметки с круглого стола в Петрозаводске

Postby sergei_tatevosian » Thu Oct 01, 2009 8:51 am

>Есть предположение, что для разных типов запросов нужно прописать свою
интерпретацию. Например, так:
>1. Если запрос явно навигационный, т.е. в нем указано название документа, а
также версия документа ("Федеральный закон N 94-ФЗ от 21.07.2005"), то
>релевантной считается только именно эта версия документа. Другие редакции
(даже более актуальные) - нерелевантны.
>2. Если навигационный запрос содержит название документа, но не уточняет
версию ("Федеральный закон О гражданстве РФ"), то релевантной считается
только >актуальная редакция.
>3. Если запрос "смысловой", т.е. в нем упоминается какое-либо понятие или
описывается юридическая проблема ("виндикационный иск"), то документ
считается >релевантным или нерелевантным в зависимости от полноты и точности
раскрытия в нем данной темы, и независимо от актуальности самого документа.

>Вероятно, эта схема нуждается в уточнениях и дополнениях, но сам принцип
прописывания интерпретации для _типов_ запросов мне кажется разумным.

Да, хорошая мысль! Поддерживаю.


> для оценки формальной релевантности по коллекции Legal (интересные
> документы) можно ее включить в web-коллекцию - обернуть только для
> приличия, например, в домен типа kodex.by :) - там же никто не
> оценивает правда на странице или нет

>Я бы, пожалуй, не стал в такой дорожке участвовать. Но если кто-то захочет
- почему бы и нет.
А вот мы как раз рассматриваем legal именно как еще одну дорожку веб :)) И
именно в ней будем участвовать :) Если будет дорожка, оформлення как
правовая c законами, актами и версиями - тогда нет.



------------------------------------

Yahoo! Groups Links
sergei_tatevosian
Оргкомитет
 
Posts: 38
Joined: Mon May 28, 2007 9:21 am

Re[2]: [romip] Re: заметки с круглого стола в Петрозаводске

Postby dobroff2003 » Thu Oct 01, 2009 10:17 am

Добрый день,

Thursday, October 1, 2009, 12:51:08 PM, you wrote:

AS>> для оценки формальной релевантности по коллекции Legal (интересные
AS>> документы) можно ее включить в web-коллекцию - обернуть только для
AS>> приличия, например, в домен типа kodex.by :) - там же никто не
AS>> оценивает правда на странице или нет

AS>> Я бы, пожалуй, не стал в такой дорожке участвовать. Но если кто-то захочет
AS>> - почему бы и нет.

TS> А вот мы как раз рассматриваем legal именно как еще одну дорожку веб :)) И
TS> именно в ней будем участвовать :) Если будет дорожка, оформлення как
TS> правовая c законами, актами и версиями - тогда нет.
TS>

есть в принципе примиряющая стратегия

если асессору сформулировать такого типа вопрос:

"оценивайте КАЖДЫЙ документ [пусть с любых юридичексих позиций], как
будто Вы находитесь ровно в той дате, когда документ начал
действовать"



--
С уважением,
Борис Добров
dobroff2003
Оргкомитет
 
Posts: 83
Joined: Fri May 23, 2003 9:52 am

Re: [romip] Re: заметки с круглого стола в Петрозаводске

Postby dobroff2003 » Thu Oct 01, 2009 10:28 am

Добрый день,

Thursday, October 1, 2009, 12:41:07 PM, you wrote:


AS> Есть предположение, что для разных типов запросов нужно прописать
AS> свою интерпретацию.

я целиком согласен

AS> Например, так:

AS> 1. Если запрос явно навигационный, т.е. в нем указано название
AS> документа, а также версия документа ("Федеральный закон N 94-ФЗ от
AS> 21.07.2005"), то релевантной считается только именно эта версия
AS> документа. Другие редакции (даже более актуальные) - нерелевантны.

возможно, стоит уточнить у юристов - есть еще документы, ссылающиеся
на данный

кроме того новые версии тоже могут быть релевантны

в любом случае - какое бы ни было решение - оно должно быть принято ДО
выполнения задания

AS> 2. Если навигационный запрос содержит название документа, но не
AS> уточняет версию ("Федеральный закон О гражданстве РФ"), то
AS> релевантной считается только актуальная редакция.

структура коллекции нормативных документов сложна (может быть документ
о принятии ФЗ, например)- возможно стоит убрать слово "только",
оставив "актуальная редакция" просто для отсечения старых версий, но
не пытаясь разобраться структуре связанных актуальных документов

AS> 3. Если запрос "смысловой", т.е. в нем упоминается какое-либо
AS> понятие или описывается юридическая проблема ("виндикационный
AS> иск"), то документ считается релевантным или нерелевантным в
AS> зависимости от полноты и точности раскрытия в нем данной темы, и
AS> независимо от актуальности самого документа.

полагаю, что и тут надо выбирать самую актуальную редакцию среди
разных редакций

AS> Вероятно, эта схема нуждается в уточнениях и дополнениях, но сам
AS> принцип прописывания интерпретации для _типов_ запросов мне
AS> кажется разумным.

мне кажется, что стоит использовать более широкую шкалу - "витальный"
и т.д. - Максим Губин как-то говорил об использовании такой шкалы в
Кодексе - наверное, там были соответствующие инструкции

AS> С другой стороны, я бы не хотел, чтобы увеличение
AS> "специализированности" дорожки legal привело бы к оттоку с нее
AS> участников. Было бы интересно выслушать других участников по этому
AS> вопросу.

пока обсуждаемые изменения не сильно повышают сложность выполнения
заданий
(и уж точно улучшат оценку)


--
С уважением,
Борис Добров
dobroff2003
Оргкомитет
 
Posts: 83
Joined: Fri May 23, 2003 9:52 am

PreviousNext

Return to Общие вопросы

Who is online

Users browsing this forum: No registered users and 2 guests

cron