Добрый день,
с некоторым запазданием присоединяюсь к дискуссии, зато внесу 10
копеек
Wednesday, September 30, 2009, 12:30:37 PM, you wrote:
AS> --- In
romip@yahoogroups.com, "Tatevosyan Sergey" wrote:
>>
>> Я думаю, что надо решить, что для нас эта коллекция:
>> 1. Еще одна коллекция для информационного поиска.
>> или
>> 2. Правовая база данных.
AS> Как к коллекции относится поисковая система - не очень важно.
AS> Важно понять, чего ждет живой пользователь. Задача, которая
AS> решается поисковой системой в дорожке legal - удовлетворить
AS> информационные потребности тех пользователей, для которых
AS> предназначена коллекция. Я полагаю, что мы не имеем права
AS> закрывать глаза на тот факт, что правовая коллекция предназначена
AS> для юристов (и, возможно, отчасти бухгалтеров). Поэтому оценка
AS> должна производится именно с точки зрения юриста. Отступление от
AS> этого правила, как мне кажется, уменьшит ее практическую ценность.
я согласен, что мы должны ориентироваться на потребности реальных
пользователей
однако, это совершенно не означает, что эти потребности как-то скрыты
и их нельзя сформулировать или, по крайней мере, выделить ограничения
сейчас основная проблема, что не совпадают ожидания участников дорожки
(которые действуют в строгом соответствии с заданием) и ожидания
асессоров (которые действуют "как хочется")
я знаю не менее трех РЕАЛЬНЫХ постановок задачи поиска по правовым
коллекциям, разных по отношению к дубликатам
1) (основная - востребована большинством пользователей) релевантным
признается только актуальный документ (для РОМИП дата актуальности
- дата формирования коллекции)
2) нужна версия документа на заданную дату - это достаточно
распространенная постановка задачи, связанная с судебными
разбирательствами, например, с налоговой инспекцией, когда
признаются только документы, действующие на конкретную дату
3) (специально юридическая) юристы вполне себе рассматривают документы
"в развитии" - как они говорят "чтобы понять логику законодателя",
особенно когда эту "логику" невозможно извлечь из самих текстов
законов
считаю, что это вполне внятные постановки задачи
можно сформулировать и другие, чтобы учесть следующие особенности
коллекции:
- если документ включен в коллекцию, то это "не просто так"
- если есть принятый текст, то проект текста не очень релевантен, или,
наоборот интересен
- необходимо учитывать иерархию нормативных актов - типа "кодекс" --
"законы" -- "указы" -- "распоряжения" и т.д.
я выступаю только за то, что может быть и несколько дорожек по той же
Legal коллекции (если потянем, что, впрочем, сомнительно), но чтобы
для фиксированной дорожки была выбрана ровно ОДНА интерпретация,
заранее согласованная с участниками, а асессоры должны действовать
в рамках этой интерпретации (в конце концов у каждого юриста есть
начальник - РОМИП здесь начальник)
можно и согласовать с асессорами постановку - но только все надо
зафиксировать заранее
(кстати, следует более детально оговорить и инструкции по типам
запросов - кроме решения "смысловых юридических проблем" поиск "по
номеру", "по статье" и т.п.)
а далее - нет особенных проблем в поиске дубликатов, включении в
индекс даты документа, его типа и т.п.
>> 1. Еще одна коллекция для информационного поиска.
для оценки формальной релевантности по коллекции Legal (интересные
документы) можно ее включить в web-коллекцию - обернуть только для
приличия, например, в домен типа kodex.by
- там же никто не
оценивает правда на странице или нет
>> В этом году получилось смешение (и довольно серьезное - см. статью УИС)
>> понимания, из-за чего возникла обсуждаемая ситуация.
AS> Единственная серьезная проблема, описанная в статье УИС, состоит в
AS> том, что оценка асессорами цепочек дублей была иррациональна.
именно - совершенно иррационально, причем по многим запросам
AS> Относительно простыми техническими методами можно добиться того,
AS> чтобы эта оценка стала рациональной (я писал об этом выше). Таким
AS> образом, кроме этих технических мер, ничего особенного делать с
AS> дорожкой не нужно.
с технической точки зрения согласен
Wednesday, September 30, 2009, 8:02:51 PM, you wrote:
AS> --- In
romip@yahoogroups.com, "Tatevosyan Sergey" wrote:
>> Надо решать что делаем
AS> На мой взгляд, можно сделать следующее:
AS> 1. Реализовать в инструменте асессора механизм поиска нечетких
AS> дубликатов.
это, можно сказать, уже есть
(ясно, что работает с определенной полнотой/точностью, но при пороге в
80% на порядок снизит ошибку оценивания)
AS> 2. При обнаружении с помощью этого механизма в общем котле
AS> кластера дубликатов обеспечить проверку всех документов кластера
AS> одним асессором.
можно и разными асессорами (ничего страшного, если будут оценки AND и
OR), только чтобы каждый оценил единообразно все близкие документы
AS> 3. Обеспечить информирование асессора о существовании кластера
AS> дубликатов. Один из способов это сделать - предлагать асессору
AS> оценивать документы из кластера последовательно один за другим.
это должно стать обязательным, причем для legal коллекции -
последовательно по дате опубликования
AS> 4. Если кто-то из участников дорожки выскажется за обновление
AS> коллекции - обновить ее до актуального состояния (лично я не
AS> считаю это необходимым).
как говорят наше законодательство уезжает от "актуального состояния"
каждые полгода - РОМИПу все равно не угнаться - считаю, что обновлять
не требуется (матрицы релевантности дороже)
AS> Как, собственно, выполнить пункты 1-3 - я пока не совсем
AS> представляю. Возможно, для этого придется привлечь фрилансеров. В
AS> этом случае оплата, очевидно, должна быть возложена на будущих
AS> участников дорожки.
В оценке трудоемкости мы расходимся с Игорем. Мне кажется, что можно
легко (
http://www.cir.ru/temp/leg09_clus/dist_0.80/index.htm) оценить
все кластеры похожих часа за два. Привлеченные организаторами асессоры
говорили, что, наоборот, очень трудно. Не знаю, не знаю...
>>Мне кажется, здесь должны принять решение организаторы.
MG> Я как организатор и спрашиваю общественное мнение. Старая коллекция с
MG> таблицами никуда не денется, а оценивать по ней новые задания станет все
MG> сложнее и сложнее.
почему?
кажется 300 тыс. документов - это вполне много (не обозримо вручную),
а запросы можно менять
>>А какой объем коллекции используется в реальных правовых системах типа
MG> Консультанта/Гаранта/Кодекса? Я >за то, чтобы размер и содержание коллекции
MG> были близки к "реальным".
MG> Сейчас это абсолютно реальная коллекция российского законодательства, такого
MG> же объема какой вы купили бы в этих системах в год выхода коллекции. Просто
MG> возможности растут и многим интересны большие коллекции.
здесь есть еще вопрос - а даст ли, например, Кодекс еще раз псевдоактуальную
коллекцию (актуальную на какую-то дату)? Это ведь доп.работа для них.
Как нам это обосновать, кроме того, что "нам хочется"?
Tuesday, September 29, 2009, 7:57:33 PM, you wrote:
MG> Общий вопрос - мы можем обновить юридическую коллекцию по 2010 год в
MG> следующем году. Вопросы:
MG> 1. Делать ли ее больше (+регионы)?
величение коллекции за счет региональных и ведомственных НПА - это, на
самом деле, интересная задача
но тогда вопросы "актуальности" и "правомочности" документов перейдут
из разряда технических (типа последняя версия) в существенно не
разрешенные юридически
сформулировать четкие постановки станет сложнее
MG> 2. Делать ли специальную разметку редакций? В исходной базе они
MG> отмечены, но для упрощения в формате РОМИП этого нет
хороший вопрос - естественно, такие данные очень полезны, только
насколько это честно с точки зрения IR?
кроме того дело не только в версиях - нам встречались, например, акты
об индексировании зарплат - они не версионные, они близкие (меняются
только суммы)
MG> 3. Откуда брать запросы. Борис, можешь поговорить с Гарантом?
поговорить, конечно, могу
у нас даже есть запросы (даже с определенной частотнотностью) -
достаточно разрешения - но гарантировать успех переговоров на 100%
априори, конечно, не могу
но, тогда можно будет поговорить и с К+
MG> Насчет разного настроения ассесора и т.д. - это неизбежный шум.
MG> Например сам инструмент с большими задержками показа больших
MG> документов приводит к множеству ошибок когда ассесор не может
MG> понять сменился ли документ и ставит оценку предыдущего документа
MG> следующему. Уменьшить уровень шума может стоить очень дорого и
MG> привлечение неквалифицированных ассесоров просто внесет другую
MG> составляющую. Ну будет любой документ содержащий текст запроса
MG> оценен как релевантный, разве это что-то даст.
у нас другой случай - могу только еще раз дать ссылку
http://www.cir.ru/temp/leg09_clus/dist_0.80/index.htmили я чего не понимаю?
--
С уважением,
Борис Добров