классификация нормативных документов

Классификация нормативно-правовых документов, веб-сайтов и веб-страниц

классификация нормативных документов

Postby nikolai.buzikashvili » Tue Jun 10, 2008 10:16 am

1. Про “пропорциональное представительство”
> Если из сильно несбалансированной коллекции для каждой рубрики═ выбрано одинаковое количество примеров, то полученная задача классификации, на мой взгляд, будет далека от реальной жизни.
Если я правильно понял, то мотивация:
правильно отнесенные документы маленького класса не должны быть задавлены ошибочно отнесенными документами здоровых классов.
Перефразировка. Пусть A- любой, напр, мелкий, класс, а все остальные -- {1,2,══ k} Хочется чтобы число правильно опознанных в классе A -- N(A)P(A|A) было “не меньше” (не много меньше, гораздо больше) числа отнесенных к A по ошибке -- ═N(1)P(A|1))+ N(2)P(A|2) + ... + N(k)P(A|k), где N(i) – объем класса в реальности. И так для каждого класса A=1, … k.
Это пожелание -- про СОГЛАСОВАННЫЕ ВЕРОЯТНОСТИ ОТНЕСЕНИЯ, которые, да, должны подбираться с учетом (кстати, меняющегося) объема классов в реальности.
Но из него никак не следует необходимость пропорционального представительства классов в обучающей выборке.

2. Про штрафы за ошибочное отнесение “вовне” и отнесение “к”
>1) Возникает естественный вопрос: а что является отрицательными примерами?> 2) Можно ли утверждать, что если документ приписан рубрике А, но не приписан рубрике Б, то он не принадлежит рубрике Б?

Да, было бы хорошо, если бы хотя бы часть документов была помечена в несколько-значной шкале типа “точно, что документ относится к классам A и B, допустимо к C, ни в коем случае к D. Даже, если мы пока в действительности не умеем (хорошо) работать с такими маркировками.
----- Original Message -----
From: Mikhail Ageev
To: romip@yahoogroups.com
Sent: Monday, June 09, 2008 8:58 PM
Subject: [romip] классификация нормативных документов: обучающая коллекция
Добрый день!При изучении задания для дорожки классификации нормативных документоввозникли некоторые вопросы.Как мы видим, задание состоит из файла legal2008_training.xml, вкотором для каждой категории перечислены документы - положительныепримеры для классификации.При этом для каждой категории перечислены ровно 49 или 50 положительныхпримеров.1) Возникает естественный вопрос: а что является отрицательными══ примерами?2) Можно ли утверждать, что если документ приписан рубрике А, но не══ приписан рубрике Б, то он не принадлежит рубрике Б?3) В среднем мы получаем 1.2 рубрики на документ. IMHO, это сильно══ отличается от характерных значений для коллекции нормативных актов.══ Почему?Если из сильно несбалансированной коллекции для каждой рубрикивыбрано одинаковое количество примеров, то полученная задачаклассификации, на мой взгляд, будет далека от реальной жизни.Возможно, для других дорожек могут возникнуть аналогичные вопросы,поэтому хотелось бы получить комментарии - как формировалась обучающаявыборка для каждой из дорожек?С уважением,Михаил Агеев.------------------------------------Yahoo! Groups Links To visit your group on the web, go to:═══ http://groups.yahoo.com/group/romip/ Your email settings:═══ Individual Email | Traditional To change settings online go to:═══ http://groups.yahoo.com/group/romip/join═══ (Yahoo! ID required) To change settings via email:═══ mailto:romip-digest@yahoogroups.com ═══ mailto:romip-fullfeatured@yahoogroups.com To unsubscribe from this group, send an email to:═══ romip-unsubscribe@yahoogroups.com Your use of Yahoo! Groups is subject to:═══ http://docs.yahoo.com/info/terms/
nikolai.buzikashvili
 
Posts: 4
Joined: Tue Jun 10, 2008 10:16 am

Re: [romip] классификация нормативных документов

Postby maxgubin » Tue Jun 10, 2008 5:30 pm

Всем привет!
Нормативная классификация выполнена вручную юристами. Естественно они не присваивали "мягких" значений, или допустимо/не допустимо и т.д.
"Несбалансированность" является следствием того, что мы имеем иерархический классификатор, который "развернут" в линейный. Верхнии уровни иерархии, как общие имеют намного больше примеров. Кроме того эта "скрытая" иерархия имеет еще тот недостаток, что некоторые классы очень сильно коррелированы между собой.

Насчет близости или дальности от реальной жизни, то я согласен, что одинаковый размер для всех классов это не очень правильно, потому что информация о популярности класса утеряна. Однако в реальной жизни ситуация еще намного хуже, потому что имеется обычно разметка для какого-то массива документов заданного размера, при этом "редкие" рубрики обычно очень плохо и шумно представлены. Отчасти это следствие того, что при ручной разметке редкие рубрики часто забываются
экспертами.
Вроде для коллекции 2004 года мы брали просто один уровень дерева, где-то в середине, где к каждой рубрике отнесено разумное число документов.

Максим
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

Re: [romip] классификация нормативных документов

Postby nikolai.buzikashvili » Tue Jun 10, 2008 5:49 pm

Я еще раз про дисбалансы :)И теперь уже с совсем экстремистским тезисом:
Чтобы результат опознания маленького класса не был слишком забит представителями других классов, нужно неплохо отличать именно этот маленький класс и поэтому его представительство в обучающей выборке должно быть не просто непропорционально, оно должно и по абс. числу быть ВЫШЕ(!), чем у больших классов.
По крайней мере, В СЛУЧАЕ РАВНОЙ внутриклассной ОДНОРОДНОСТИ, это, кажется, так :)
(правда я не предлагаю загнать в обцучающую выборку по малому, но дорогому нам классу, ни всю его коллекцию, ни половину -- что-то и для тестирования нужно оставить :)
nikolai.buzikashvili
 
Posts: 4
Joined: Tue Jun 10, 2008 10:16 am


Return to Тематическая классификация

Who is online

Users browsing this forum: No registered users and 6 guests

cron