классификация нормативных документов: обучающая коллекция

Классификация нормативно-правовых документов, веб-сайтов и веб-страниц

классификация нормативных документов: обучающая коллекция

Postby ageev2003 » Mon Jun 09, 2008 4:58 pm

Добрый день!

При изучении задания для дорожки классификации нормативных документов
возникли некоторые вопросы.

Как мы видим, задание состоит из файла legal2008_training.xml, в
котором для каждой категории перечислены документы - положительные
примеры для классификации.

При этом для каждой категории перечислены ровно 49 или 50 положительных
примеров.

1) Возникает естественный вопрос: а что является отрицательными
примерами?

2) Можно ли утверждать, что если документ приписан рубрике А, но не
приписан рубрике Б, то он не принадлежит рубрике Б?

3) В среднем мы получаем 1.2 рубрики на документ. IMHO, это сильно
отличается от характерных значений для коллекции нормативных актов.
Почему?

Если из сильно несбалансированной коллекции для каждой рубрики
выбрано одинаковое количество примеров, то полученная задача
классификации, на мой взгляд, будет далека от реальной жизни.

Возможно, для других дорожек могут возникнуть аналогичные вопросы,
поэтому хотелось бы получить комментарии - как формировалась обучающая
выборка для каждой из дорожек?

С уважением,
Михаил Агеев.
ageev2003
Оргкомитет
 
Posts: 28
Joined: Wed Apr 07, 2004 6:58 am

Re: [romip] классификация нормативных документов: обучающая коллекция

Postby neigor » Tue Jun 10, 2008 1:22 pm

привет,

мне казалось я описывал принципы построения обучающей выборки для
нормативной коллекции в прошлом году, но что-то я не могу найти письмо :(

Для Веб классификации обучающая выборка у нас не менялась несколько лет,
мне кажется приципы ее формирования уже несколько раз описывались,
а навскидку я боюсь переврать.
[Но выложить их в описание дорожки идея хорошая]

Для нормативной дорожки у нас есть эталонная рубрикация от Кодекс,
которая имеет иерархическую структуру,
(местами?) сильно несбалансирована, какое-то число документов в ней
отнесено к > 1 рубрике. При насколько я понимаю в принципе нет гарантии, что
она полная (То есть всем докментам приписаны _все_ рубрики и
что на число документов в рубрике можно опираться чтобы оценить
число документов по этой теме в коллекции (хоть мы и используем ее как
эталон)).

Обучающее множество было полученно следующим образом:
1. Рассматривались только листья к которым относилось 100+ документов
2. Для каждого листа отбиралось 50 случайных в обучающую выборку

Тем самым мы постарались несколько более менее одинаково представить
все обучающие категории, уменьшить пересечение за счет отказа от иерархии,
и в то же время отобрать относительно "крупные" категории, чтобы не было
совсем уж большого дисбаланса.

Какая-то статистика:
всего категорий: 1904
листьев: 1512
листьев + cnt > 100: 726

среди 726 есть 5 категорий с > 10000 документов (макс 20176), 79 с > 1000, 197 >
500.

> 1) Возникает естественный вопрос: а что является отрицательными
> примерами?

в чистом виде их нет, также как и в полном наборе документов.

> 2) Можно ли утверждать, что если документ приписан рубрике А, но не
> приписан рубрике Б, то он не принадлежит рубрике Б?

нет, есть вероятность, что он может принадлежать.

Если есть общее понимание, что выборку лучше строить по другому,
то мы можем ее расширить и разослать еще раз.
В частности мы можем предоставить информацию о всех известных рубриках для
всех документов, что уже попали в обучающую выборку.

Комментарии/идеи приветствуются :)

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re[2]: [romip] классификация нормативных документов: обучающая коллекция

Postby ageev2003 » Mon Jun 16, 2008 2:32 pm

Спасибо за ответ!

На мой взгляд, правильная процедура формирования обучающей выборки
была реализована в РОМИП 2004---2006 годов. И желательно ее
придерживаться и в дальнейшем.

Есть явления природы, характерные для всех задач классификации (и
особенно - для больших рубрикаторов):

- сильная несбалансированность количества документов, приписанных
категориям

- несогласованность мнений экспертов, приписывающих рубрики
документам

В этом плане коллекция нормативных документов и рубрикатор - типичный
(и даже весьма благополучный!) пример реальной задачи классификации.

Как следствие - методы машинного обучения работают хорошо лишь на
крупных рубриках, а на низкочастотных рубриках дают не очень хорошие
результаты (причем, например, метод Байеса плохо работает с
низкочастотными рубриками, но ведь есть и другие методы...).

С этим надо смириться и не создавать искуственно задачу, специально
заточенную под методы машинного обучения. Не стоит специально давать
преимущество методам, которые не умеют учитывать несбалансированность
рубрикатора.

---
Предлагаю сформировать обучающую выборку из подмножества документов
нормативной коллекции - например, случайные 20% документов или
20% с отсечением по дате.
И подмножества рубрик - случайного множества рубрик (тоже, например,
20%) из имеющихся 1512.
И для этого среза документов/рубрик выдать все известные пары документ-рубрика.

При этом стоит в эту выборку включить уже разосланные 29643 документов.

P.S.
>> 2) Можно ли утверждать, что если документ приписан рубрике А, но не
>> приписан рубрике Б, то он не принадлежит рубрике Б?

IN> нет, есть вероятность, что он может принадлежать.
Значит, по обучающей выборке можно определить лишь полноту для
обученного метода, но не точность.

С уважением,
Михаил Агеев.


IN> привет,

IN> мне казалось я описывал принципы построения обучающей выборки для
IN> нормативной коллекции в прошлом году, но что-то я не могу найти письмо :(

IN> Для Веб классификации обучающая выборка у нас не менялась несколько лет,
IN> мне кажется приципы ее формирования уже несколько раз описывались,
IN> а навскидку я боюсь переврать.
IN> [Но выложить их в описание дорожки идея хорошая]

IN> Для нормативной дорожки у нас есть эталонная рубрикация от Кодекс,
IN> которая имеет иерархическую структуру,
IN> (местами?) сильно несбалансирована, какое-то число документов в ней
отнесено к >> 1 рубрике. При насколько я понимаю в принципе нет гарантии, что
IN> она полная (То есть всем докментам приписаны _все_ рубрики и
IN> что на число документов в рубрике можно опираться чтобы оценить
IN> число документов по этой теме в коллекции (хоть мы и используем ее как
IN> эталон)).

IN> Обучающее множество было полученно следующим образом:
IN> 1. Рассматривались только листья к которым относилось 100+ документов
IN> 2. Для каждого листа отбиралось 50 случайных в обучающую выборку

IN> Тем самым мы постарались несколько более менее одинаково представить
IN> все обучающие категории, уменьшить пересечение за счет отказа от иерархии,
IN> и в то же время отобрать относительно "крупные" категории, чтобы не было
IN> совсем уж большого дисбаланса.

IN> Какая-то статистика:
IN> всего категорий: 1904
IN> листьев: 1512
IN> листьев + cnt > 100: 726

IN> среди 726 есть 5 категорий с > 10000 документов (макс 20176), 79 с > 1000,
197 > 500.

>> 1) Возникает естественный вопрос: а что является отрицательными
>> примерами?

IN> в чистом виде их нет, также как и в полном наборе документов.

>> 2) Можно ли утверждать, что если документ приписан рубрике А, но не
>> приписан рубрике Б, то он не принадлежит рубрике Б?

IN> нет, есть вероятность, что он может принадлежать.

IN> Если есть общее понимание, что выборку лучше строить по другому,
IN> то мы можем ее расширить и разослать еще раз.
IN> В частности мы можем предоставить информацию о всех известных рубриках для
IN> всех документов, что уже попали в обучающую выборку.

IN> Комментарии/идеи приветствуются :)

IN> -igor
IN> ------------------------------------
ageev2003
Оргкомитет
 
Posts: 28
Joined: Wed Apr 07, 2004 6:58 am

Re[2]: [romip] классификация нормативных документов: обучающая коллекция

Postby neigor » Mon Jun 16, 2008 2:48 pm

> Предлагаю сформировать обучающую выборку из подмножества документов
> нормативной коллекции - например, случайные 20% документов или
> 20% с отсечением по дате.
> И подмножества рубрик - случайного множества рубрик (тоже, например,
> 20%) из имеющихся 1512.
> И для этого среза документов/рубрик выдать все известные пары
документ-рубрика.
>
> При этом стоит в эту выборку включить уже разосланные 29643 документов.

речь идет про то, чтобы переделать в этом цикле?
Поскольку проверка автоматическая, то сроки сдвинуть мы можем,
но надо согласовывать перезапуск дорожки со всеми участниками.

Техничести мне не очень ясна процедура отбора:
20% от 1512 - это примерно 300 рубрик.

- Задача будет состоять в классификации по этим 300?
- Уже разосланная матрица содержит значительно больше тем, их
предполагается игнорировать?
- 20% от числа документов - 60000 + разослано 30000.
С учетом пересечения это 80000-85000 обучающих документов,
т.е. чуть меньше 30% коллекции. Для 300 рубрик выглядит
как довольно большое обучающее множество.


> P.S.
>>> 2) Можно ли утверждать, что если документ приписан рубрике А, но не
>>> приписан рубрике Б, то он не принадлежит рубрике Б?
>
> IN> нет, есть вероятность, что он может принадлежать.
> Значит, по обучающей выборке можно определить лишь полноту для
> обученного метода, но не точность.

это мне не ясно.
Документ D может относится к нескольким рубрикам в ответах систем.
Все документы отнесенные к проверяемой рубрике будут проверены на
соответствие с каталогом. Разве пересечение рубрики от системы и
рубрики от эталона, деленное на мощность рубрики от системы - это не оценка
точности?

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re[3]: [romip] классификация нормативных документов: обучающая коллекция

Postby ageev2003 » Mon Jun 16, 2008 3:10 pm

IN> речь идет про то, чтобы переделать в этом цикле?
IN> Поскольку проверка автоматическая, то сроки сдвинуть мы можем,
IN> но надо согласовывать перезапуск дорожки со всеми участниками.

Да, хотелось бы узнать мнение других участников, заявившихся на эту
дорожку: RCO, SPECS, Галактика-Zoom... Пишите!

IN> Техничести мне не очень ясна процедура отбора:
IN> 20% от 1512 - это примерно 300 рубрик.

IN> - Задача будет состоять в классификации по этим 300?
IN> - Уже разосланная матрица содержит значительно больше тем, их
IN> предполагается игнорировать?

Да, я именно это имел ввиду.

IN> - 20% от числа документов - 60000 + разослано 30000.
IN> С учетом пересечения это 80000-85000 обучающих документов,
IN> т.е. чуть меньше 30% коллекции. Для 300 рубрик выглядит
IN> как довольно большое обучающее множество.

Я не вижу здесь проблемы.

Я предложил 20% только для того, чтобы удобно было растянуть дорожку
на 5 лет.

>> P.S.
>>>> 2) Можно ли утверждать, что если документ приписан рубрике А, но не
>>>> приписан рубрике Б, то он не принадлежит рубрике Б?
>>
>> IN> нет, есть вероятность, что он может принадлежать.
>> Значит, по обучающей выборке можно определить лишь полноту для
>> обученного метода, но не точность.

IN> это мне не ясно.
IN> Документ D может относится к нескольким рубрикам в ответах систем.
IN> Все документы отнесенные к проверяемой рубрике будут проверены на
IN> соответствие с каталогом. Разве пересечение рубрики от системы и
IN> рубрики от эталона, деленное на мощность рубрики от системы - это не оценка
IN> точности?

Нет!

Система, которая будет работать в точности как эксперты, при такой
оценке получит менее 100% точности.

С уважением,
Михаил Агеев.
ageev2003
Оргкомитет
 
Posts: 28
Joined: Wed Apr 07, 2004 6:58 am

Re[3]: [romip] классификация нормативных документов: обучающая коллекция

Postby neigor » Mon Jun 16, 2008 3:22 pm

>>>>> 2) Можно ли утверждать, что если документ приписан рубрике А, но не
>>>>> приписан рубрике Б, то он не принадлежит рубрике Б?
>>>
>>> IN> нет, есть вероятность, что он может принадлежать.
>>> Значит, по обучающей выборке можно определить лишь полноту для
>>> обученного метода, но не точность.
>
> IN> это мне не ясно.
> IN> Документ D может относится к нескольким рубрикам в ответах систем.
> IN> Все документы отнесенные к проверяемой рубрике будут проверены на
> IN> соответствие с каталогом. Разве пересечение рубрики от системы и
> IN> рубрики от эталона, деленное на мощность рубрики от системы - это не
оценка
> IN> точности?
>
> Нет!
>
> Система, которая будет работать в точности как эксперты, при такой
> оценке получит менее 100% точности.

ты имеешь ввиду на обучающей выборке, но не на тестовой?

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

классификация нормативных документов: обучающая коллекция

Postby nikolai.buzikashvili » Mon Jun 16, 2008 3:26 pm

Хорошо. Но все же пусть есть два, содержательно определенных, класса, в одном 100,000 документов (условно скажем, “трудовое право”), в другом лишь 100 (скажем, “римское”).
При пропорциональном 20%-м представительстве:
-- (1.1) какому методу нужно 20,000 честно размечаемых документов первого класса?
-- (1.2) для какого метода достаточно 20 документов второго?
-- (2) не слишком ли разметка 20000 документов трудозатратна? (особенно, с учетом ее, скажем, избыточности для обучения – см. (1.1)).

Тогда либо нужно действительно идти на специальные трюки (в частности, очень сильное искажение представленности классов в обучающей, а также использования существенно разных порогов опознания для разнопорядковых классов), либо честно забыть о существование мелких классов ( см.(1.2)).
Но в любом случае, менять едва ли стоит менять правила в последний момент.
PS
> Значит, по обучающей выборке можно определить лишь полноту для обученного метода, но не точность
Тоже не понял, как и:
>Не стоит специально давать преимущество методам, которые не умеют учитывать несбалансированность рубрикатора.
В смысле, методам, которые УМЕЮТ учитывать?
----- Original Message -----
From: Mikhail Ageev
To: Igor Nekrestyanov
Cc: romip@yahoogroups.com
Sent: Monday, June 16, 2008 6:32 PM
Subject: Re[2]: [romip] классификация нормативных документов: обучающая коллекция
Спасибо за ответ!На мой взгляд, правильная процедура формирования обучающей выборкибыла реализована в РОМИП 2004---2006 годов. И желательно еепридерживаться и в дальнейшем.Есть явления природы, характерные для всех задач классификации (иособенно - для больших рубрикаторов):═ - сильная несбалансированность количества документов, приписанных═══ категориям═══ ═ - несогласованность мнений экспертов, приписывающих рубрики═══ документамВ этом плане коллекция нормативных документов и рубрикатор - типичный(и даже весьма благополучный!) пример реальной задачи классификации.Как следствие - методы машинного обучения работают хорошо лишь накрупных рубриках, а на низкочастотных рубриках дают не очень хорошиерезультаты (причем, например, метод Байеса плохо работает снизкочастотными рубриками, но ведь есть и другие методы...).С этим надо смириться и не создавать искуственно задачу, специальнозаточенную под методы машинного обучения. Не стоит специально даватьпреимущество методам, которые не умеют учитывать несбалансированностьрубрикатора.---Предлагаю сформировать обучающую выборку из подмножества документовнормативной коллекции - например, случайные 20% документов или20% с отсечением по дате.И подмножества рубрик - случайного множества рубрик (тоже, например,20%) из имеющихся 1512.И для этого среза документов/рубрик выдать все известные пары документ-рубрика.При этом стоит в эту выборку включить уже разосланные 29643 документов.P.S.>> 2) Можно ли утверждать, что если документ приписан рубрике А, но не>>══ приписан рубрике Б, то он не принадлежит рубрике Б?IN> нет, есть вероятность, что он может принадлежать.Значит, по обучающей выборке можно определить лишь полноту дляобученного метода, но не точность.С уважением,Михаил Агеев.IN> привет,IN> мне казалось я описывал принципы построения обучающей выборки дляIN> нормативной коллекции в прошлом году, но что-то я не могу найти письмо :(IN> Для Веб классификации обучающая выборка у нас не менялась несколько лет, IN> мне кажется приципы ее формирования уже несколько раз описывались, IN> а навскидку я боюсь переврать. IN> [Но выложить их в описание дорожки идея хорошая]IN> Для нормативной дорожки у нас есть эталонная рубрикация от Кодекс,IN> которая имеет иерархическую структуру, IN> (местами?) сильно несбалансирована, какое-то число документов в ней отнесено к >> 1 рубрике. При насколько я понимаю в принципе нет гарантии, чтоIN> она полная (То есть всем докментам приписаны _все_ рубрики и IN> что на число документов в рубрике можно опираться чтобы оценить IN> число документов по этой теме в коллекции (хоть мы и используем ее какIN> эталон)).IN> Обучающее множество было полученно следующим образом:IN>═══ 1. Рассматривались только листья к которым относилось 100+ документовIN>═══ 2. Для каждого листа отбиралось 50 случайных в обучающую выборкуIN> Тем самым мы постарались несколько более менее одинаково представить IN> все обучающие категории, уменьшить пересечение за счет отказа от иерархии, IN> и в то же время отобрать относительно "крупные" категории, чтобы не было IN> совсем уж большого дисбаланса.IN> Какая-то статистика:IN>═══ всего категорий: 1904IN>═══ листьев: 1512IN>═══ листьев + cnt > 100: 726IN> среди 726 есть 5 категорий с > 10000 документов (макс 20176), 79 с > 1000, 197 > 500.>> 1) Возникает естественный вопрос: а что является отрицательными>>══ примерами?IN> в чистом виде их нет, также как и в полном наборе документов.>> 2) Можно ли утверждать, что если документ приписан рубрике А, но не>>══ приписан рубрике Б, то он не принадлежит рубрике Б?IN> нет, есть вероятность, что он может принадлежать.IN> Если есть общее понимание, что выборку лучше строить по другому, IN> то мы можем ее расширить и разослать еще раз.IN> В частности мы можем предоставить информацию о всех известных рубриках дляIN> всех документов, что уже попали в обучающую выборку.IN> Комментарии/идеи приветствуются :)IN> -igorIN> ------------------------------------------------------------------------Yahoo! Groups Links To visit your group on the web, go to:═══ http://groups.yahoo.com/group/romip/ Your email settings:═══ Individual Email | Traditional To change settings online go to:═══ http://groups.yahoo.com/group/romip/join═══ (Yahoo! ID required) To change settings via email:═══ mailto:romip-digest@yahoogroups.com ═══ mailto:romip-fullfeatured@yahoogroups.com To unsubscribe from this group, send an email to:═══ romip-unsubscribe@yahoogroups.com Your use of Yahoo! Groups is subject to:═══ http://docs.yahoo.com/info/terms/
nikolai.buzikashvili
 
Posts: 4
Joined: Tue Jun 10, 2008 10:16 am

Re[4]: [romip] классификация нормативных документов: обучающая коллекция

Postby ageev2003 » Mon Jun 16, 2008 3:30 pm

>>>>>> 2) Можно ли утверждать, что если документ приписан рубрике А, но не
>>>>>> приписан рубрике Б, то он не принадлежит рубрике Б?
>>>>
>>>> IN> нет, есть вероятность, что он может принадлежать.
>>>> Значит, по обучающей выборке можно определить лишь полноту для
>>>> обученного метода, но не точность.
>>
>> IN> это мне не ясно.
>> IN> Документ D может относится к нескольким рубрикам в ответах систем.
>> IN> Все документы отнесенные к проверяемой рубрике будут проверены на
>> IN> соответствие с каталогом. Разве пересечение рубрики от системы и
>> IN> рубрики от эталона, деленное на мощность рубрики от системы - это не
оценка
>> IN> точности?
>>
>> Нет!
>>
>> Система, которая будет работать в точности как эксперты, при такой
>> оценке получит менее 100% точности.

IN> ты имеешь ввиду на обучающей выборке, но не на тестовой?
Конечно.
ageev2003
Оргкомитет
 
Posts: 28
Joined: Wed Apr 07, 2004 6:58 am

Re[4]: [romip] классификация нормативных документов: обучающая коллекция

Postby ageev2003 » Mon Jun 16, 2008 3:46 pm

Добрый день!

NB> Хорошо. Но все же пусть есть два, содержательно определенных,
NB> класса, в одном 100,000 документов (условно скажем, "трудовое
NB> право"), в другом лишь 100 (скажем, "римское").

NB> При пропорциональном 20%-м представительстве:

NB> -- (1.1) какому методу нужно 20,000 честно размечаемых документов первого
класса?

NB> -- (1.2) для какого метода достаточно 20 документов второго?

Это проблема методов.

Если некоторый метод работает лишь с высокочастотными
сбалансированными рубрикаторами - то он и будет применим лишь для
очень специфических задач.

NB> -- (2) не слишком ли разметка 20000 документов трудозатратна?
NB> (особенно, с учетом ее, скажем, избыточности для обучения - см.
NB> (1.1)).
Разметка документов уже есть - спасибо компании Кодекс.
Просто она пока не раскрывается участникам.

NB> Тогда либо нужно действительно идти на специальные трюки (в
NB> частности, очень сильное искажение представленности классов в
NB> обучающей, а также использования существенно разных порогов
NB> опознания для разнопорядковых классов), либо честно забыть о
NB> существование мелких классов ( см.(1.2)).

1) Можно применять разные методы для разных классов.

2) Можно работать вообще без обучающей выборки (скажем, искать по
названию рубрики)

3) Можно применить метод лишь на части рубрик и измерить результаты
только на этих рубриках - это тоже будет интересно!

4) Есть разные метрики классификации
- macroaverage дает оценку в среднем по всем (в том числе - малочастотным)
рубрикам,
- а microaverage - в среднем по парам документ-рубрика (большие
рубрики имеют большой вес).

Можно придумать ещё метрики:
среднее на высокочастотных классах,
на низкочастотных,
на сбалансированном подмножестве классов с количеством примеров от 50 до 60
:-)

С уважением,
Михаил Агеев.

NB> Но в любом случае, менять едва ли стоит менять правила в последний момент.

NB> PS

>> Значит, по обучающей выборке можно определить лишь полноту для
>> обученного метода, но не точность

NB> Тоже не понял, как и:

>>Не стоит специально давать преимущество методам, которые не умеют
>>учитывать несбалансированность рубрикатора.

NB> В смысле, методам, которые УМЕЮТ учитывать?

NB> ----- Original Message -----
NB> From: Mikhail Ageev
NB> To: Igor Nekrestyanov
NB> Cc: romip@yahoogroups.com
NB> Sent: Monday, June 16, 2008 6:32 PM
NB> Subject: Re[2]: [romip] классификация нормативных документов: обучающая
коллекция


NB> Спасибо за ответ!

NB> На мой взгляд, правильная процедура формирования обучающей выборки
NB> была реализована в РОМИП 2004---2006 годов. И желательно ее
NB> придерживаться и в дальнейшем.

NB> Есть явления природы, характерные для всех задач классификации (и
NB> особенно - для больших рубрикаторов):

NB> - сильная несбалансированность количества документов, приписанных
NB> категориям

NB> - несогласованность мнений экспертов, приписывающих рубрики
NB> документам

NB> В этом плане коллекция нормативных документов и рубрикатор - типичный
NB> (и даже весьма благополучный!) пример реальной задачи классификации.

NB> Как следствие - методы машинного обучения работают хорошо лишь на
NB> крупных рубриках, а на низкочастотных рубриках дают не очень хорошие
NB> результаты (причем, например, метод Байеса плохо работает с
NB> низкочастотными рубриками, но ведь есть и другие методы...).

NB> С этим надо смириться и не создавать искуственно задачу, специально
NB> заточенную под методы машинного обучения. Не стоит специально давать
NB> преимущество методам, которые не умеют учитывать несбалансированность
NB> рубрикатора.

NB> ---
NB> Предлагаю сформировать обучающую выборку из подмножества документов
NB> нормативной коллекции - например, случайные 20% документов или
NB> 20% с отсечением по дате.
NB> И подмножества рубрик - случайного множества рубрик (тоже, например,
NB> 20%) из имеющихся 1512.
NB> И для этого среза документов/рубрик выдать все известные пары
документ-рубрика.

NB> При этом стоит в эту выборку включить уже разосланные 29643 документов.

NB> P.S.
NB> >> 2) Можно ли утверждать, что если документ приписан рубрике А, но не
NB> >> приписан рубрике Б, то он не принадлежит рубрике Б?

NB> IN> нет, есть вероятность, что он может принадлежать.
NB> Значит, по обучающей выборке можно определить лишь полноту для
NB> обученного метода, но не точность.

NB> С уважением,
NB> Михаил Агеев.


NB> IN> привет,

NB> IN> мне казалось я описывал принципы построения обучающей выборки для
NB> IN> нормативной коллекции в прошлом году, но что-то я не могу найти письмо
:(

NB> IN> Для Веб классификации обучающая выборка у нас не менялась несколько
лет,
NB> IN> мне кажется приципы ее формирования уже несколько раз описывались,
NB> IN> а навскидку я боюсь переврать.
NB> IN> [Но выложить их в описание дорожки идея хорошая]

NB> IN> Для нормативной дорожки у нас есть эталонная рубрикация от Кодекс,
NB> IN> которая имеет иерархическую структуру,
NB> IN> (местами?) сильно несбалансирована, какое-то число документов в ней
NB> отнесено к >> 1 рубрике. При насколько я понимаю в принципе нет гарантии,
что
NB> IN> она полная (То есть всем докментам приписаны _все_ рубрики и
NB> IN> что на число документов в рубрике можно опираться чтобы оценить
NB> IN> число документов по этой теме в коллекции (хоть мы и используем ее как
NB> IN> эталон)).

NB> IN> Обучающее множество было полученно следующим образом:
NB> IN> 1. Рассматривались только листья к которым относилось 100+
документов
NB> IN> 2. Для каждого листа отбиралось 50 случайных в обучающую выборку

NB> IN> Тем самым мы постарались несколько более менее одинаково представить
NB> IN> все обучающие категории, уменьшить пересечение за счет отказа от
иерархии,
NB> IN> и в то же время отобрать относительно "крупные" категории, чтобы не
было
NB> IN> совсем уж большого дисбаланса.

NB> IN> Какая-то статистика:
NB> IN> всего категорий: 1904
NB> IN> листьев: 1512
NB> IN> листьев + cnt > 100: 726

NB> IN> среди 726 есть 5 категорий с > 10000 документов (макс 20176), 79 с >
1000, 197 > 500.

NB> >> 1) Возникает естественный вопрос: а что является отрицательными
NB> >> примерами?

NB> IN> в чистом виде их нет, также как и в полном наборе документов.

NB> >> 2) Можно ли утверждать, что если документ приписан рубрике А, но не
NB> >> приписан рубрике Б, то он не принадлежит рубрике Б?

NB> IN> нет, есть вероятность, что он может принадлежать.

NB> IN> Если есть общее понимание, что выборку лучше строить по другому,
NB> IN> то мы можем ее расширить и разослать еще раз.
NB> IN> В частности мы можем предоставить информацию о всех известных рубриках
для
NB> IN> всех документов, что уже попали в обучающую выборку.

NB> IN> Комментарии/идеи приветствуются :)

NB> IN> -igor
NB> IN> ------------------------------------
ageev2003
Оргкомитет
 
Posts: 28
Joined: Wed Apr 07, 2004 6:58 am

классификация нормативных документов: обучающая коллекция

Postby nikolai.buzikashvili » Mon Jun 16, 2008 3:57 pm

>══ Можно придумать ещё метрики:════ среднее на высокочастотных классах,════ на низкочастотных,════ на сбалансированном подмножестве классов с количеством примеров от 50 до 60 :-)
С удовольствием продолжу список методов(,метрик): ........................ :)

Мотивация для "поиграться" с методами (в т.ч. на уровне построения обучающей) в такой "маргинальной", но стопудово реальной и типичной ситуации,═на самом деле, очень сильная. (Но, еще раз, разумеется, не в уже развернутом цикле 2008═)
Н.
nikolai.buzikashvili
 
Posts: 4
Joined: Tue Jun 10, 2008 10:16 am

Next

Return to Тематическая классификация

Who is online

Users browsing this forum: No registered users and 13 guests

cron