by ageev2003 » Mon Jun 16, 2008 3:46 pm
Добрый день!
NB> Хорошо. Но все же пусть есть два, содержательно определенных,
NB> класса, в одном 100,000 документов (условно скажем, "трудовое
NB> право"), в другом лишь 100 (скажем, "римское").
NB> При пропорциональном 20%-м представительстве:
NB> -- (1.1) какому методу нужно 20,000 честно размечаемых документов первого
класса?
NB> -- (1.2) для какого метода достаточно 20 документов второго?
Это проблема методов.
Если некоторый метод работает лишь с высокочастотными
сбалансированными рубрикаторами - то он и будет применим лишь для
очень специфических задач.
NB> -- (2) не слишком ли разметка 20000 документов трудозатратна?
NB> (особенно, с учетом ее, скажем, избыточности для обучения - см.
NB> (1.1)).
Разметка документов уже есть - спасибо компании Кодекс.
Просто она пока не раскрывается участникам.
NB> Тогда либо нужно действительно идти на специальные трюки (в
NB> частности, очень сильное искажение представленности классов в
NB> обучающей, а также использования существенно разных порогов
NB> опознания для разнопорядковых классов), либо честно забыть о
NB> существование мелких классов ( см.(1.2)).
1) Можно применять разные методы для разных классов.
2) Можно работать вообще без обучающей выборки (скажем, искать по
названию рубрики)
3) Можно применить метод лишь на части рубрик и измерить результаты
только на этих рубриках - это тоже будет интересно!
4) Есть разные метрики классификации
- macroaverage дает оценку в среднем по всем (в том числе - малочастотным)
рубрикам,
- а microaverage - в среднем по парам документ-рубрика (большие
рубрики имеют большой вес).
Можно придумать ещё метрики:
среднее на высокочастотных классах,
на низкочастотных,
на сбалансированном подмножестве классов с количеством примеров от 50 до 60
:-)
С уважением,
Михаил Агеев.
NB> Но в любом случае, менять едва ли стоит менять правила в последний момент.
NB> PS
>> Значит, по обучающей выборке можно определить лишь полноту для
>> обученного метода, но не точность
NB> Тоже не понял, как и:
>>Не стоит специально давать преимущество методам, которые не умеют
>>учитывать несбалансированность рубрикатора.
NB> В смысле, методам, которые УМЕЮТ учитывать?
NB> ----- Original Message -----
NB> From: Mikhail Ageev
NB> To: Igor Nekrestyanov
NB> Cc: romip@yahoogroups.com
NB> Sent: Monday, June 16, 2008 6:32 PM
NB> Subject: Re[2]: [romip] классификация нормативных документов: обучающая
коллекция
NB> Спасибо за ответ!
NB> На мой взгляд, правильная процедура формирования обучающей выборки
NB> была реализована в РОМИП 2004---2006 годов. И желательно ее
NB> придерживаться и в дальнейшем.
NB> Есть явления природы, характерные для всех задач классификации (и
NB> особенно - для больших рубрикаторов):
NB> - сильная несбалансированность количества документов, приписанных
NB> категориям
NB> - несогласованность мнений экспертов, приписывающих рубрики
NB> документам
NB> В этом плане коллекция нормативных документов и рубрикатор - типичный
NB> (и даже весьма благополучный!) пример реальной задачи классификации.
NB> Как следствие - методы машинного обучения работают хорошо лишь на
NB> крупных рубриках, а на низкочастотных рубриках дают не очень хорошие
NB> результаты (причем, например, метод Байеса плохо работает с
NB> низкочастотными рубриками, но ведь есть и другие методы...).
NB> С этим надо смириться и не создавать искуственно задачу, специально
NB> заточенную под методы машинного обучения. Не стоит специально давать
NB> преимущество методам, которые не умеют учитывать несбалансированность
NB> рубрикатора.
NB> ---
NB> Предлагаю сформировать обучающую выборку из подмножества документов
NB> нормативной коллекции - например, случайные 20% документов или
NB> 20% с отсечением по дате.
NB> И подмножества рубрик - случайного множества рубрик (тоже, например,
NB> 20%) из имеющихся 1512.
NB> И для этого среза документов/рубрик выдать все известные пары
документ-рубрика.
NB> При этом стоит в эту выборку включить уже разосланные 29643 документов.
NB> P.S.
NB> >> 2) Можно ли утверждать, что если документ приписан рубрике А, но не
NB> >> приписан рубрике Б, то он не принадлежит рубрике Б?
NB> IN> нет, есть вероятность, что он может принадлежать.
NB> Значит, по обучающей выборке можно определить лишь полноту для
NB> обученного метода, но не точность.
NB> С уважением,
NB> Михаил Агеев.
NB> IN> привет,
NB> IN> мне казалось я описывал принципы построения обучающей выборки для
NB> IN> нормативной коллекции в прошлом году, но что-то я не могу найти письмо
:(
NB> IN> Для Веб классификации обучающая выборка у нас не менялась несколько
лет,
NB> IN> мне кажется приципы ее формирования уже несколько раз описывались,
NB> IN> а навскидку я боюсь переврать.
NB> IN> [Но выложить их в описание дорожки идея хорошая]
NB> IN> Для нормативной дорожки у нас есть эталонная рубрикация от Кодекс,
NB> IN> которая имеет иерархическую структуру,
NB> IN> (местами?) сильно несбалансирована, какое-то число документов в ней
NB> отнесено к >> 1 рубрике. При насколько я понимаю в принципе нет гарантии,
что
NB> IN> она полная (То есть всем докментам приписаны _все_ рубрики и
NB> IN> что на число документов в рубрике можно опираться чтобы оценить
NB> IN> число документов по этой теме в коллекции (хоть мы и используем ее как
NB> IN> эталон)).
NB> IN> Обучающее множество было полученно следующим образом:
NB> IN> 1. Рассматривались только листья к которым относилось 100+
документов
NB> IN> 2. Для каждого листа отбиралось 50 случайных в обучающую выборку
NB> IN> Тем самым мы постарались несколько более менее одинаково представить
NB> IN> все обучающие категории, уменьшить пересечение за счет отказа от
иерархии,
NB> IN> и в то же время отобрать относительно "крупные" категории, чтобы не
было
NB> IN> совсем уж большого дисбаланса.
NB> IN> Какая-то статистика:
NB> IN> всего категорий: 1904
NB> IN> листьев: 1512
NB> IN> листьев + cnt > 100: 726
NB> IN> среди 726 есть 5 категорий с > 10000 документов (макс 20176), 79 с >
1000, 197 > 500.
NB> >> 1) Возникает естественный вопрос: а что является отрицательными
NB> >> примерами?
NB> IN> в чистом виде их нет, также как и в полном наборе документов.
NB> >> 2) Можно ли утверждать, что если документ приписан рубрике А, но не
NB> >> приписан рубрике Б, то он не принадлежит рубрике Б?
NB> IN> нет, есть вероятность, что он может принадлежать.
NB> IN> Если есть общее понимание, что выборку лучше строить по другому,
NB> IN> то мы можем ее расширить и разослать еще раз.
NB> IN> В частности мы можем предоставить информацию о всех известных рубриках
для
NB> IN> всех документов, что уже попали в обучающую выборку.
NB> IN> Комментарии/идеи приветствуются :)
NB> IN> -igor
NB> IN> ------------------------------------