Re: training set for legal classification

Классификация нормативно-правовых документов, веб-сайтов и веб-страниц

Re: training set for legal classification

Postby neigor » Fri Jul 07, 2006 2:02 pm

Добрый день,

все-таки буду пытаться выносить содержательные обсуждения
в список рассылки :)

> >> Также хочу задать пару вопросов касающихся обучающего множества для дорожки
> >> классификации нормативно-правовых документов.
> >> Официальное описание обучающего множества для дорожки классификации
> >> нормативно-правовых документов содержит 11 рубрик описываемых одним
документом,
> >> 10 рубрик описываемых двумя документами и т. д.
> >> Десять рубрик описания не имеют (кроме, собственно, названия рубрики :) ).
> >> Для обучения системы классификации такое количество данных мне кажется
недостаточным.
>
> ...
>
> > Если я правильно припоминаю Борис Добров в 2004 (?) что-то об этом писал в
> > статье в трудах РОМИП.
>
> Экспериментальные алгоритмы поиска/классификации и cравнение с "basic line"
> М.С. Агеев, Б.В. Добров, Н.В.Лукашевич, А.В. Сидоров
> http://romip.narod.ru/romip2004/05_uis_russia.pdf
>
> Там отмечается этот факт, и приводится вполне предсказуемый
> график "зависимости F1 от количества примеров обучения".
>
> > Насколько я понимаю большинство участников просто игнорировало
> > эти рубрики или возможно использовало их содержимое как негативные примеры
> > для соседних рубрик.
>
> Выходит, что да. Мы поступим таким же образом.
>
> P. S.
> Меня интересует с чем связан подобный выбор структуры
> обучающего множества(183 рубрики содержат от 0 до 690 примеров
> документов).

это множество было построено на основе реального
набора каталога, любезно предоставленного компанией Кодекс.

Каталог Кодекс создавался вручную, используя экспертов в этой прикладной
области. И он не ограничивается набором документов попавших в коллекцию
РОМИП. В обучающее множество также брались не все документы из категории,
а их некоторый процент.

Можно конечно искуственно ограничить сверху число используемых
для обучения документов, но мы решили, что участники "сузить"
обучающее множество могут и самостоятельно.

> Для сравнения различных подходов и реализующих
> их систем это имеет не такое уж большое значение, но для получения
> более-менее неотносительной оценки работы системы мне представляется не
> совсем удобным, так как для реальных задачах практически всегда можно
> подобрать более равномерный и удобный набор данных для обучения.

хмм, мне сложно судить насколько это справедливо.
В тех случаях когда мне приходилось решать практические задачи
классификации часто получалось, что классы естественным образом
не одинаково представленны в коллекции/потоке документов
и поэтому множество обучающих примеров тоже получалось
"несбалансированным" по числу.

Вообще связь между числом обучающих примеров и качеством описания этой
рубрики, хоть и безусловно есть, но вряд ли можно говорить о "равномерном"
качестве описания рубрик если для всех из них одинаковое число примеров.
(в том смысле что возможно выбранные примеры плохо эту рубрику представляют)

> Хотя, возможно, были бы интересны результаты прогонов одной и той системы по
> одним и тем же данным, но обученной на различных количествах примеров.
> Например, у нас есть обучающее множество документов в котором к каждой
> из рубрик относится от 90 до 110 документов-примеров. Обучим систему
> набором в который входят по 20 примеров для каждой рубрики случайно выбранных
из всего
> обучающего множества, затем по 60, и, в итоге, проводим обучение по
> полному обучающему множеству.

безусловно такие эксперименты интересны,
для этой дорожки наличие полных таблиц релевантности
позволяет это "дешево" оценить :)

> Из вышеупомянутой статьи:
>
> > Можно отметить, что для метода SVM наблюдается резкая зависимость
> > качества классификации от количества примеров для обучения ≈
> > чем больше примеров, тем выше качество классификации.
> > Для рубрик с частотностью выше 100 SVM показывает лучшие результаты.
> > Для малочастотных рубрик качество классификации SVM падает до нуля
> > (для рубрик с частотностью менее 4 SVM мы просто не запускали).
> > Стоит отметить, что для некоторых алгоритмов наблюдается обратная
зависимость.
>
> Может быть, такой вид обучающего множества для коллекции
> нормативно-правовых документов был продиктован именно желанием
> иметь возможность сравнить зависимости качества работы систем от количества
> документов-примеров для рубрик используя результаты одного прогона?
> Или я неправильно что-то понял?

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Return to Тематическая классификация

Who is online

Users browsing this forum: No registered users and 13 guests

cron