Оценка результатов классификации по

Классификация нормативно-правовых документов, веб-сайтов и веб-страниц

Postby mkozachuk » Tue Jun 08, 2004 1:45 pm


Извините, предыдущее письмо ушло прежде, чем я его дописал. Все-таки, мне кажется, что═полностью автоматическая оценка результатов классификации по нормативной коллекции, будет показывать в основном═сходство с базой Кодекс.═Особенно, учитывая то, что количество возможных рубрик в ответе ограничено пятью.═А в═тренировочном примере,═некоторым документам был приписан десяток рубрик.═══

С уважением, Максим Козачук══
mkozachuk
 
Posts: 9
Joined: Sat May 22, 2004 9:45 am

RE: [romip] Оценка результатов классификации по нормативной коллекции

Postby maxgubin » Tue Jun 08, 2004 2:35 pm

[...]

>А про десяток рубрик для одного документа в обучающем примере я не знал :(.

Я тоже не знал что это ограничено, у меня количество рубрик любое.
Может снять это число 5?

Максим
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

Re: [romip] Оценка результатов классификации по нормативной

Postby neigor » Tue Jun 08, 2004 2:54 pm

насколько я понимал ситуацию, каталог в Кодексе проверялся экспертами
(то есть вручную). Кажется неправильным не использовать эту информацию
совсем. Еще одно важный фактор - для качественной ручной классификации
в специализированной области необходимо знакомство с прикладной областью.
Очевидно, что эксперты Кодекса вероятно более продвинуты в юриспруденции и
близких вопросам по сравнению со среднестатистическим ассессором РОМИП.

Тем не менее, мы планировали продублировать оценку используя наших
ассессоров для нескольких (порядка 5-10?) категорий, чтобы оценить степень
расхождения (это полезно хотя бы для оценки погрешности в дорожке поиска по
нормативной коллекции).

А про десяток рубрик для одного документа в обучающем примере я не знал :(.

Процедуру оценки еще можно менять (но так чтобы это устраивало всех
участников). Если есть идеи что можно сделать, чтобы оценка была
более полезной - пожалуйста, напишите.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

RE: [romip] Оценка результатов классификации по нормативной коллекции

Postby neigor » Tue Jun 08, 2004 3:13 pm

> >А про десяток рубрик для одного документа в обучающем примере я не знал :(.
>
> Я тоже не знал что это ограничено, у меня количество рубрик любое.
> Может снять это число 5?

в принципе можно, но ведь тогда система может просто всегда давать все
рубрики или 100 из них ...

Конечно это не разумно, но если что-то подобной таковое случится, то пулы
для рубрик будут намного больше чем сейчас ...

А много таких документов, что относятся более чем к 5 рубрикам в реальной
базе?

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

RE: [romip] Оценка результатов классификации по нормативной

Postby maxgubin » Wed Jun 09, 2004 5:53 am

У меня нет времени, чтобы написать скрипт, который подсчитал бы максимальное
количество рубрик из отобранных для дорожки у документов из тестовой
коллекции.
Если это принципиально - я могу заняться этим в выходные. Но, глядя в
потолок, могу сказать, что 15 это достаточно.

Я приношу свои извинения перед всеми за все проблемы с моими данными. Как
говориться, благими намерениями...

Максим

RE: [romip] Оценка результатов классификации по нормативной
коллекции

> >А про десяток рубрик для одного документа в обучающем примере я не знал
:(.
>
> Я тоже не знал что это ограничено, у меня количество рубрик любое.
> Может снять это число 5?

в принципе можно, но ведь тогда система может просто всегда давать все
рубрики или 100 из них ...

Конечно это не разумно, но если что-то подобной таковое случится, то пулы
для рубрик будут намного больше чем сейчас ...

А много таких документов, что относятся более чем к 5 рубрикам в реальной
базе?

-igor
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

RE: [romip] Оценка результатов классификации по нормативной

Postby vladimir_pleshko » Wed Jun 09, 2004 7:53 am

У меня все в базу было загружено...

Вот некоторые числа по обучающей выборке:

Всего документов = 6293
Максимальное число рубрик у док-та = 25
Среднее число рубрик у документа = 2,19
Число документов, имеющих не более 5-ти рубрик = 5978 (95% от общего числа)

Иллюстрация - Top-10 документов по числу рубрик:
DOCID CNT
901712180 25
9018043 23
9027690 23
9036342 23
9014988 22
901737940 21
901738587 18
9020050 17
901821194 16
9033400 16

Я бы оставил ограничение на 5 рубрик. Погрешность 5% не так страшна.
Все равно порог при оценках составляет 70-80%.

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

RE: [romip] Оценка результатов классификации по нормативной коллекции

Postby neigor » Wed Jun 09, 2004 8:25 am

> У меня нет времени, чтобы написать скрипт, который подсчитал бы максимальное
> количество рубрик из отобранных для дорожки у документов из тестовой
> коллекции.
> Если это принципиально - я могу заняться этим в выходные. Но, глядя в
> потолок, могу сказать, что 15 это достаточно.

это наверное уже чисто теоретический интерес.
Наверное сейчас уже все равно поздно менять правила.
Разве что максимум с 5 передвинуть на 15, если в этом есть интерес.

> Я приношу свои извинения перед всеми за все проблемы с моими данными. Как
> говориться, благими намерениями...

Ну тут-то точно твоей вины нет, правила-то формулировали мы :)

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm


Return to Тематическая классификация

Who is online

Users browsing this forum: No registered users and 15 guests

cron