Page 1 of 1

PostPosted: Tue Jun 08, 2004 1:45 pm
by mkozachuk

Извините, предыдущее письмо ушло прежде, чем я его дописал. Все-таки, мне кажется, что═полностью автоматическая оценка результатов классификации по нормативной коллекции, будет показывать в основном═сходство с базой Кодекс.═Особенно, учитывая то, что количество возможных рубрик в ответе ограничено пятью.═А в═тренировочном примере,═некоторым документам был приписан десяток рубрик.═══

С уважением, Максим Козачук══

RE: [romip] Оценка результатов классификации по нормативной коллекции

PostPosted: Tue Jun 08, 2004 2:35 pm
by maxgubin
[...]

>А про десяток рубрик для одного документа в обучающем примере я не знал :(.

Я тоже не знал что это ограничено, у меня количество рубрик любое.
Может снять это число 5?

Максим

Re: [romip] Оценка результатов классификации по нормативной

PostPosted: Tue Jun 08, 2004 2:54 pm
by neigor
насколько я понимал ситуацию, каталог в Кодексе проверялся экспертами
(то есть вручную). Кажется неправильным не использовать эту информацию
совсем. Еще одно важный фактор - для качественной ручной классификации
в специализированной области необходимо знакомство с прикладной областью.
Очевидно, что эксперты Кодекса вероятно более продвинуты в юриспруденции и
близких вопросам по сравнению со среднестатистическим ассессором РОМИП.

Тем не менее, мы планировали продублировать оценку используя наших
ассессоров для нескольких (порядка 5-10?) категорий, чтобы оценить степень
расхождения (это полезно хотя бы для оценки погрешности в дорожке поиска по
нормативной коллекции).

А про десяток рубрик для одного документа в обучающем примере я не знал :(.

Процедуру оценки еще можно менять (но так чтобы это устраивало всех
участников). Если есть идеи что можно сделать, чтобы оценка была
более полезной - пожалуйста, напишите.

-igor

RE: [romip] Оценка результатов классификации по нормативной коллекции

PostPosted: Tue Jun 08, 2004 3:13 pm
by neigor
> >А про десяток рубрик для одного документа в обучающем примере я не знал :(.
>
> Я тоже не знал что это ограничено, у меня количество рубрик любое.
> Может снять это число 5?

в принципе можно, но ведь тогда система может просто всегда давать все
рубрики или 100 из них ...

Конечно это не разумно, но если что-то подобной таковое случится, то пулы
для рубрик будут намного больше чем сейчас ...

А много таких документов, что относятся более чем к 5 рубрикам в реальной
базе?

-igor

RE: [romip] Оценка результатов классификации по нормативной

PostPosted: Wed Jun 09, 2004 5:53 am
by maxgubin
У меня нет времени, чтобы написать скрипт, который подсчитал бы максимальное
количество рубрик из отобранных для дорожки у документов из тестовой
коллекции.
Если это принципиально - я могу заняться этим в выходные. Но, глядя в
потолок, могу сказать, что 15 это достаточно.

Я приношу свои извинения перед всеми за все проблемы с моими данными. Как
говориться, благими намерениями...

Максим

RE: [romip] Оценка результатов классификации по нормативной
коллекции

> >А про десяток рубрик для одного документа в обучающем примере я не знал
:(.
>
> Я тоже не знал что это ограничено, у меня количество рубрик любое.
> Может снять это число 5?

в принципе можно, но ведь тогда система может просто всегда давать все
рубрики или 100 из них ...

Конечно это не разумно, но если что-то подобной таковое случится, то пулы
для рубрик будут намного больше чем сейчас ...

А много таких документов, что относятся более чем к 5 рубрикам в реальной
базе?

-igor

RE: [romip] Оценка результатов классификации по нормативной

PostPosted: Wed Jun 09, 2004 7:53 am
by vladimir_pleshko
У меня все в базу было загружено...

Вот некоторые числа по обучающей выборке:

Всего документов = 6293
Максимальное число рубрик у док-та = 25
Среднее число рубрик у документа = 2,19
Число документов, имеющих не более 5-ти рубрик = 5978 (95% от общего числа)

Иллюстрация - Top-10 документов по числу рубрик:
DOCID CNT
901712180 25
9018043 23
9027690 23
9036342 23
9014988 22
901737940 21
901738587 18
9020050 17
901821194 16
9033400 16

Я бы оставил ограничение на 5 рубрик. Погрешность 5% не так страшна.
Все равно порог при оценках составляет 70-80%.

С уважением,
Владимир Плешко

RE: [romip] Оценка результатов классификации по нормативной коллекции

PostPosted: Wed Jun 09, 2004 8:25 am
by neigor
> У меня нет времени, чтобы написать скрипт, который подсчитал бы максимальное
> количество рубрик из отобранных для дорожки у документов из тестовой
> коллекции.
> Если это принципиально - я могу заняться этим в выходные. Но, глядя в
> потолок, могу сказать, что 15 это достаточно.

это наверное уже чисто теоретический интерес.
Наверное сейчас уже все равно поздно менять правила.
Разве что максимум с 5 передвинуть на 15, если в этом есть интерес.

> Я приношу свои извинения перед всеми за все проблемы с моими данными. Как
> говориться, благими намерениями...

Ну тут-то точно твоей вины нет, правила-то формулировали мы :)

-igor