классификация нормативных документов: обучающая коллекция

Классификация нормативно-правовых документов, веб-сайтов и веб-страниц

Re[4]: [romip] классификация нормативных документов: обучающая коллекция

Postby neigor » Tue Jun 17, 2008 11:04 am

> NB> -- (2) не слишком ли разметка 20000 документов трудозатратна?
> NB> (особенно, с учетом ее, скажем, избыточности для обучения - см.
> NB> (1.1)).
> Разметка документов уже есть - спасибо компании Кодекс.
> Просто она пока не раскрывается участникам.

но насколько это реалистично на практике?
в смысле такой большой обучающей выборки?

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re[5]: [romip] классификация нормативных документов: обучающая коллекция

Postby ageev2003 » Tue Jun 17, 2008 1:04 pm

>> NB> -- (2) не слишком ли разметка 20000 документов трудозатратна?
>> NB> (особенно, с учетом ее, скажем, избыточности для обучения - см.
>> NB> (1.1)).
>> Разметка документов уже есть - спасибо компании Кодекс.
>> Просто она пока не раскрывается участникам.

IN> но насколько это реалистично на практике?
IN> в смысле такой большой обучающей выборки?

В смысле скорости работы алгоритмов?

По-моему, любой метод на 60000 документов можно расчитать за разумное
время (может быть, с некоторой оптимизацией).

Миша.
ageev2003
Оргкомитет
 
Posts: 28
Joined: Wed Apr 07, 2004 6:58 am

Re[5]: [romip] классификация нормативных документов: обучающая коллекция

Postby neigor » Tue Jun 17, 2008 2:01 pm

нет, в смысле моделирования проблемы реального мира -
что чаще:
старт с готового (такого большого) ручного классификатора
или
старт с относительно небольшой размеченной выборки +
доразметка чтобы лучше покрыть плохо представленные темы?

Поскольку другие участники дорожки молчат, то я предлагаю
разослать им опрос и спросить какой из 3 вариантов формирования выборки в
этом году они предпочитают:

1) оставить как есть
2) дополнить информацией о принадлежности документов из
текущей обучающей выборки нескольким рубрикам
3) расширить как предложил Михаил

Пункты 2 и 3 одначают рестарт дорожки, оргкомитету не смертельно,
но это может не вписываться в планы участников этой дорожки (отпуска, релизы,
...)

По результатам голосования принимать решение, годится?

-igor

On Tue, 17 Jun 2008, Mikhail Ageev wrote:

>>> NB> -- (2) не слишком ли разметка 20000 документов трудозатратна?
>>> NB> (особенно, с учетом ее, скажем, избыточности для обучения - см.
>>> NB> (1.1)).
>>> Разметка документов уже есть - спасибо компании Кодекс.
>>> Просто она пока не раскрывается участникам.
>
> IN> но насколько это реалистично на практике?
> IN> в смысле такой большой обучающей выборки?
>
> В смысле скорости работы алгоритмов?
>
> По-моему, любой метод на 60000 документов можно расчитать за разумное
> время (может быть, с некоторой оптимизацией).
>
> Миша.
>
>
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re[6]: [romip] классификация нормативных документов: обучающая коллекция

Postby ageev2003 » Tue Jun 17, 2008 2:19 pm

Добрый день!

IN> нет, в смысле моделирования проблемы реального мира -
IN> что чаще:
IN> старт с готового (такого большого) ручного классификатора
IN> или
IN> старт с относительно небольшой размеченной выборки +
IN> доразметка чтобы лучше покрыть плохо представленные темы?

Встречается и то, и другое.
Можно взять не 20%, а 2% или 50% - размер не столь принципиален.

Главное, что мне не нравится в текущей постановке - это не размер
выборки, а искуственно созданная смещенность выборки.

И особенно не нравится искуственно вырезанная информация о релевантных
рубриках - вот ЭТО:
>>>>>> 2) Можно ли утверждать, что если документ приписан рубрике А, но не
>>>>>> приписан рубрике Б, то он не принадлежит рубрике Б?
>>>>
>>>> IN> нет, есть вероятность, что он может принадлежать.

IN> Поскольку другие участники дорожки молчат, то я предлагаю
IN> разослать им опрос и спросить какой из 3 вариантов формирования выборки в
IN> этом году они предпочитают:

IN> 1) оставить как есть
IN> 2) дополнить информацией о принадлежности документов из
IN> текущей обучающей выборки нескольким рубрикам
IN> 3) расширить как предложил Михаил

IN> Пункты 2 и 3 одначают рестарт дорожки, оргкомитету не смертельно,
IN> но это может не вписываться в планы участников этой дорожки (отпуска,
релизы, ...)

IN> По результатам голосования принимать решение, годится?

Да, конечно.

С уважением,
Михаил Агеев.
ageev2003
Оргкомитет
 
Posts: 28
Joined: Wed Apr 07, 2004 6:58 am

Previous

Return to Тематическая классификация

Who is online

Users browsing this forum: Majestic-12 [Bot] and 12 guests