Page 2 of 2
Re[4]: [romip] классификация нормативных документов: обучающая коллекция
Posted:
Tue Jun 17, 2008 11:04 am
by neigor
> NB> -- (2) не слишком ли разметка 20000 документов трудозатратна?
> NB> (особенно, с учетом ее, скажем, избыточности для обучения - см.
> NB> (1.1)).
> Разметка документов уже есть - спасибо компании Кодекс.
> Просто она пока не раскрывается участникам.
но насколько это реалистично на практике?
в смысле такой большой обучающей выборки?
-igor
Re[5]: [romip] классификация нормативных документов: обучающая коллекция
Posted:
Tue Jun 17, 2008 1:04 pm
by ageev2003
>> NB> -- (2) не слишком ли разметка 20000 документов трудозатратна?
>> NB> (особенно, с учетом ее, скажем, избыточности для обучения - см.
>> NB> (1.1)).
>> Разметка документов уже есть - спасибо компании Кодекс.
>> Просто она пока не раскрывается участникам.
IN> но насколько это реалистично на практике?
IN> в смысле такой большой обучающей выборки?
В смысле скорости работы алгоритмов?
По-моему, любой метод на 60000 документов можно расчитать за разумное
время (может быть, с некоторой оптимизацией).
Миша.
Re[5]: [romip] классификация нормативных документов: обучающая коллекция
Posted:
Tue Jun 17, 2008 2:01 pm
by neigor
нет, в смысле моделирования проблемы реального мира -
что чаще:
старт с готового (такого большого) ручного классификатора
или
старт с относительно небольшой размеченной выборки +
доразметка чтобы лучше покрыть плохо представленные темы?
Поскольку другие участники дорожки молчат, то я предлагаю
разослать им опрос и спросить какой из 3 вариантов формирования выборки в
этом году они предпочитают:
1) оставить как есть
2) дополнить информацией о принадлежности документов из
текущей обучающей выборки нескольким рубрикам
3) расширить как предложил Михаил
Пункты 2 и 3 одначают рестарт дорожки, оргкомитету не смертельно,
но это может не вписываться в планы участников этой дорожки (отпуска, релизы,
...)
По результатам голосования принимать решение, годится?
-igor
On Tue, 17 Jun 2008, Mikhail Ageev wrote:
>>> NB> -- (2) не слишком ли разметка 20000 документов трудозатратна?
>>> NB> (особенно, с учетом ее, скажем, избыточности для обучения - см.
>>> NB> (1.1)).
>>> Разметка документов уже есть - спасибо компании Кодекс.
>>> Просто она пока не раскрывается участникам.
>
> IN> но насколько это реалистично на практике?
> IN> в смысле такой большой обучающей выборки?
>
> В смысле скорости работы алгоритмов?
>
> По-моему, любой метод на 60000 документов можно расчитать за разумное
> время (может быть, с некоторой оптимизацией).
>
> Миша.
>
>
Re[6]: [romip] классификация нормативных документов: обучающая коллекция
Posted:
Tue Jun 17, 2008 2:19 pm
by ageev2003
Добрый день!
IN> нет, в смысле моделирования проблемы реального мира -
IN> что чаще:
IN> старт с готового (такого большого) ручного классификатора
IN> или
IN> старт с относительно небольшой размеченной выборки +
IN> доразметка чтобы лучше покрыть плохо представленные темы?
Встречается и то, и другое.
Можно взять не 20%, а 2% или 50% - размер не столь принципиален.
Главное, что мне не нравится в текущей постановке - это не размер
выборки, а искуственно созданная смещенность выборки.
И особенно не нравится искуственно вырезанная информация о релевантных
рубриках - вот ЭТО:
>>>>>> 2) Можно ли утверждать, что если документ приписан рубрике А, но не
>>>>>> приписан рубрике Б, то он не принадлежит рубрике Б?
>>>>
>>>> IN> нет, есть вероятность, что он может принадлежать.
IN> Поскольку другие участники дорожки молчат, то я предлагаю
IN> разослать им опрос и спросить какой из 3 вариантов формирования выборки в
IN> этом году они предпочитают:
IN> 1) оставить как есть
IN> 2) дополнить информацией о принадлежности документов из
IN> текущей обучающей выборки нескольким рубрикам
IN> 3) расширить как предложил Михаил
IN> Пункты 2 и 3 одначают рестарт дорожки, оргкомитету не смертельно,
IN> но это может не вписываться в планы участников этой дорожки (отпуска,
релизы, ...)
IN> По результатам голосования принимать решение, годится?
Да, конечно.
С уважением,
Михаил Агеев.