by ageev2003 » Tue Jun 17, 2008 2:19 pm
Добрый день!
IN> нет, в смысле моделирования проблемы реального мира -
IN> что чаще:
IN> старт с готового (такого большого) ручного классификатора
IN> или
IN> старт с относительно небольшой размеченной выборки +
IN> доразметка чтобы лучше покрыть плохо представленные темы?
Встречается и то, и другое.
Можно взять не 20%, а 2% или 50% - размер не столь принципиален.
Главное, что мне не нравится в текущей постановке - это не размер
выборки, а искуственно созданная смещенность выборки.
И особенно не нравится искуственно вырезанная информация о релевантных
рубриках - вот ЭТО:
>>>>>> 2) Можно ли утверждать, что если документ приписан рубрике А, но не
>>>>>> приписан рубрике Б, то он не принадлежит рубрике Б?
>>>>
>>>> IN> нет, есть вероятность, что он может принадлежать.
IN> Поскольку другие участники дорожки молчат, то я предлагаю
IN> разослать им опрос и спросить какой из 3 вариантов формирования выборки в
IN> этом году они предпочитают:
IN> 1) оставить как есть
IN> 2) дополнить информацией о принадлежности документов из
IN> текущей обучающей выборки нескольким рубрикам
IN> 3) расширить как предложил Михаил
IN> Пункты 2 и 3 одначают рестарт дорожки, оргкомитету не смертельно,
IN> но это может не вписываться в планы участников этой дорожки (отпуска,
релизы, ...)
IN> По результатам голосования принимать решение, годится?
Да, конечно.
С уважением,
Михаил Агеев.