Добрый день!
>> 2. Все документы классифицированы правовым рубрикатором, который практически
>> не отличается от ROMIP2004-legal.
>
IN> Исходный классификатор, по-видимому, 3-х уровневый
IN> (и в нем есть много алиасов)
IN> и распределение присутствующих в коллекции документов по категориям
IN> не очень равномерное (но документов с приписанными категориями
IN> довольно много, цифр под рукой нет :().
IN> Я хочу попробовать получить выборку непересекающихся
IN> категорий, в которых есть не менее 50-60 примеров,
IN> так чтобы 20-30 можно было включить в обучающее множество.
IN> То есть категории могут быть с разных уровней исходного классификатора.
По-моему, это совсем не правильно - отдавать предпочтение частотным
рубрикам.
Уж такова жизнь, что в _любой_ классифицированной коллекции есть большие
перекосы с распределением документов по рубрикам.
Лучше предложить участникам выборку из n случайных категорий - так,
чтобы распределение частотностей в выборке было похоже на
распределение частотностей во всем классификаторе (включая даже
рубрики с одним документом).
А уж участники сами вольны выбирать, как оценивать свои методы (у
кого-то будет работать только на частотных рубриках, а у кого-то - на
всех).
IN> Есть ли интерес в классификации по иерархической таксономии?
Есть!
С уважением,
Михаил.