by neigor » Fri Feb 09, 2007 10:27 am
Добрый день,
> IN> благодаря Максиму у нас есть новая версия нормативной коллекции
> IN> и новый набор запросов для нее.
>
> DB> прекрасно! а какие примерно характеристики?
>
> Я думаю, что все ожидают ответа от меня, но, к сожалению, я не могу
> предоставить чисел - базы из которых делали где-то на DVD которые надо
> искать, а быстро "вычислить" их из файлов в формате РОМИП не так просто.
> Поэтому качественные характеристики:
> 1. Это законодательство Россйской Федерации, Москвы и Санкт-Петербурга по
> состоянию на 2 неделю декабря 2006 года. Документы в формате HTML. Из
> особенностей, которые возможно не будут использованы в ближайших циклах - у
> некоторых документов представлено несколько редакций текстов с датами
> редакций, что может использоваться для каких-то анализов изменяющихся
> документов.
всего ~307000 уникальных документов.
~583000 редакций документов.
общий объем (все версии) ~1.7Gb в bz2 файлах
Мы планируем включить в коллекцию все версии документов, как
отдельные документы (никак не отражая связи между ними).
При проведении оценки, мы можем попробовать "ужимать" пулы,
и не показывать асессору более старые версии (или показывать опционально).
Кроме того, можно попробовать сделать дорожку по идентификации
версий документов. То есть задача в том, чтобы найти все множества редакций и
попробовать упорядочить каждое множество по времени.
Оценка автоматическая, что позволяет провести такую дорожку с
даже с небольшим числом участников.
> 2. Все документы классифицированы правовым рубрикатором, который практически
> не отличается от ROMIP2004-legal. Так как документов намного больше, то
> оттуда можно "набрать" новых тематик для классификации. Выбор только этих
> законодательств выбрано тем, что они классифицируются практически одним
> коллективом квалифицированных юристов и поэтому классификация документов
> должна быть достаточно однородной, чтобы считать ее образцовой.
с тем как описать обучающее множество я еще разбираюсь.
Исходный классификатор, по-видимому, 3-х уровневый
(и в нем есть много алиасов)
и распределение присутствующих в коллекции документов по категориям
не очень равномерное (но документов с приписанными категориями
довольно много, цифр под рукой нет :().
Я хочу попробовать получить выборку непересекающихся
категорий, в которых есть не менее 50-60 примеров,
так чтобы 20-30 можно было включить в обучающее множество.
То есть категории могут быть с разных уровней исходного классификатора.
Можно попробовать и другие стратегии. Есть идеи?
Есть ли интерес в классификации по иерархической таксономии?
> 3. Запросы сняты с сайта kodeks.ru из "того места", где пользователи ищут
> именно по этим разделам. Хотя беглый просмотр показывает, что пользователи
> все равно вводят запросы, которых не может быть в этих базах, но такова
> жизнь. Время снятия протокола запросов - конец ноября, начала декабря, то
> есть запросы именно к этой коллекции в этом состоянии.
~15000 запросов
на взгляд - довольно много запросов ищущих конкретный документ по
выходным данным и использующих "идентификаторы" документов
(приказ ГТК 831, N171-ФЗ от 21.12.04, ПБ 03-571-03 и т.п.)
Но доля и "тематических" запросов тоже велика.
Выбирать есть из чего.
И еще раз спасибо Максиму!
-igor