romip.ru

by **neigor** » Fri Feb 02, 2007 12:32 pm

Добрый день,

благодаря Максиму у нас есть новая версия нормативной коллекции
и новый набор запросов для нее.

В Суздале мы обсуждали необходимость обновления Веб коллекции
- есть ли желающие помочь сформулировать критерии,
а еще лучше и построить соответствующую выборку документов?

-igor

by **dobroff2003** » Fri Feb 02, 2007 1:37 pm

Добрый день,

Friday, February 02, 2007, 2:32:05 PM, you wrote:

IN> благодаря Максиму у нас есть новая версия нормативной коллекции
IN> и новый набор запросов для нее.

прекрасно! а какие примерно характеристики?

IN> В Суздале мы обсуждали необходимость обновления Веб коллекции
IN> - есть ли желающие помочь сформулировать критерии,
IN> а еще лучше и построить соответствующую выборку документов?

раньше мы всегда смотрели за соблюдением прав

если мы и сейчас будем на это обращать внимание, то у нас не очень-то
широкий выбор - тот же narod.ru (в принципе он не был плох)

в TREC еще анализируют государственные сайты *.gov (там не авторского
права)
у нас же с этим - всегда проблемы - того и гляди обвинят в нехорошем

вроде бы у нас в законодательстве есть некоторое количество типов
ресурсов, на которые не распространяется авторское право. Но там все
как-то сложно изложено - типа нет авторского права на новости, но на
их "изложение" и подборку может быть...

а кто-нибудь в курсе по возможностям договориться с компанией "СУП" ?

--
С наилучшими пожеланиями,
Борис Добров

by **maxgubin** » Sat Feb 03, 2007 7:11 am

Всем привет,

Friday, February 02, 2007, 2:32:05 PM, you wrote:

IN> благодаря Максиму у нас есть новая версия нормативной коллекции
IN> и новый набор запросов для нее.

DB> прекрасно! а какие примерно характеристики?

Я думаю, что все ожидают ответа от меня, но, к сожалению, я не могу
предоставить чисел - базы из которых делали где-то на DVD которые надо
искать, а быстро "вычислить" их из файлов в формате РОМИП не так просто.
Поэтому качественные характеристики:
1. Это законодательство Россйской Федерации, Москвы и Санкт-Петербурга по
состоянию на 2 неделю декабря 2006 года. Документы в формате HTML. Из
особенностей, которые возможно не будут использованы в ближайших циклах - у
некоторых документов представлено несколько редакций текстов с датами
редакций, что может использоваться для каких-то анализов изменяющихся
документов.
2. Все документы классифицированы правовым рубрикатором, который практически
не отличается от ROMIP2004-legal. Так как документов намного больше, то
оттуда можно "набрать" новых тематик для классификации. Выбор только этих
законодательств выбрано тем, что они классифицируются практически одним
коллективом квалифицированных юристов и поэтому классификация документов
должна быть достаточно однородной, чтобы считать ее образцовой.
3. Запросы сняты с сайта kodeks.ru из "того места", где пользователи ищут
именно по этим разделам. Хотя беглый просмотр показывает, что пользователи
все равно вводят запросы, которых не может быть в этих базах, но такова
жизнь. Время снятия протокола запросов - конец ноября, начала декабря, то
есть запросы именно к этой коллекции в этом состоянии.

>вроде бы у нас в законодательстве есть некоторое количество типов
>ресурсов, на которые не распространяется авторское право. Но там все
>как-то сложно изложено - типа нет авторского права на новости, но на
>их "изложение" и подборку может быть...

Да, именно так. Так как на сайте информация всегда как-то обработана, то
всегда можно придраться.

Максим

by **igor_kuralenok** » Wed Feb 07, 2007 6:05 pm

Доброе время суток!
Boris V. Dobrov wrote:
> IN> В Суздале мы обсуждали необходимость обновления Веб коллекции
> IN> - есть ли желающие помочь сформулировать критерии,
> IN> а еще лучше и построить соответствующую выборку документов?
>
> раньше мы всегда смотрели за соблюдением прав
>
> если мы и сейчас будем на это обращать внимание, то у нас не очень-то
> широкий выбор - тот же narod.ru (в принципе он не был плох)
>
> в TREC еще анализируют государственные сайты *.gov (там не авторского
> права)
> у нас же с этим - всегда проблемы - того и гляди обвинят в нехорошем
>
> вроде бы у нас в законодательстве есть некоторое количество типов
> ресурсов, на которые не распространяется авторское право. Но там все
> как-то сложно изложено - типа нет авторского права на новости, но на
> их "изложение" и подборку может быть...а кто-нибудь в курсе по возможностям
договориться с компанией "СУП" ?
У меня, наверное, глупый вопрос, но тем не менее я его задам :). То что
мы распространяем выборку с ограничениями на использование разве не
устраняет проблемы авторского права? Например я, когда сохраняю
локальную копию страницы всегда думал, что никаких законов не нарушаю
покуда не вывешу эту же страничку у себя на сайте...

Чем не нравится народ.ру:
не связная коллекция (большинство ссылок - битые),
существенный перекос в контенте по сравнению с боевым инетом (магазинов
почти нет, порталы отсудствуют как класс, с форумами все плохо, блоги
еще не родились, спама мало),
малый объем.

Это основное, что делает коллекцию бесполезной для тестирования интернет
поиска в боевых условиях.

У меня была идея воспользоваться "самоподобием" сети, про которое так
много говорил в свое время Гугль и взять тематический или региональный
срез. Есть вероятность того, что такая выборка будет лучше. Можно даже
это попробовать объективно проверить. При этом я не предлагаю прекращать
дорожку по народу, лишь завести еще одну, которая будет интересна
поисковикам.

IK

by **neigor** » Wed Feb 07, 2007 6:28 pm

Лично я "за" появление новой ненародной коллекции, но
я также разделяю сомнения Бориса.
Насколько я помню в Суздале многие высказывали точку зрения похожую на
то, что тут описал Игорь.

Как мне раньше казалось основная сложность связана с тем,
что речь идет о распространении материалов, которые нам не принадлежат
и которые нам не разрешали использовать таким образом,
но вроде как в Суздале утверждалось, что несколько подправив
условия распространения это можно сгладить и вообще типа это не такая важная
проблема.

Может быть кто-нибудь из энтузиастов этой идеи прояснит детали?

-igor

by **dobroff2003** » Wed Feb 07, 2007 8:10 pm

Добрый день,

Wednesday, February 07, 2007, 8:28:06 PM, you wrote:

IN> Лично я "за" появление новой ненародной коллекции, но
IN> я также разделяю сомнения Бориса.
IN> Насколько я помню в Суздале многие высказывали точку зрения похожую на
IN> то, что тут описал Игорь.

IN> Как мне раньше казалось основная сложность связана с тем,
IN> что речь идет о распространении материалов, которые нам не принадлежат
IN> и которые нам не разрешали использовать таким образом,
IN> но вроде как в Суздале утверждалось, что несколько подправив
IN> условия распространения это можно сгладить и вообще типа это не такая важная
IN> проблема.

я целиком за новые коллекции, но как-то надо отражать возможные
обвинения

насколько я "понимаю" принятую 4ую главу Гражданского кодекса - сейчас
для легитимности надо спрашивать у всех авторов, однако государство
будет защищать интересы этих авторов только если они
"зарегистрировали" свою интеллектуальную собственность, причем порядок
регистрации, естественно, не прописан.

в общем, все как всегда - в законодательстве ничего не ясно, можно
повернуть как угодно.

с другой стороны, легко придумать массу всякого (но готовы ли мы на
это идти?)...

например, самое простое - официально распространять миллион ссылок на
ресурсы Интернета, скачанных однажды через общий для участников
кеширующий прокси-сервер (да еще и запаковывающий сразу на DVD ;) )

Если еще и DNS-сервер свой (формально даже можно собрать такую
конфигурацию), то трафика наружу нет, а у каждого
одна и та же коллекция документов...

=======================

Не является, по-моему, нарушением авторских прав и "однократное"
использование в учебных или научных целях. Вроде очень похоже на наш
случай, но правильно-убедительное объяснение пока в голову не
приходит.

Может быть что-нибудь типа НИР по заказу НП РОМИП за 1 рубль?

--
С наилучшими пожеланиями,
Борис Добров

by **segalovich** » Thu Feb 08, 2007 7:45 pm

Добрый день.

Как мне кажется, основной вопрос здесь содержательный:
какие URL мы должны сложить в коллекцию, чтобы
оценки поиска по ней представляли интерес.

Юридические проблемы предлагаю считать второстепенными,
хотя бы по аналогии с NDA для стипендий Яндекса,
в которой уже продумана защита авторских прав веб-авторов
в раздаваемой для научных целей веб-коллекции.

Иными словами: давайте "найдем" наилучшее решение
по составу коллекции. А отдельно, потом,
маленьким совещанием юристов и "юридически заинтересованных"
участников РОМИП решим вопросы с нюансами лицензии на эту колекцию.

По содержанию.

Здесь не только вопрос репрезентативности
(там должны быть "правильно" представлены скрипты,
блоги, форумы, спам и тп и тд), но и вопрос
ссылочной связности (причем опять же не только
плотности подграфа, но и репрезентативности разных типов
ссылок) и, наконец, вопрос общего размера.

1. Репрезентативность.

Имеет смысл скачать несколько общераспространенных
каталогов Рунета (каждый по отдельности имеет
некий bias) и попытаться их аккуратно агрегировать.
(хотя бы по списку URL-ов/хостов)

Каталог Яндекса и Open Directory можно
получить в XML-фиде. Про Рамблер-топ100
думаю, не стоит заморачиваться (все-таки это каталог
"самоввода"), хотя, может быть, я не прав.

Что касается Апорта (Ау) и Mail.ru (List.ru), я могу попробовать
спросить знающих товарищей, (а может кто откликнется?)

Почему? Это, как мне кажется, относительно дешево,
и кроме задачи построения хорошо репрезентирующей коллекции
мы получим материал для более "правильных" экспериментов
с классификацией.

2. Связность.

Пока без комментариев.

3. Размер

Не все авторы способны обработать 10 миллионов документов.
Хотя 5-6 DVD (наш разумный верхний предел?), это ~30GB зазиппованных
текстов, то есть ~100GB незазиппованных, или 3-4 миллиона документов.

Вот это, как мне кажется, и должен быть наш примерный желаемый размер.

С уважением,
Илья

by **maxgubin** » Fri Feb 09, 2007 10:22 am

Может сделать так:
1. Взять какие либо каталоги как набор первоначальных ссылок.
2. Обычным crawlerом из этого набора, переходя по ссылкам с этих сайтов
донабрать до нужного объема.

Так как crawler будет обходить по ссылкам, то обеспечится наличие связности.
Начальный каталог сделать, например, случайно замикшировав выборки из
доступных каталогов, дл уменьшения bias.

Что касается объема - 100Гб для "студенческой" системы многовато, это не
будет перерабатываться обычным компьютером (1Гб памяти, 250 винт) без
определенного напряга, на который не все способны. Я думаю, что 30-50 Гб
значительно реальнее, "пережевываются" какой-нибудь lucene практически без
проблем. Делать несколько "срезов" тоже не резон - тяжело будет оценивать.

Максим

by **neigor** » Fri Feb 09, 2007 10:27 am

Добрый день,

> IN> благодаря Максиму у нас есть новая версия нормативной коллекции
> IN> и новый набор запросов для нее.
>
> DB> прекрасно! а какие примерно характеристики?
>
> Я думаю, что все ожидают ответа от меня, но, к сожалению, я не могу
> предоставить чисел - базы из которых делали где-то на DVD которые надо
> искать, а быстро "вычислить" их из файлов в формате РОМИП не так просто.
> Поэтому качественные характеристики:
> 1. Это законодательство Россйской Федерации, Москвы и Санкт-Петербурга по
> состоянию на 2 неделю декабря 2006 года. Документы в формате HTML. Из
> особенностей, которые возможно не будут использованы в ближайших циклах - у
> некоторых документов представлено несколько редакций текстов с датами
> редакций, что может использоваться для каких-то анализов изменяющихся
> документов.

всего ~307000 уникальных документов.
~583000 редакций документов.

общий объем (все версии) ~1.7Gb в bz2 файлах

Мы планируем включить в коллекцию все версии документов, как
отдельные документы (никак не отражая связи между ними).

При проведении оценки, мы можем попробовать "ужимать" пулы,
и не показывать асессору более старые версии (или показывать опционально).

Кроме того, можно попробовать сделать дорожку по идентификации
версий документов. То есть задача в том, чтобы найти все множества редакций и
попробовать упорядочить каждое множество по времени.
Оценка автоматическая, что позволяет провести такую дорожку с
даже с небольшим числом участников.

> 2. Все документы классифицированы правовым рубрикатором, который практически
> не отличается от ROMIP2004-legal. Так как документов намного больше, то
> оттуда можно "набрать" новых тематик для классификации. Выбор только этих
> законодательств выбрано тем, что они классифицируются практически одним
> коллективом квалифицированных юристов и поэтому классификация документов
> должна быть достаточно однородной, чтобы считать ее образцовой.

с тем как описать обучающее множество я еще разбираюсь.

Исходный классификатор, по-видимому, 3-х уровневый
(и в нем есть много алиасов)
и распределение присутствующих в коллекции документов по категориям
не очень равномерное (но документов с приписанными категориями
довольно много, цифр под рукой нет :().

Я хочу попробовать получить выборку непересекающихся
категорий, в которых есть не менее 50-60 примеров,
так чтобы 20-30 можно было включить в обучающее множество.
То есть категории могут быть с разных уровней исходного классификатора.

Можно попробовать и другие стратегии. Есть идеи?

Есть ли интерес в классификации по иерархической таксономии?

> 3. Запросы сняты с сайта kodeks.ru из "того места", где пользователи ищут
> именно по этим разделам. Хотя беглый просмотр показывает, что пользователи
> все равно вводят запросы, которых не может быть в этих базах, но такова
> жизнь. Время снятия протокола запросов - конец ноября, начала декабря, то
> есть запросы именно к этой коллекции в этом состоянии.

~15000 запросов

на взгляд - довольно много запросов ищущих конкретный документ по
выходным данным и использующих "идентификаторы" документов
(приказ ГТК 831, N171-ФЗ от 21.12.04, ПБ 03-571-03 и т.п.)
Но доля и "тематических" запросов тоже велика.
Выбирать есть из чего.

И еще раз спасибо Максиму!

-igor

by **igor_kuralenok** » Fri Feb 09, 2007 12:13 pm

Ilya Segalovich wrote:
> Добрый день.
>
> Как мне кажется, основной вопрос здесь содержательный:
> какие URL мы должны сложить в коллекцию, чтобы
> оценки поиска по ней представляли интерес.
>
> Юридические проблемы предлагаю считать второстепенными,
> хотя бы по аналогии с NDA для стипендий Яндекса,
> в которой уже продумана защита авторских прав веб-авторов
> в раздаваемой для научных целей веб-коллекции.
>
> Иными словами: давайте "найдем" наилучшее решение
> по составу коллекции. А отдельно, потом,
> маленьким совещанием юристов и "юридически заинтересованных"
> участников РОМИП решим вопросы с нюансами лицензии на эту колекцию.
>
> По содержанию.
>
> Здесь не только вопрос репрезентативности
> (там должны быть "правильно" представлены скрипты,
> блоги, форумы, спам и тп и тд), но и вопрос
> ссылочной связности (причем опять же не только
> плотности подграфа, но и репрезентативности разных типов
> ссылок) и, наконец, вопрос общего размера.
>
> 1. Репрезентативность.
>
> Имеет смысл скачать несколько общераспространенных
> каталогов Рунета (каждый по отдельности имеет
> некий bias) и попытаться их аккуратно агрегировать.
> (хотя бы по списку URL-ов/хостов)
>
> Каталог Яндекса и Open Directory можно
> получить в XML-фиде. Про Рамблер-топ100
> думаю, не стоит заморачиваться (все-таки это каталог
> "самоввода"), хотя, может быть, я не прав.
>
> Что касается Апорта (Ау) и Mail.ru (List.ru), я могу попробовать
> спросить знающих товарищей, (а может кто откликнется?)
>
> Почему? Это, как мне кажется, относительно дешево,
> и кроме задачи построения хорошо репрезентирующей коллекции
> мы получим материал для более "правильных" экспериментов
> с классификацией.
>
>
Каталог, на мой взгляд, - не лучшая идея. Репрезентативность такой
выборки вызывает сомнения (во всяком случае так для тех каталогов про
которые я знаю как они собираются). Каталог собирают с целью отобрать
"лучших представителей". Соответственно и выборку стараются делать
исходя именно из этого соображения. Да, туда поподает и спам, но его
значительно меньше. Я бы все же предложил использовать Гео разметку.
Взять все сайты из Е-бурга или СПб (тупо по множеству доменов).

Что касается связности, то утверждается, что там не будет с одной
стороны завышенной связности (как в случае если мы все соберем
кроулером), так и заниженной, как в случае ограничения одним хостингом.
Да, коллекция будет крива по локализации, но на мой взгляд это гораздо
меньшее зло.

IK

romip.ru

ROMIP2007: обновление коллекций?

Re: [romip] ROMIP2007: обновление коллекций?

RE: [romip] ROMIP2007: обновление коллекций?

Re: [romip] ROMIP2007: обновление коллекций?

Re: [romip] ROMIP2007: обновление коллекций?

Re[2]: [romip] ROMIP2007: обновление коллекций?

Re: [romip] ROMIP2007: обновление коллекций?

RE: [romip] ROMIP2007: обновление коллекций?

ROMIP2007: предварительная статистика по Legal2007

Re: [romip] ROMIP2007: обновление коллекций?

Who is online