ROMIP2007: обновление коллекций?

Общие обсуждения - потенциальные будущие дорожки, использование материалов РОМИП вне семинара, очные встречи и прочие вопросы для которых нет отдельной подтемы

Re: [romip] ROMIP2007: предварительная статистика по Legal2007

Postby ageev2003 » Fri Feb 09, 2007 1:53 pm

Добрый день!

>> 2. Все документы классифицированы правовым рубрикатором, который практически
>> не отличается от ROMIP2004-legal.
>
IN> Исходный классификатор, по-видимому, 3-х уровневый
IN> (и в нем есть много алиасов)
IN> и распределение присутствующих в коллекции документов по категориям
IN> не очень равномерное (но документов с приписанными категориями
IN> довольно много, цифр под рукой нет :().

IN> Я хочу попробовать получить выборку непересекающихся
IN> категорий, в которых есть не менее 50-60 примеров,
IN> так чтобы 20-30 можно было включить в обучающее множество.
IN> То есть категории могут быть с разных уровней исходного классификатора.

По-моему, это совсем не правильно - отдавать предпочтение частотным
рубрикам.
Уж такова жизнь, что в _любой_ классифицированной коллекции есть большие
перекосы с распределением документов по рубрикам.

Лучше предложить участникам выборку из n случайных категорий - так,
чтобы распределение частотностей в выборке было похоже на
распределение частотностей во всем классификаторе (включая даже
рубрики с одним документом).

А уж участники сами вольны выбирать, как оценивать свои методы (у
кого-то будет работать только на частотных рубриках, а у кого-то - на
всех).

IN> Есть ли интерес в классификации по иерархической таксономии?

Есть!

С уважением,
Михаил.
ageev2003
Оргкомитет
 
Posts: 28
Joined: Wed Apr 07, 2004 6:58 am

Re: [romip] ROMIP2007: обновление коллекций?

Postby segalovich » Fri Feb 09, 2007 10:14 pm

Я не предлагаю обязательно строить коллекцию *вокруг каталогов*.

Я лишь выдвинул предложение об одновременном с построением коллекции
снятии "snapshot"-а доступных каталогов,
которые в совокупности (при любом способе построения коллекции)
помогут в описании собранного материала.

Грубо, если про spb.ru Яндекс Каталог знает ~1000 сайтов
(и, скажем тридцать миллионов документов, что, кстати,
явно многовато), то четыре каталога будут знать в ~два раза
больше сайтов в этой же зоне.

Илья

> Каталог, на мой взгляд, - не лучшая идея. Репрезентативность такой
> выборки вызывает сомнения (во всяком случае так для тех каталогов про
> которые я знаю как они собираются). Каталог собирают с целью отобрать
> "лучших представителей". Соответственно и выборку стараются делать
> исходя именно из этого соображения. Да, туда поподает и спам, но его
> значительно меньше. Я бы все же предложил использовать Гео разметку.
> Взять все сайты из Е-бурга или СПб (тупо по множеству доменов).
>
> Что касается связности, то утверждается, что там не будет с одной
> стороны завышенной связности (как в случае если мы все соберем
> кроулером), так и заниженной, как в случае ограничения одним хостингом.
> Да, коллекция будет крива по локализации, но на мой взгляд это гораздо
> меньшее зло.
segalovich
Оргкомитет
 
Posts: 46
Joined: Fri Jan 31, 2003 1:21 pm

Хостинг и english

Postby maxgubin » Sat Feb 10, 2007 9:36 am

Еще раз всем привет.
Я понимаю, что коллекции интересно, НО в конце прошлого года активно
обсуждали хостинг сайта, переводили и т.д. Сейчас извне России даже показать
ничего не возможно про РОМИП. Что-то жутко медленное и старое.

Если нужно где-то "приложить руки" - давайте посвящу этому пару ночей, но
надо это дело доделать.

Максим
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

Re: [romip] Хостинг и english

Postby neigor » Sat Feb 10, 2007 12:58 pm

Привет Максим,

все что было переведено вроде бы выложено на сайт.
Предложения по улучшению принимаются в любое время :)

с переездом на romip.ru - это я торможу :(
Я только что перевел денег masterhost,
как дойдут - закажу хостинг и буду переносить содержимое.
Надеюсь к понедельнику объявить о победе :)

-igor

p.s.
Мы, кстати, недавно сделали первый вариант http://rcdl.ru.
Там можно все труды RCDL посмотреть.

On Sat, 10 Feb 2007, Max Gubin wrote:

> Еще раз всем привет.
> Я понимаю, что коллекции интересно, НО в конце прошлого года активно
> обсуждали хостинг сайта, переводили и т.д. Сейчас извне России даже показать
> ничего не возможно про РОМИП. Что-то жутко медленное и старое.
>
> Если нужно где-то "приложить руки" - давайте посвящу этому пару ночей, но
> надо это дело доделать.
>
> Максим
>
>
>
>
> Yahoo! Groups Links
>
>
>
>
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

RE: [romip] Хостинг и english

Postby capevak » Sat Feb 10, 2007 7:28 pm

> Мы, кстати, недавно сделали первый вариант http://rcdl.ru.
> Там можно все труды RCDL посмотреть.

В трудах последней конференции (Суздаль) нет страниц. Предыдущие не
проверял, но в 1999 г. - есть.

--
В.Капустин
capevak
 
Posts: 1
Joined: Sat Feb 10, 2007 2:08 pm

Re: [romip] ROMIP2007: обновление коллекций?

Postby igor_kuralenok » Wed Feb 14, 2007 12:50 pm

Ilya Segalovich wrote:
> Я не предлагаю обязательно строить коллекцию *вокруг каталогов*.
>
> Я лишь выдвинул предложение об одновременном с построением коллекции
> снятии "snapshot"-а доступных каталогов,
> которые в совокупности (при любом способе построения коллекции)
> помогут в описании собранного материала.
>
> Грубо, если про spb.ru Яндекс Каталог знает ~1000 сайтов
> (и, скажем тридцать миллионов документов, что, кстати,
> явно многовато), то четыре каталога будут знать в ~два раза
> больше сайтов в этой же зоне.
>
> Илья
>
Ок. Прошу прощения за непонятливость :). Господа поисковики, кому-нибудь
кроме Яндекса это интересно? Делаем такую дорожку или нет? Надо решить
достаточно быстро, так как для подготовки дорожки нам понадобится
некоторое время.

IK
igor_kuralenok
Оргкомитет
 
Posts: 21
Joined: Fri Oct 03, 2003 7:24 am

Re[2]: [romip] ROMIP2007: обновление коллекций?

Postby dobroff2003 » Wed Feb 14, 2007 1:06 pm

Добрый день,

Wednesday, February 14, 2007, 2:50:56 PM, you wrote:

IK> Господа поисковики, кому-нибудь кроме Яндекса это интересно?
IK> Делаем такую дорожку или нет? Надо решить достаточно быстро, так
IK> как для подготовки дорожки нам понадобится некоторое время.

1) конечно, интересно

2) заинтересованным стоит сформулировать доптребования. Например,
полезно выкачивать сайты максимально (поисковики обычно выкачивают
частично), а затем уже можно наложить ограничения либо при
формировании коллекции для раздачи либо при выполнении задания

3) если будет возможность - лучше сразу сделать коллекцию
размера большего чем сейчас планируется:

- это позволит сформировать коллекцию (коллекции) с лучшими свойствами

- это может позволить как-то сэкономить на оценке при расширении
коллекции в следующие годы

- и кроме того, я лично :) все-таки хотел бы попробовать
сформулировать задачу по тематическому краулеру (я изучаю вопрос)

4) кстати, наверное, можно распараллелить выкачку (если не найдется уже
готового)

--
С наилучшими пожеланиями,
Борис Добров
dobroff2003
Оргкомитет
 
Posts: 83
Joined: Fri May 23, 2003 9:52 am

romip.ru

Postby neigor » Wed Feb 14, 2007 1:40 pm

Добрый день,

после пинка Максима (спасибо!) у нас наконец-то есть http://romip.ru,
гораздо более доступный извне Рунет.

По-видимому romip.narod.ru довольно скоро совсем вымрет,
так что призываю всех с настоящего момента ссылаться на romip.ru.

Пожалуйста, если вы делали ссылки на romip.narod.ru -
обновите их на romip.ru.

-igor

On Sat, 10 Feb 2007, Max Gubin wrote:

> Еще раз всем привет.
> Я понимаю, что коллекции интересно, НО в конце прошлого года активно
> обсуждали хостинг сайта, переводили и т.д. Сейчас извне России даже показать
> ничего не возможно про РОМИП. Что-то жутко медленное и старое.
>
> Если нужно где-то "приложить руки" - давайте посвящу этому пару ночей, но
> надо это дело доделать.
>
> Максим
>
>
>
>
> Yahoo! Groups Links
>
>
>
>
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] romip.ru

Postby pb » Wed Feb 14, 2007 2:16 pm

Очень хорошо!

А можно там разместить сайт летней школы, если мы все-таки соберемся
ее проводить?

ПБ
pb
Оргкомитет
 
Posts: 72
Joined: Mon Feb 10, 2003 11:52 am

Re: [romip] romip.ru

Postby neigor » Wed Feb 14, 2007 2:55 pm

теоретически, конечно, да :)

практически, надо научиться это делать :)

Кстати, очень хочется таки, чтобы появился формальный проект
приглашения к участию в школе и описание схем поддержки мероприятия.
Так гораздо проще агитировать людей, которые могут дать на это денег

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

PreviousNext

Return to Общие вопросы

Who is online

Users browsing this forum: No registered users and 12 guests

cron