ситлистический анализ Веб-коллекции

ситлистический анализ Веб-коллекции

Postby pb » Tue Apr 06, 2004 12:36 pm

Добрый день,

я только сегодня смог ознакомился с дискуссией последних двух недель.

У меня появилось предложение по фактографическому поиску:
поиск по новостной коллекции "кто где когда"
Персоны - например, из яндексовского нини-индекса
http://www.yandex.ru/nini_polit.html
(их там больше 200)
Результат: для каждой персоны - начало-конец, место.
Потом проверяем для десяти персон. При оценке учитывается точность места (Урал
- Екатеринбург) и временных границ (на этой неделе - 3 марта).
Для этого новостная коллекция д.б. достаточно длинной (месяц-два перед
парламентскими выборами?)

+ я хотел поучаствовать в анализе коллекции - прогнать ее
через свой старый стилистический анализатор: каждый текст больше
определенного размера (например, 500 слов) относится к одному
из пяти жанров - разговорный, художественный, публицистический,
научный, официально-деловой).
Только боюсь, что смогу заняться этим только летом...
Проблема: как оценивать?! С помощью каталога? Или, м.б., "длинных" текстов не
так и
много + ограничиться одним жанром? Нужна формальная заявка?

--
Pavel
pb@...
pb
Оргкомитет
 
Posts: 72
Joined: Mon Feb 10, 2003 11:52 am

Re: [romip] ситлистический анализ Веб-коллекции

Postby neigor » Tue Apr 06, 2004 1:08 pm

Добрый день Павел,

> + я хотел поучаствовать в анализе коллекции - прогнать ее
> через свой старый стилистический анализатор: каждый текст больше
> определенного размера (например, 500 слов) относится к одному
> из пяти жанров - разговорный, художественный, публицистический,
> научный, официально-деловой).
> Только боюсь, что смогу заняться этим только летом...
> Проблема: как оценивать?! С помощью каталога? Или, м.б., "длинных" текстов
> не так и много + ограничиться одним жанром? Нужна формальная заявка?

Набор большой, так что текстов длиннее чем 500 слов много.

С оценкой тоже непонятно, можно попробовать ассесоров привлечь к выборочной
проверке некоторых ресурсов.

В любом случае, поскольку к срокам сдачи результатов (в июне) тут
не получится, то я предлагаю рассматривать это в качестве
пилотной инициативной дорожки. Мы по возможности постараемся
поддержать ее и результаты включим в труды РОМИП.
На очном семинаре это можно будет обсудить и если интерес будет,
то на основе накопленного опыта сделать дорожку в следующем году.

-igor


ее поддержать
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re[2]: [romip] ситлистический анализ Веб-коллекции

Postby pb » Tue Apr 06, 2004 1:36 pm

> Набор большой, так что текстов длиннее чем 500 слов много.
> С оценкой тоже непонятно, можно попробовать ассесоров привлечь к выборочной
> проверке некоторых ресурсов.
Если для коллекции сохраняется соотношение, которое наблюдалось для
случайных 2 млн. русскоязычных док-тов (см. нашу совм. с М. Масловым
статью для Диалога 2002), то ~5%, т.е. ~30 тыс. Предполагаю, что на
народе.ру научных документов (даже среди длинных) не больше 10%.
Сколько чел.-часов требуется для оценки 3000 док-тов?

> В любом случае, поскольку к срокам сдачи результатов (в июне) тут
> не получится...
Как сейчас формулируется задача анализа коллекции?
И каковы реальные сроки для разных дорожек?
Заявку-то делать? ;)

ПБ
pb
Оргкомитет
 
Posts: 72
Joined: Mon Feb 10, 2003 11:52 am

Re[2]: [romip] ситлистический анализ Веб-коллекции

Postby neigor » Tue Apr 06, 2004 3:08 pm

> Сколько чел.-часов требуется для оценки 3000 док-тов?

Это зависит от сложности постановки задания для ассесора.
Для поиска в прошлом году мы исходили из 60 оценок в час,
для классификации - 30/час.

Здесь возможно и быстрее.
Возможно правильнее ставить вопрос ассесору так -
"выберите один или несколько наиболее близких стилей для этого документа"
А в списке 5 жанров + "затрудняюсь сказать".

Задание посложнее, но не сильно. Да и проверять можно не все 3000, а
хотя бы часть.

> > В любом случае, поскольку к срокам сдачи результатов (в июне) тут
> > не получится...
> Как сейчас формулируется задача анализа коллекции?

это открытая дорожка, но пока заявок туда мало и задачи не совпадают.
Скорее всего она перейдет в разряд инициативных и каждый может попробовать
что-то свое и рассказать во время очнгой встречи.

Это своего рода демонстрация и если она заинтересует других, то оттуда
вырастут новые дорожки на будущее.

> И каковы реальные сроки для разных дорожек?

http://romip.narod.ru/ru/2004/schedule.html

мы немного опаздываем с раздачей данных,
но не сильно, так что срок подачи результатов тоже не будет сильно сдвинут.

> Заявку-то делать? ;)

Для инициативной дорожки она не обязательна (поскольку мы
предварительно не планируем выделение ресурсов на такие дорожки),
но если есть серьезное намерение, то конечно присылать -
мы на ее основе выложим информацию на сайте и возможно еще кто-то
присоединится.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm


Return to Вопросно-ответный и фактографический поиск

Who is online

Users browsing this forum: No registered users and 4 guests

cron