romip.ru

by **maslov70** » Mon Mar 29, 2004 5:55 pm

> Что мне пока не совсем понятно - это планируемые характеристики коллекции
> - количество сообщений, средний объем текста, структура сообщения
> (это временная метка, заголовок и текст?).

Мы сейчас имеем 10-15 тыс. сообщений в будний день. По-видимому, в течение
года нам реально договориться о формировании коллекции примерно с 20-30
агентствами, которые дадут ~50% всего потока сообщений.

За пару месяцев реально договориться с пятью-семью агентствами.

Желаемый временной интервал - дней 20-25 (причем не непрерывный, а разбитый
на несколько периодов, интересных с точки зрения событий - выборы, теракты,
стихийные бедствия и т.п.)

Итого, размер итоговой коллекции - порядка 100 тыс. собщений. Я предполагал,
что коллекция д.б. разбита на 4-6 частей, относящихся к разным временным
интервалам длиной по 3-7 дней.

Средний размер документа - порядка 1К. Документы больше 10К бывают редко. С
др. стороны, нередки короткие сообщения длиной меньше 0.3К.

О временных метках. У нас есть две метки:
- дата-время скачивания новостным роботом Яндекса (интервал скачивания -
10 минут)
- дата-время сообщения, указанная новостным агентством

Мы склонны больше доверять первой метке, поскольку, как показывает опыт, у
второй весьма возможны разные отклонения - как спорадические, так и
регулярные(типа не-перехода на летнее/зимнее время или даже перевода стрелок
на час вперед вместо часа назад); как ненамеренные , так и, возможно,
намеренные (с целью, например, дольше светиться в Яндекс.Новостях). Хотя,
конечно, и первая метка не лишена недостатков ...

MM > > Краткая формулировка основной задачи: "Построение иерархически
> > организованных кластеров".

IgN > То есть на вход участники получают набор небольших текстовых
документов с
> временными метками. В качестве выдачи выдают иерархию кластеров
> (кластер состоит либо из документов либо из подкластеров или можно и то и
> другое? может ли один документ быть в разных кластерах?)

Imho, большой нужды в отнесении документов ко многим кластерам нет (с
пользовательской точки зрения, во всяком случае).

С другой стороны, возможность относить докуметны к разным уровням иерархии
кажется полезной.
Типичная ситуация: сначала идут относительно короткие "исходное" сообщение и
сообщения о "новых поворотах" события, потом возникают документы типа
"газетной статьи" обо всем событии в целом. Документы из первой группы
целесообразно сгруппировать в субкластеры, а статьи и аналитику относить,
как правило, к "корню".

IgN > ... аннотирование всех документов в рамках РОМИП - это выглядит
слишком
> трудоемко.

Да, это трудоемкая задача. Но, imho, выполнимая - если ее автоматизировать и
правильно расставить приоритеты.

IgN > Или мы будем просить оценщика структурировать их вручную и назовем это
> эталоном?

Да, я имею в виду "эталонную" структуру событий.

MM > > понятие "эталонного
> > кластера" - imho, более неопределенное и произвольное, чем
> > понятие "эталонного ответа поисковой системы"; поэтому и есть желание
> > ввести третий (верхний) уровень кластеризации.
> > ...

>
IgN > Что-то мне это плохо понятно.
> можно об этом поподробнее?

ММ > > Если я что-то потерял
> > (с т. зр. "эталона"), не включив в основной сюжет, то я имею шанс
> > частично исправиться, дав ссылку в блоке "см. также".

Здесь я имел в виду текущий интерфейс сервиса news.yandex.ru и блок ссылок
"другие сюжеты на эту тему" в низу страниц сюжета.

> > На самом деле,
> > связи "см. также" не обязаны быть симметричными, т.е. это уже не
> > обязательно иерархия.

Т.е. из одного сюжета в другой связь "см. также" может присутствовать, но
подобной обратной ссылки может не быть.

Попробую пояснить свою мысль в терминах функции оценки качества алгоритмов.

На нижних уровнях иерархии неоднозначностей, по-видимому, должно быть
относительно мало (самые близкие док-ты - нечеткие дубли, на этом уровне
вообще все ясно). Поэтому можно надеяться на возможность _адекватной_
простановки соответствий между субкластерами тестируемой и эталонной
структуры.

Далее, допустим, мы согласились с вышеописанной схемой построения структуры
и есть двухуровневая иерархия кластеров + связи типа "см. также"

Пусть С - субкластер из тестируемой структуры, CE - соответствующий ему
субкластер эталонной структуры, D - документ из C.

Функция сравнения с эталоном с т. зр. точности может выглядеть, например,
так:

Penalty(D, С) = 0, если D принадлежит СЕ
Penalty(D, C) = 2 если D принадлежит родителю СE
Penalty(D, C) = 5 если D принадлежит кластеру, который связан с СE линком
"см. также"
Penalty(D, C) = 10 иначе

Аналогично - оценка полноты.

IgN > Имеет ли смысл делать честный новостной поиск? Как его тогда можно
> организовать (откуда взять запросы и т.п.)

Мне кажется, что поиск для новостного сервиса - это всего лишь
вспомогательная задача.

Процитирую Кришну Бхарата (
http://www.russ.ru/netcult/gateway/20031013.html ):

"Имея дело с новостями, было бы глупо ждать запроса - потому что это
новости. Они новые. Люди могут не знать, что такого важного и интересного
произошло, и задача оповестить их об этом лежит, собственно, на нас" (в
смысле Google News - MM)

С уважением
Михаил Маслов

by **vladimir_pleshko** » Mon Mar 29, 2004 6:12 pm

Добрый вечер всем!

Попытка развить тему...

Из варианта предложенного Михаилом, вроде, явно следует что
-сообщение, как правило, содержит ОДНУ новость,
-сообщения за заданный отрезок времени нужно собирать в кластеры,
-набор (иерархию) кластеров нужно как-то представить пользователю/оценщику
(опустим задачи синтеза метки кластера - названия новости, синтеза аннотации,
классификации события и т.п.).

На текущий момент основной вопрос - Иерархия или набор кластеров...
Вот как я его понимаю:
Если рассматривать события за длинный период (день/неделя) - то иерархия.
Пример: Пожар в манеже - загорелся, тушили, погибли пожарные, потушили, сказали,
что восстановят.
В этом случае под кластером нижнего уровня можно понимать "дублирующие" друг
друга сообщения. Под кластерами более высокого уровня - сообщения, относящиеся к
одному событию. Кластерами третьего уровня могут быть темы, регионы,
организации, персоны и т.п. (но это "бахрома").
Хотя под структурой события можно понимать и взаимодополняющую информацию от
различных источников и много чего еще.

Если, скажем, за неделю (зависит от количества сообщений - нужно, думаю, порядка
10000, чтобы руками выполнить задачу трудно было) все сообщения разметить по
событиям и дублям - получится вполне переиспользуемый корпус.

Если технически получится объединить/пересечь ответы систем, чтобы эффективно
организовать труд оценщиков, то дорожка выглядит весьма реальной для воплощения
в жизнь.

С уважением,
Владимир Плешко

by **neigor** » Mon Mar 29, 2004 7:37 pm

> Если, скажем, за неделю (зависит от количества сообщений - нужно, думаю,
> порядка 10000, чтобы руками выполнить задачу трудно было) все сообщения
> разметить по событиям и дублям - получится вполне переиспользуемый корпус.

10000 оценок - это довольно много, сильно больше точно не сделать
(даже не смотря на то, что многие новости по заголовкам можно
классифицировать).

но мне непонятно как будет ставится задача оценщику для каждой конкретной
новости. "Правильно ли она рубрицирована?" "Есть ли среди предложенных
кандидатов правильные рубрики?" - это не даст нам эталонного корпуса.

Я не вижу способа получить список всех тем, то есть оценщик должен будет
решать новая это тема или нет. Если каждый это будет делать самостоятельно,
то как это объединять? А для одного оценщика это почти нереальная задача.

> Если технически получится объединить/пересечь ответы систем, чтобы
> эффективно организовать труд оценщиков, то дорожка выглядит весьма
> реальной для воплощения в жизнь.

Это может помочь получить полный список всех рубрик?
Я подозреваю там реально будет масса мелких кластеров по 1-2 новости ..

-igor

by **vladimir_pleshko** » Tue Mar 30, 2004 3:14 pm

> 10000 оценок - это довольно много, сильно больше точно не сделать
> (даже не смотря на то, что многие новости по заголовкам можно
> классифицировать).
>
> но мне непонятно как будет ставится задача оценщику для
> каждой конкретной
> новости. "Правильно ли она рубрицирована?" "Есть ли среди предложенных
> кандидатов правильные рубрики?" - это не даст нам эталонного корпуса.

Кажется, настала пора как-то зафиксировать терминологию. Вот мой вариант
(упрощенный, два уровня иерархии):
Сообщение - Документ из корпуса;
Новость - Информация о каком-то событии, которая может быть описана в нескольких
сообщениях-дубликатах. Сообщения, составляющие новость, как правило, локальны во
времени.
Событие/Сюжет/Тема - Совокупность новостей, рассредоточенных во времени,
начинающихся с возникновением темы, и оканчивающиеся с потерей ее актуальности.

Не знаю, на сколько это все соответствует действительности...

Цель работы оценщиков:
1. Создать список Новостей
2. Сопоставить каждому Сообщению по одной Новости
3. Создать список Событий
4. Сопоставить каждой Новости по одному Событию

Михаил писал о связях "см. также". Не уверен, что это реально формализовать.
Кроме того, аналитику, идущую вслед за событием, можно также считать Новостью.

Теперь о реализации.

1 этап (список Новостей):
Каждая из систем предлагает свой список кластеров-дубликатов. Совпадающие и
являющиеся подмножествами друг друга кластера объединяются. Тривиальные (одно
Сообщение) - отбрасываются.
Оценщикам предлагается просматривать последовательности кластеров и браковать
неадекватные кластера (или удалять неадекватные сообщения и кластеров).
После этого формируется набор Новостей (каждому кластеру, включая тривиальные,
соотв. Новость). Название новости можно взять название наиболее частого
Сообщения или первого по времени Сообщения или самое короткое название
Сообщения.

2 этап (список Событий):
Подготовка начального списка Событий вручную (можно взять откуда-то).
Затем оценщики классифицируют Новости вручную (видят Новости и События за один
день и сопоставляют). Должна быть заведена рубрика "unclassified".
По окончании классификации анализируются документы из "unclassified",
пополняется список Событий, и оценщики повторяют классификацию на
"unclassified".
Можно провести несколько таких итераций. На любой из них можно остановиться и
удалить множество "unclassified" из тестового корпуса.

3 этап (оценка):
Нужно сравнить двухуровневую иерархию представленную системой с эталонной
иерархией.
Сделать это желательно полностью автоматически.
Для кластеров дубликатов можно посчитать полноту/точность.
Проблема - как сопоставить События с эталонными. Это можно сделать посчитав
мощности попарных пересечений множеств Сообщений соответствующих Событиям. Тогда
на уровне соответствия Сообщение-Событие также будут доступны полнота/точность.
Можно попытаться придумать метрики, связанные с временной шкалой...

С уважением,
Владимир Плешко

by **maslov70** » Tue Mar 30, 2004 4:25 pm

VP >Кажется, настала пора как-то зафиксировать терминологию.

Я немного конспектировал источники на тему TDT. Ниже - выдержка из статьи
"Topic detection and tracking evaluation overview" by JG Fiscus, GR
Doddington с основныим понятиями.

Эта статья - часть книги Topic detection and tracking (подзаголовок
Event-based information organization) под ред. J.Allan, изд-во Kluwer
Academic Publishers, 2002 г.

К сожалению, мне не удалось найти эту статью в свободно-доступном вебе. На
portal.acm.org есть ее аннотация.

=============
_Событие_ - нечто, происходящее в определенное время в определённом месте
наряду со всеми необходимыми причинами и всеми неотвратимыми последствиями.

Например, когда самолет американских морских пехотинцев срезал
кабель фуникулера в феврале 1998 г. в Италии, неотвратимым последствием
этого
было падение вагонов фуникулеров на землю и последующие повреждения;
следовательно, оба инцидента - часть одного и того же события.

_Сюжет_ в TDT (event-based topic in TDT) - событие или деятельность, вместе
со всеми
напрямую с ним связанными событиями и деятельностями.

Противопоставляются _темы_ и _событийные_сюжеты_
(subject-based topics vs event-based topics)

Констатируется, что событие - это частный случай темы. Т.е. любое событие
является темой, но не наборот. "Цветы, расцветающие в темноте" - предмет,
на который может ссылаться, например, система информационного поиска;
но это не может быть сюжетом, поскольку нет соответствующего события
реального мира.

Другая особенность сюжета - его привязка ко времени: любое событие случается
в некоторое фиксированное время. Кроме того, сюжет может меняться во
времени,
включая события, с ним тесно связанные, но как может показаться с первого
взгляда,
относящиеся к другой теме.

Например, тема "теракт в Оклахоме" начинается с (неверной) гипотезы о том,
что
это результат деятельности ближневосточных террористов. Через несколько дней
этот
тезис полностью исчезает из сюжета: он больше не обсуждается, поскольку уже

не является релевантным.
==============

Примечания

1. Мне нравится определение события.

2. Конечно, 'сюжет' для термина 'event-based topic' -- весьма произвольный
перевод. Может быть кто-нибудь предложит нечто более адекватное?

С уважением
Михаил Маслов

by **igor_kuralenok** » Wed Mar 31, 2004 5:09 pm

Igor Nekrestyanov wrote:

>>Если, скажем, за неделю (зависит от количества сообщений - нужно, думаю,
>>порядка 10000, чтобы руками выполнить задачу трудно было) все сообщения
>>разметить по событиям и дублям - получится вполне переиспользуемый корпус.
>>
>>
>
>10000 оценок - это довольно много, сильно больше точно не сделать
> (даже не смотря на то, что многие новости по заголовкам можно
> классифицировать).
>
>но мне непонятно как будет ставится задача оценщику для каждой конкретной
>новости. "Правильно ли она рубрицирована?" "Есть ли среди предложенных
>кандидатов правильные рубрики?" - это не даст нам эталонного корпуса.
>
>Я не вижу способа получить список всех тем, то есть оценщик должен будет
>решать новая это тема или нет. Если каждый это будет делать самостоятельно,
>то как это объединять? А для одного оценщика это почти нереальная задача.
>
>
На самом деле, можно пойти по пути дорожки поиска. взять 50-100 событий,
выделить 3-4 ключевых сообщения для этих событий и посмотреть куда они
попали в ответах систем... Если сообщения по одной теме попали в один
кластер -- здорово, в несколько -- плохо. Далее рассмотреть сообщения о
разных событиях и исследовать из распределение аналогичным образом. Это,
так сказать, бюджетный вариант :). Ежели ресурсов побольше, собираем
пулы из кластеров в которые попали наши ключевые ответы и проводим
аналогичную приведенной выше оценке только по большим данным.

>
>
>>Если технически получится объединить/пересечь ответы систем, чтобы
>>эффективно организовать труд оценщиков, то дорожка выглядит весьма
>>реальной для воплощения в жизнь.
>>
>>
>
>Это может помочь получить полный список всех рубрик?
>
>
Список всех рубрик по идее нам и не нужен.. Тут же возникнит проблема
гранулированности этих рубрик (пожар в манеже/упала крыша). В общем мне
кажтся не стоит привязываться в этой дорожке к построению иерархии (или
листов этой иерархии) по потоку, как это оценивать никто не знает, да и
делать это по-моему тоже никто не умеет однозначно (если это вообще
возможно)...

>Я подозреваю там реально будет масса мелких кластеров по 1-2 новости ..
>
>
IMHO надо ограничить размер минимального кластера ответа 10-20
сообщениями. Тут же появится "полнота" ответа ;).

IK

romip.ru

Re: [romip] О новостной дорожке

Re: [romip] О новостной дорожке

RE: [romip] О новостной дорожке

RE: [romip] О новостной дорожке

Re: [romip] О новостной дорожке

Re: [romip] О новостной дорожке

Who is online