romip.ru

by **neigor** » Fri Apr 08, 2005 9:19 am

У меня складывается впечатление, что процесс обсуждения
правил оценки задачи "разбиения на сюжеты" сходится,
но я пока не понимаю, сколько у нас желающих на эту постановку?

Желание участвовать в дорожке новостного поиска было высказано в заявках:
- RCO
- SearchInform
- Поиск@Mail.ru

Но интересна ли эта постановка или нет мне пока непонятно.
Прошу уточнить этот момент (как и высказаться других потенциальных желающих).

> Например, когда оцениваешь группу, скажем, из 10 достаточно
> близких новостных сообщений, то одну-две из первых --
> от первоисточников -- действительно прочитываешь.
> Но дальше нередко происходит не "чтение", а "сканирование"
> на предмет обнаружения сходства с первыми прочитанными.

Безусловно, процесс принятия решения убыстряется, но не до 0.
Но все равно просмотреть надо все и следовательно
есть среднее время на документ (все равно численная оценка скорости была с
потолка :).

> Об альтернативном пулинге.
> Igor > 1) Берем 1 "среднестатистическую" ленту (я так полагаю
> > ~50-100 сообщений в день и 400-1000 за неделю?)
>
> Если я правильно понял, лентой называется поток сообщений
> от одного агентства.
>
> Этой идея правильная - хорошее агентство дает
> более-менее полную картину,
> и мы можем зафиксировать все значимые события.
> Но из дальнейшего следует, что только
> этой лентой при построении эталона мы и ограничиваемся.
> Это как-то неправильно --
> зачем тогда оставшаяся часть коллекции?

При выделении сюжетов/событий, вообщем да.

А потом мы проверяем как сообщения из других потоков
"отображаются" на выделенные события.

Конечно так могут быть выделены не все события.
Это конечно минус, но может быть пропущено будет не так много?
В конце концов если останется много выделенных системами
событий, которые не пересекаются с "эталонными", то
эти события можно отдельно доценить.

Плюс:
мы делим оценку на два шага:
- выделение эталонного множества событий
- проверка качества классификации новостей по эталонным событиям

При использовании одного и того же эталона понятно как сливать оценки разных
асессоров (сильная/слабая релевантность).

А для того, чтобы построить единый эталон можно получить
его независимые варианты от двух асессоров,
потом их слить и попросить их же оценить разницу для разрешения конфликтов.

Кстати интересноб насколько субъективно разные люди выделяют события ...

> Потом, самое хорошее агентство в этой коллекции --
> это Регнум, который дает половину всего потока.
> Не спорю, экономия заметная. Но Регнум имеет специфику --
> уклон в региональные новости.
>
> Следующий -- 20% -- Росбалт. Тоже не очень типичный --
> северо-западный регион + много аналитики.
>
> Остальные еще более специфические, и по ним
> я бы уж точно не стал ...

Выбор хорошего потока действительно проблема.

> Igor > 2) Асессор просматривает эту ленту и сортирует сообщения по
> > замеченным им событиям. Так, как это делают с почтой,
> > раскладывая ее по папкам.
>
> Здесь наверное, тоже будет происходить "потеря контекста",
> поскольку сообщения
> не сгруппированы по сходству, просто отсортированы
> по времени, видимо. Но, конечно, эта потеря меньше,
> чем при попарном пулинге.

согласен.

поскольку задача ставится как "рассортировать", то можно пользователю
предложить несколько разных вариантов группировки (как это делает почтовый
клиент) - по времени, по "тематической схожести", ...

> Igor > 3) Все созданные папки с >2 документов считаем найденными
> > "идеальными сюжетами".
>
> Imho, все-таки не хватает еще одного этапа -- объединить
> некоторые сюжеты в более крупные -- если принять
> за основу определение события из TDT.

ok, папки могут быть вложенными.

В принципе асессор может сам решать когда заводить второй уровень
- сразу или потом. (больше двух уровней нам ведь не надо?)

Откладывание этого "на потом" может привезти к появлению слишком широких
папок первого уровня - когда пользователь заводит их для сюжета, а не
события.

> Кроме этого, я говорил, что можно ограничить
> объем работы, оценивая только самые важные события.

Кстати, получая эталонные события из одной ленты,
мы скорее всего не пропустим самые важные события,
но также захватим и какое-то количество менее важных.

> Igor > Проблемы тут следующие:
> > - Большие неделимые куски работы
> > (как минимум один асессор должен смотреть всю неделю,
> > а это 165 часов (человекомесяц))
>
> Я вот подумал, что неделю для первого этапа
> агломеративного построения вполне
> можно разделить -- по времени: условно
> говоря, одному -- понедельник-вторник,
> второму -- среда-четверг, третьему -- остальное.
> Сюжеты ведь в основном локализованы по времени.
> Ясно, что некоторые сюжеты пересекают такие границы.
>
> Но полного объединения сюжетов на первом этапе не
> требуется, окончательное "сшивание" сюжетов
> все равно будет на втором.

да, это может сработать если
выделение событий окажется не слишком субъективным и разные асессоры не
будут их выделять сильно по разному.

Кстати, сшивание событий может оказаться дорогим,
ведь тому кто будет их сшивать придется познакомиться
с событиями за другие дни (=> прочесть сколько-то сообщений из каждого
кластера)

-igor

by **neigor** » Mon Apr 11, 2005 11:52 am

> У меня складывается впечатление, что процесс обсуждения
> правил оценки задачи "разбиения на сюжеты" сходится, но я
> пока не понимаю, сколько у нас желающих на эту постановку?
>
> Желание участвовать в дорожке новостного поиска было
> высказано в заявках:
> - RCO
> - SearchInform
> - Поиск@Mail.ru
>
> Но интересна ли эта постановка или нет мне пока непонятно.
> Прошу уточнить этот момент (как и высказаться других
> потенциальных желающих).

Подтверждаю согласие с постановкой. Хотя стоило бы дать какое-то формальное
описание, чтобы не было разночтений.

Ниже, я попытаюсь резюмировать обсуждение.
Если ни у кого не появится возражений, можно будет создать формальный текст.

Из того, что было написано в форуме я понял, что система должна выявлять три
типа связей между сообшениями/событиями/сюжетами:
1. отношение к одному событию (информационные дубли или почти дубли)
2. отношение к одному сюжету (последовательности событий, объединенных
причинно-следственными связями)
3. дополнительная информация к сюжету или событию(?) (нечто ассоциативно
связанное или "см.также")

Допускаем ли мы, что сообщение может относиться к нескольким событиям? (лучше -
нет)
Много ли в коллекции сообщений на несколько тем одновременно? (хотелось бы -
нет)
Не хочется усложнять задачу в первый год.

Допускаем ли мы ассоциативную связь не только между сюжетами, но и между
событиями?
Для меня это трудный вопрос. Если для связей типа 1 и 2 получается разбиение на
непересекающиеся кластера, то для связей типа 3 - кластера будут пересекаться.
Предлагаю ассоциативные связи в этом году не рассматривать.

Итого, получаем, что множество всех сообщений требуется собрать в иерархию
сообщение-событие-сюжет. На каждом уровне иерархии мы имеем разбиения сообщений
на непересекающиеся кластера.
Эти разбиения мы собираемся сравнивать с эталонными, порождаемые эталонной
иерархией.

Сейчас идет обсуждение не постановки задачи, а именно способа построения
эталонной иерархии.

Я согласен с Михаилом, что в конце концов нужно получить иерархию - событие,
сюжет.
Однако при ограниченном количестве ресурсов гораздо важнее выглядит разбиение
сообжений на сюжеты.
Потом, если хватит времени или появятся ресурсы, внутри сюжетов можно провести
разбиение на события и оценить ответ систем и на качество отнесения сообщений к
одному событию (системы должны будут выдавать иерархию, а мы оценим, что успеем
:-).
Если мы зациклимся на событиях, то будет риск сведения дорожки к поиску похожих
документов.

К сожаленью, пока у меня нет более конструктивных предложений.

С уважением,
Владимир Плешко

by **maslov70** » Mon Apr 11, 2005 7:23 pm

> Из того, что было написано в форуме я понял, что система должна выявлять
три
> типа связей между сообшениями/событиями/сюжетами:
> 1. отношение к одному событию (информационные дубли или почти дубли)
> 2. отношение к одному сюжету (последовательности событий, объединенных
причинно-следственными связями)

Не совсем так. Под терминами 'событие' и 'сюжет' я понимал явления
совершенно разной природы.

Я пытался не изобретать велосипед, а основываться на опыте предшественников.
В нашем случае это TDT (возможно, есть и другие, которые мне не известны)

'Событию' в TDT соответствует понятие 'event'. Ему в там дается такая
дефиниция:

Событие - нечто, происходящее в определенное время в определённом месте
наряду со всеми необходимыми причинами и всеми неотвратимыми последствиями

'Сюжету' в TDT соответствует понятие event-based topic (можно предложить
более близкие, но и более длинные
варианты перевода "тема, основанная на событии", "тема, порожденная
событием" и т.п.)

Т.е, главная разница в том, что 'событие' -- это нечто произошедшее в
реальном мире,
а 'сюжет' -- это, грубо говоря, 'набор новостных сообщений, посвященных
соответствующему событию'.
Более эстетски можно сказать, что 'сюжет -- это отражение события в
медиапространстве'.

Повторюсь о том, что термин 'сюжет', как перевод для event-based topic,
по-видимому, неудачен, и прошу сообщество подумать над альтернативным.

Если же оперировать этим термином и говорить об иерархии, то можно
предложить "подсюжет" и "сверхсюжет".
Тогда соответствующие понятия из реального мира -- что-то типа "подсобытий"
и "сверх-" или "мегасобытий".

> 3. дополнительная информация к сюжету или событию(?) (нечто ассоциативно
связанное или "см.также")

К тому и к другому :-)

.
Т.е. "см.также" я предлагаю отнести не к сообщению, а к сюжету (а сюжету
соответствует событие в реальном мире)

> Допускаем ли мы, что сообщение может относиться к нескольким событиям?
(лучше - нет)

Imho, множественное отнесение -- это редко нужно на практике.

> Много ли в коллекции сообщений на несколько тем одновременно? (хотелось
бы - нет)

Есть регулярное явление, которое внутри Я.Новостей называется
'дайджестами' -- когда в одном документе
кратко описывается несколько событий. Например, новости спорта на Радио
Свобода:
http://www.svoboda.org/ll/sport/

Такие вещи неприятны для новостных агрегаторов, поскольку нередко вызывают
ошибочные склейки. И их трудно разметить вручную достаточно полно и точно.
Поэтому я предлагаю к ним относиться как к неизбежному и весьма вероятному
злу.
Я однако, еще не посмотрел, насколько они распространены в текущей выборке.

> Сейчас идет обсуждение не постановки задачи, а именно способа построения
эталонной иерархии.

Постановку задачи (и терминологию) тоже было бы неплохо до-обсудить
-- для того, чтобы наша постановка задачи и терминология не была слишком
экзотической для "внешнего мира",
имела понятные и однозначные трактовки
-- для того, чтобы объяснить асессорам, на основании чего они должны
принимать решения по следующим вопросам:
"сообщение принадлежит - не принадлежит сюжету", "не разбить ли этот
сюжет на два",
"не объединить ли эти два сюжета в один"
и т.п.

> Я согласен с Михаилом, что в конце концов нужно получить иерархию -
событие, сюжет.
> Однако при ограниченном количестве ресурсов гораздо важнее выглядит
разбиение
> обжений на сюжеты.
> Потом, если хватит времени или появятся ресурсы, внутри сюжетов
> можно провести разбиение на события и оценить ответ систем и на
> качество отнесения сообщений к одному событию (системы должны будут
> выдавать иерархию, а мы оценим, что успеем :-)

.

С точностью до терминологии я согласен с такой постановкой вопроса.
Тем более, что провести _содержательное_ разбиение внутри сюжетов
-- довольно нетривиальная и трудоемкая задача.

Только я хотел бы даже в первом прогоне ввести связь 'см. также' между
сюжетами
(по кр. мере, для самых важных сюжетов).

Это, во-первых, поможет сделать оценку работы систем-участников менее
жесткой, что мне кажется важным.
Во-вторых, imho, это не очень трудоемко, поскольку объектов (сюжетов)
заметно меньше, чем сообщений.

С уважением
Михаил

Yahoo! Groups Links

by **vladimir_pleshko** » Wed Apr 13, 2005 10:45 am

> Не совсем так. Под терминами 'событие' и 'сюжет' я понимал
> явления совершенно разной природы.

Я тоже. Опеределения события я дать не пытался. На интуитивном уровне
все понятно, и опеределение события я готов принять.

> Событие - нечто, происходящее в определенное время в
> определённом месте наряду со всеми необходимыми причинами и
> всеми неотвратимыми последствиями

С сюжетом у меня получилось определение, не соотвествующее пониманию
Михаила.

> 'Сюжету' в TDT соответствует понятие event-based topic

Далее, очередная попытка нащупать более строгую формулировку того,
что мы собираемся делать.

> Т.е, главная разница в том, что 'событие' -- это нечто
> произошедшее в реальном мире, а 'сюжет' -- это, грубо говоря,
> 'набор новостных сообщений, посвященных соответствующему событию'.
> Более эстетски можно сказать, что 'сюжет -- это отражение
> события в медиапространстве'.

Т.о. есть иерархия (гетерархия) событий реального мира (по временной и
территориальной вложенности, по понятиям, связанным отношением общее-частное).
События представлены в сообщениях СМИ. Анализируя эти сообщения, система
должна восстановить узлы этой струтуры, которые мы называем сюжетами (под-,
над-, сверх-, мега- сюжетами).

В нашем случае мы восстанавливаем только узлы нижнего уровня -
объединяем в кластер сообщения, посвященные одному событию в реальном мире.
Сообщения далеко не обязательно будут чистыми дублями или почти дублями.
Как правило, эти сообщения укладываются в достаточно короткий временной
интервал - от нескольких минут до нескольких часов.

Такую постановку я также могу принять. Это соответствует основной функции
новостного робота.

Выделение надсюжета (надсобытия) относится к области прагматики - наших
знаний о реальном мире. Человек связывает сюжет с объектом,
с предикатом, с георафическим наименованием и т.п. (причем,
как по одному параметру, так и по совокупности).
Полагаю, что любое определение не будет достаточно строгим. То же самое
касается и инструкций для ассессоров.

Ведение надсобытий имеет место на новостных сайтах, где обработка ведется
вручную. Здесь кстати есть небольшая терминологическая путаница.
Новости по теме - либо из одного узла тематического классификатора, либо
относящиеся к одному надсобытию. Вообще термин "тема" - довольно скользкий.

> Повторюсь о том, что термин 'сюжет', как перевод для
> event-based topic, по-видимому, неудачен, и прошу сообщество
> подумать над альтернативным.

В данном случае event-based topic - это просто метка, название, текстовое
обозначение события (надсобытия и т.д.). В постановке задачи можно и не
вводить этот термин и оперировать термином "событие". Требование от систем
синтеза метки события также не обязательно - не понятно как оценивать.

> > Допускаем ли мы, что сообщение может относиться к
> нескольким событиям?
...
> Поэтому я предлагаю к ним относиться как к неизбежному и
> весьма вероятному злу.
> Я однако, еще не посмотрел, насколько они распространены в
> текущей выборке.

Предлагаю допускать отнесение сообщения к нескольким событиям. Пусть
кластера пересекаются. На вычисление оценок это не повлияет.
Трудности будут у ассессоров.

> Только я хотел бы даже в первом прогоне ввести связь 'см.
> также' между сюжетами (по кр. мере, для самых важных сюжетов).
>
> Это, во-первых, поможет сделать оценку работы
> систем-участников менее жесткой, что мне кажется важным.
> Во-вторых, imho, это не очень трудоемко, поскольку объектов
> (сюжетов) заметно меньше, чем сообщений.

При построении эталонного массива событий перевязать их ассоциативными
связями действительно не очень трудоемко. Но возникает много вопросов.
Будем ли мы транзитивно замыкать связи в кластера? Если же мы допустим
пересечение кластеров, то ассессоры при построении эталонного массива
должны будут создать перечень групп событий... Стоило бы этот момент
проговорить.

Как оценивать результаты систем. Мы можем только на уровне сообщений -
есть между ними ассоциативная связь (через событие) или нет.

В итоге получается две номинации оценок разбиений множества сообщений на
кластера:
1. по описанию одного события,
2. по ассоциативной связанности внутри кластера.

Между разбиениями есть связь: если два сообщения попадают в один кластер по
критерию 1, то они попадают в один кластер по критерию 2.

Против этого у меня возражений нет.

С уважением,
Владимир Плешко

by **maslov70** » Sat Apr 16, 2005 11:51 pm

Прошу прощения за паузу -- я задумался о характере
"ассоциативных связей между сюжетами" aka "связь типа
"см. также" (по-видимому, это еще один неудачный термин)

Новостные сайты нередко дают на странице с сообщением блок ссылок такого
типа.

При этом связи могут быть:
-- по тематической близости, напр. после сообщения про футбольный матч
очередного тура
ссылаются на результаты других матчей этого же тура
-- близость по предмету, напр. в сообщении про конкретную организацию
ссылаются
на сообщения про эту же организацию (несмотря на то, что может не быть
ни причинно-следственной, ни даже тематической связи)
и т.п.

Возможно, примерно такие связи и имеет в виду Владимир, когда говорит об
отношениях типа 'общее-частное':
> есть иерархия (гетерархия) событий реального
> мира (по временной и территориальной вложенности,
> по понятиям, связанным отношением общее-частное).

> События представлены в сообщениях СМИ.
> Анализируя эти сообщения, система
> должна восстановить узлы этой струтуры,
> которые мы называем сюжетами (под-,
> над-, сверх-, мега- сюжетами).

Мне, однако, представляется, что иерархию сюжетов надо строить
_только_ на основе "событийных" (т.е.
"причинно-следственно-пространственно-временных")
связей. И не следует основываться на тематической, предметной и прочих
типах близости,
хотя их можно принимать во внимание как дополнительные факторы.

Т.е. связи _между_ сюжетами в дорожке должны быть _подобными_
связям _внутри_ сюжетов, и таким образом структура сюжетов
может оказаться самоподобной, т.е. фрактальной.

Например: война состоит из кампаний, кампания состоит из сражений,
сражения состоят из ... эпизодов, что ли -- и все это
события разных масштабов, объединенных "событийными" связями.
(Ну и с другого конца, есть точка зрения, что "история человечества состоит
из войн" ...)

Поясню мысль о "событийности" связей, сравнив "наш" корпус и корпус TDT.

В TDT-2 для построения эталона взят промежуток времени
в шесть месяцев -- январь-июнь 1998г.
(четыре текстовых источника, порядка 70 тыс. сообщений)

Сообщения о 'деле Клинтон-Левински', пришедшемся на тот период,
их асессоры, по-видимому, объединили в один сюжет.
Продолжался этот скандал, как помнится, несколько месяцев,
причем состоял он из нескольких стадий, отделенных
друг от друга временнЫми паузами (доклад Старра, судебное
разбирательство, процедура импичмента ... ).

Во временнЫх масштабах, принятых в "популярных" новостных
агрегаторах (гугль ньюз, яндекс.новости, новотека),
такого бы скорее всего не случилось --
характерная продолжительность сюжетов умещается в сутки.
И они бы скорее всего "трактовали" бы дело Клинтона-Левински
как цепь взаимосвязанных, но разнесенных по времени событий.

Возможно, дело в том, что "популярные" агрегаторы ориентируются
на массовую аудиторию и, следовательно, на формат ежедневных новостей.
А TDT ориентируется на профессиональных аналитиков
которым важен анализ в бОльших временных масштабах.

Таким образом, во главу угла imho надо поставить причинно-следственный
характер связей, и это будет нас (и гугль тоже ;-) ) объединять с TDT.
И разница между подходами в обработке корпуса должна состоять в основном
в несколько разных трактовках понятия "... произошло в конкретное время
...",
и, возможно, "... в конкретном месте ..."

Несколько иллюстраций на тему "событийности" связей.
--------

1. Пример из введения книги про TDT, иллюстрирующий
неоднозначность трактовки дефиниции 'события'.
Автор спрашивает, следует ли считать совершение преступления,
поимку преступника и суд над ним одним событием, или
тремя разными. Мой вариант ответа -- зависит от времени,
когда они случились. Если, например, преступника поймали
сразу после совершения преступления, то эти две стадии следует
скорее считать одним событием. Если же нет,
то это разные события, но 'ассоциативная' связь необходима.
Ответ же асессоров из TDT для случая с Клинтоном --
все три стадии (или две последних?) объединить ;-)

2. Траур по кончине папы и перенос в связи с этим очередного
тура футбольного чемпионата Италии я бы трактовал
как разные события, котрым должны соответствовать
разные сюжеты. Но 'ассоциативаная' связь здесь нужна --
есть общность причины-следствия, времени и пространства.
Несмотря на то, нет общности темы -- рубрики Религия(?)
и Спорт -- совершенно разные.

3. С другой стороны (смотрю в текущие новости) между сюжетами
"Олег Табаков остается на посту художественного руководителя МХАТа"
и
"Александр Домогаров выступит в главной роли в музыкальном спектакле"
'ассоциативной' связи imo, не должно быть, хотя есть
общность темы (и довольно узкой -- Культура/Театр), времени
и даже в каком-то смысле места (центр Москвы ;-) ).
Абсолютно нет причинно-следственной связи, и это главное.
-------

Что касается тематической и предметной типов связей, то я предлагаю считать
их
объектом рассмотрения других дорожек на новостном корпусе.

Возможно, в каком-то смысле, предметные связи рассматриваются
в фактографической дорожке.

А тематические связи -- это для дорожки "тематическая классификация
новостных документов"

Несколько комментариев -- с точки зрения вышеизложенного.

ВП > Выделение надсюжета (надсобытия)
ВП > относится к области прагматики - наших
ВП > знаний о реальном мире. Человек связывает
ВП > сюжет с объектом, с предикатом, с георафическим
ВП > наименованием и т.п. (причем,
ВП > как по одному параметру, так и по совокупности).

Imho в этой дорожке сюжет любого уровня/масштаба (под- или над- ... )
должен связываться с событием соответствующего уровня/масштаба.

ВП > Полагаю, что любое определение не будет
ВП > достаточно строгим. То же самое касается и инструкций
ВП > для ассессоров.

Если основываться на принципе "событийности" связей,
как изложено выше, то определение будет более строгим,
и принятие решений асессорами будет более однозначным
и простым.

ВП > Ведение надсобытий имеет место на
ВП > новостных сайтах, где обработка ведется
ВП > вручную.

Imho, как правило основное предназначение
перекрестных ссылок на новостных сайтах --
как можно дольше задержать посетителя на сайте,
увеличить "количество хитов в статистике посещений".
Они вовсе не задумываются о типах связей, просто дают
все, что так или иначе подходит "по теме"
(а то и вовсе все подряд)

ВП > Здесь кстати есть небольшая
ВП > терминологическая путаница. Новости по теме - либо
ВП > из одного узла тематического классификатора, либо
ВП > относящиеся к одному надсобытию.

На тематических связях (в смысле тематических рубрик каталогов) в данной
дорожке я предложил не основываться.

ВП > При построении эталонного массива
ВП > событий перевязать их ассоциативными
ВП > связями действительно не очень трудоемко.
ВП > Но возникает много вопросов.
ВП > Будем ли мы транзитивно замыкать связи в кластера?
ВП > Если же мы допустим пересечение кластеров,
ВП > то ассессоры при построении эталонного массива
ВП > должны будут создать перечень групп событий...
ВП > Стоило бы этот момент проговорить

Если исходить из 'принципа самоподобия' событий,
то целесообразно считать, что надсюжеты между собой
не пересекаются -- так же, как и сюжеты.

Тогда то, что мы будем считать надсюжетами,
с т.зр. TDT будет скорее сюжетами. У них ведь просто
временной масштаб больше (и источников меньше),
а остальное все так же.

С уважением
Михаил

by **vladimir_pleshko** » Mon Apr 18, 2005 6:05 pm

Длинный постинг получается. Приведу сначала тезисы.
-------------------
1. Согласен, что выделение сюжетных линий (ассоциативных связей) - это не
тематическая классификация (кластеризация).
2. Простое и емкое определение сюжетной линии при помощи описания связей между
событиями дать очень трудно. Сюжетные линии имеют фреймовую структуру - между
слотами фреймов могут быть любые связи.
3. Соглашусь на любое интуитивно понятное короткое определение для ассессоров,
сопровожденное несколькими примерами.
4. Согласен с требованием, что кластера событий, объединенных в сюжетные линии,
не должны пересекаться.
-------------------

> Мне, однако, представляется, что иерархию сюжетов надо
> строить _только_ на основе "событийных" (т.е.
> "причинно-следственно-пространственно-временных")
> связей. И не следует основываться на тематической,
> предметной и прочих типах близости, хотя их можно принимать
> во внимание как дополнительные факторы.

Ничто не мешает добавить в мое опеределение отношения "часть-целое",
"причина-следствие" и т.п. ... или убрать оттуда какие-то типы отношений. От
этого оно точнее не станет, но будет очень похожим на приведенное выше.

> Мне, однако, представляется, что иерархию сюжетов надо
> строить _только_ на основе "событийных" (т.е.
> "причинно-следственно-пространственно-временных")
> связей. И не следует основываться на тематической,
> предметной и прочих типах близости, хотя их можно принимать
> во внимание как дополнительные факторы.

Честно говоря, я тоже не хотел заниматься тематической классификацией (точнее,
кластеризацией) событий или их группировкой по найденных в них упоминаниях об
объектах.
Для этого есть другие дорожки.

> Т.е. связи _между_ сюжетами в дорожке должны быть
> _подобными_ связям _внутри_ сюжетов, и таким образом
> структура сюжетов может оказаться самоподобной, т.е. фрактальной.

В смысле наличия связей - согласен. Но типы связей будут различаться от сюжета к
сюжету, от уровня к уровню (иерархии).

> Например: война состоит из кампаний, кампания состоит из
> сражений, сражения состоят из ... эпизодов, что ли -- и все
> это события разных масштабов, объединенных "событийными" связями.
> (Ну и с другого конца, есть точка зрения, что "история
> человечества состоит из войн" ...)

Попытаюсь обобщить свое видение. Существуют различные социальные явления.
Например, войны, споры и дела вокруг хоз. субъектов, громкие преступления,
катастрофы, смерти, эпидемии гриппа. Их масштаб как пространственный, так и
временной может быть разным. Не это важно. Важно то, что эти явления протекают
каждое в своем жанре, по типовому сценарию с небольшими вариациями. Эти сценарии
можно представить себе как наборы слотов. Если событие попало, в какой-то из
слотов, то порождается какой-то из сценариев (может быть несколько сценариев).
Следующие события могут пополнять уже порожденные сценарии, а также порождать
новые. Кроме того, сами сценарии можно помещать в слоты других сценариев. Связи
между слотами могут быть произвольными. У каждого сценария есть набор
параметров, совпадение с которыми является необходимым условием попадания
события в слот.

В этом, наверное, состоит "подобие" и "событийность".

Сколько сценариев может быть? Думаю, для достижения промышленного качества
достаточно несколько сотен, возможно, тысяч. Главное - их при наличии некоторого
гипотетического инструментария и удачно подобранного формализма можно достаточно
быстро подготовить. Затем - актуализировать по мере появления прецедентов, как
любые другие словари, справочники, классификаторы.

> Сообщения о 'деле Клинтон-Левински', пришедшемся на тот
> период, их асессоры, по-видимому, объединили в один сюжет.
> Продолжался этот скандал, как помнится, несколько месяцев,
> причем состоял он из нескольких стадий, отделенных друг от
> друга временнЫми паузами (доклад Старра, судебное
> разбирательство, процедура импичмента ... ).

Сценарий - скандал вокруг президента США (скандал вокруг vip-персоны в США).
Слоты - вброс информации, слушания, заявления, импичмент, суд и т.п.

Для других стран характерны другие сценарии.

> 1. Пример из введения книги про TDT, иллюстрирующий
> неоднозначность трактовки дефиниции 'события'.
> Автор спрашивает, следует ли считать совершение преступления,
> поимку преступника и суд над ним одним событием, или тремя
> разными. Мой вариант ответа -- зависит от времени, когда они
> случились. Если, например, преступника поймали сразу после
> совершения преступления, то эти две стадии следует скорее
> считать одним событием. Если же нет, то это разные события,
> но 'ассоциативная' связь необходима.

Сценарий - громкое уголовное преступление.
Слоты - преступление, сообщения о ходе расследования, розыск, поимка, суд.

> 2. Траур по кончине папы и перенос в связи с этим очередного
> тура футбольного чемпионата Италии я бы трактовал как разные
> события, котрым должны соответствовать разные сюжеты. Но
> 'ассоциативаная' связь здесь нужна -- есть общность
> причины-следствия, времени и пространства.
> Несмотря на то, нет общности темы -- рубрики Религия(?) и
> Спорт -- совершенно разные.

Сценарий - смерть vip-персоны.
Слоты - сообщения о состоянии здоровья, смерть, похороны, поломники, траур,
выбор преемника.

> Что касается тематической и предметной типов связей, то я
> предлагаю считать их объектом рассмотрения других дорожек на
> новостном корпусе.

Согласен.

> Возможно, в каком-то смысле, предметные связи рассматриваются
> в фактографической дорожке.

В фактах - синтаксис и семантика. В сюжетных линиях - элементы прагматики.

> А тематические связи -- это для дорожки "тематическая
> классификация новостных документов"

Еще раз согласен!

> Imho в этой дорожке сюжет любого уровня/масштаба (под- или
> над- ... ) должен связываться с событием соответствующего
> уровня/масштаба.

Если говорить о реальных причинах, то - видимо, да. Однако очень часто у событий
есть повод, уступающий по масштабу (инспекции ООН - начало войны в Ираке).

> Если основываться на принципе "событийности" связей, как
> изложено выше, то определение будет более строгим, и принятие
> решений асессорами будет более однозначным и простым.

В интуитивно понятном определении, конечно, не стоит упоминать о фреймовой
структуре сюжетных линий. Соглашусь, если в нем будут присутствовать
"причинно-следственный", "пространственно-временной" + дано несколько примеров.

> Imho, как правило основное предназначение перекрестных ссылок
> на новостных сайтах -- как можно дольше задержать посетителя
> на сайте, увеличить "количество хитов в статистике посещений".
> Они вовсе не задумываются о типах связей, просто дают все,
> что так или иначе подходит "по теме"

Но встречаются и хорошие подборки... Теоретически, выделение сюжетных линий
можно ставить как задачу обучения с учителем. Построить фрейм или что-угодно по
нескольким подборкам для похожих сюжетных линии. Затем - выделить сюжетные линии
данного типа в тестовом новостном потоке.

> ВП > Будем ли мы транзитивно замыкать связи в кластера?
> ВП > Если же мы допустим пересечение кластеров, ВП > то
> ассессоры при построении эталонного массива ВП > должны будут
> создать перечень групп событий...
> ВП > Стоило бы этот момент проговорить
>
> Если исходить из 'принципа самоподобия' событий, то
> целесообразно считать, что надсюжеты между собой не
> пересекаются -- так же, как и сюжеты.
>
> Тогда то, что мы будем считать надсюжетами, с т.зр. TDT
> будет скорее сюжетами. У них ведь просто временной масштаб
> больше (и источников меньше), а остальное все так же.

Пускай не пересекаются. Итак все запутано.

Отмечу только, что пересечение кластеров не противоречит свойству самоподобия.
Ведь оно может выполняться в разных измерениях (подпространствах).

С уважением,
Владимир Плешко

by **neigor** » Tue Apr 19, 2005 6:58 am

> 3. Соглашусь на любое интуитивно понятное короткое определение для
> ассессоров, сопровожденное несколькими примерами.

я тоже хотел это написать.

первично ведь что - насколько пользователю удобно, верно?

поэтому важно, чтобы асессор понимал смысл задачи и видел ее
полезность. То есть вопрос асессору всегда выглядит примерно так
- если бы у тебя была ТАКАЯ потребность в таком контексте
ПОЛЕЗНО/УМЕСТНО было бы такая информация?

Вместо требования упорядочивать наборы ТОЛЬКО таким образом,
можно попробовать дать асессору больше свободы, но заставлять
аргументировать решение. Аргументация может быть произведена
путем проставления типа связи (тематическая ассоциация, т.п.)

Конечно так растет влияние субъективности и вероятно увеличивается
расхождение между результатами разных асессоров. Но может это и не
смертельно?

-igor

by **dobroff2003** » Mon Apr 25, 2005 8:10 am

Коллеги!

я с большим интересом следил за дискуссией по поводу новостной
дорожки.
Дискуссия как-то прекратилась, но, по-моему, не окончилась
конструктивной
методикой оценки.

Предварительные замечания.
Мы пока еще не приняли окончательного решения участвовать/не участвовать
в
этой дорожке.
Однако, уже в течение некоторого времени имеем доступ к коллекции
Яндекс-Новости.

Я согласен:
1) с группированием новостных сообщений вокруг событий (а не тем) - как
единство одного действия (не обязательно места - рассмотрим какой-нибудь
визит Буша по разным странам)
2) события могут входить в иерархию

Но не согласен:
- что существует "образцовое"(эталонное) деление новостных сообщений

В любом случае нельзя для целей РОМИП принять за такое - деление Яндекса
- оно
построено на большей коллекции (и применение тех же алгоритмов на
усеченной
коллекции неминуемо приведет к другим результатам).

У меня есть стойкое убеждение, что равно возможно РАЗНЫЕ деления
новостных
сообщений
(особенно сточки зрения разного группирования в иерархии), которые будут
удовлетворять пользователя.

Это казалось бы влечет вывод о необходимости попарного сранения, как
предлагал Илья.
НО, кажется, можно предложить более конструктивную методику.

0 - сдаются новости, сгруппированные в кластеры,
причем следует обратить особое внимание на аннотацию кластера
(здесь узловой вопрос - как представлять кластер - возможны разные
стратегии - самая простая - "главное" сообщение - а м.б.
когда-нибудь придем к
multidocument summarization)

1 - асессор получает для оценки новостное сообщение (выбранное случайно
или
в соответствии со стратегией оценки)

2 - для этого сообщения получает перечень всех кластеров (присланных
всеми
системами), содержащих данное сообщение

3 - асессор ставит бальную оценку "близости" сообщения к видимым
кластерам -
например, от 0 до 5-10

При таком способе оценки можно предъявить асессорам только небольшое
количество "пар".

Далее два основных (и вообще говоря связанных) вопроса:
i) отбор пробных сообщений - по-видимому, часть стоит отбирать случайно,
а
часть должна обеспечивать покрытие 2-3 событий (при этом лучше не самых
частотных - иначе возникает соблазны подкрутить, т.к. самые частотные
определяются на раз)

ii) как считать, чтобы дискриминировать два полярных случая:
- делать кластерами каждое сообщение (если два пробных сообщения
попадают
правильно в один кластер - то бонус за это)
- делать "один" кластер, объединяющий максимальное количество сообщений
(для
этого вводятся баллы за близость)

Борис

by **maslov70** » Tue Apr 26, 2005 1:45 pm

Борис, приветствую в обсуждении новостной дорожки :-)

> я с большим интересом следил за дискуссией по поводу новостной
> дорожки.
> Дискуссия как-то прекратилась, но, по-моему, не окончилась
> конструктивной
> методикой оценки.

Дискуссия не прекратилась, просто я торможу из-за проблем с почтой и яху.

Мне казалось, что мы пришли к согласию по принципиальным вопросам
и обсуждаем некоторые частности -- типа "какие типы связей считать
основными".

> Я согласен:
> 1) с группированием новостных сообщений вокруг событий (а не тем) - как
> единство одного действия (не обязательно места - рассмотрим какой-нибудь
> визит Буша по разным странам)
> 2) события могут входить в иерархию
>
> Но не согласен:
> - что существует "образцовое"(эталонное) деление новостных сообщений

С последним я тоже не согласен.

Точнее, с тем, что существует _единственное_ "образцовое"(эталонное) деление
новостных сообщений.

Поэтому и предлагается построить несколько версий эталона -- для верхних
уровней иерархии.

>
> В любом случае нельзя для целей РОМИП принять за такое - деление Яндекса
> - оно
> построено на большей коллекции (и применение тех же алгоритмов на
> усеченной
> коллекции неминуемо приведет к другим результатам).

Дело же не в алгоритмах построения образца, а в самом образце. Неважно,
какими способами его построят.

Кроме того, я оговаривал, что деление на кластеры, переданное в коллекции
для стипендий,
не годится для построения эталона. Для построения эталона лучше взять
более маленькие кластеры (с большей пороговой близостью алгоритма, условно
говоря).

>
> У меня есть стойкое убеждение, что равно возможно РАЗНЫЕ деления
> новостных
> сообщений
> (особенно сточки зрения разного группирования в иерархии), которые будут
> удовлетворять пользователя.

Основная идея агломеративного построения эталона состоит
в том, что на нижних уровнях иерархии неоднозначность мала и малозначима.
Поэтому там возможно распараллеливание оценок. А для более высоких
уровней уже необходимо сделать несколько версий структуры.

>
> Это казалось бы влечет вывод о необходимости попарного сранения, как
> предлагал Илья.
> НО, кажется, можно предложить более конструктивную методику.
>
> 0 - сдаются новости, сгруппированные в кластеры,
> причем следует обратить особое внимание на аннотацию кластера
> (здесь узловой вопрос - как представлять кластер - возможны разные
> стратегии - самая простая - "главное" сообщение - а м.б.
> когда-нибудь придем к
> multidocument summarization)

Т.е. кластеры представляются асессорам либо "главным сообщением", либо
многодокументной аннотацией -- если я прввильно понял.

Но тогда, во-первых, все оцениваемые системы должны будут поддерживать
выбор главного сообщения (а когда нибудь и много-документное аннотирование).

Во-вторых, все системы должны понимать смысл главного сообщения одинаково.
Например, в TDT под этим, по-видимому, подразумевают сообщение, описывающее
"с чего все началось". У них есть понятие seminal event, и даже одна из
четырех задач TDT
-- new event detection -- посвящена определению таких сообщений.
А у яндекс.новостей, гугль-ньюз и новотеки под главным подразумевается
сообщение о том, "чем всё кончилось", т.е. "смысловой итог" события.
Стоит заметить, что для достаточно больших событий
и достаточно больших мастабов времени -- начиная с недельного --
это очень содержательная и нетривиальная задача, заслуживающая,
imo, отдельной дорожки.

В-третьих, я боюсь, что на оценку может оказать большее влияние не столько
само
разбиение на кластеры, сколько качество выбора главного сообщения (или
аннотации кластера)

>
> 1 - асессор получает для оценки новостное сообщение (выбранное случайно
> или
> в соответствии со стратегией оценки)
>
> 2 - для этого сообщения получает перечень всех кластеров (присланных
> всеми
> системами), содержащих данное сообщение
>
> 3 - асессор ставит бальную оценку "близости" сообщения к видимым
> кластерам -
> например, от 0 до 5-10

Мне кажется, что понятие близости сообщения к кластерам как-то
неправильно смещает взгляд асессора на задачу.

Давайте рассмотрим случай нетранзитивности близости сообщений --
типа "преступление - поимка преступника - суд над преступником".
Например, ряд близких по времени сообщений о преступлении ("В подъезде
разбита лампочка"),
поимке ("Свидетели сообщают, что лампочку разбил третьеклассник Петя
Иванов") и наказании
("Родители Пети Иванова возместили ущерб, ввернув новую лампочку", "Петя
Иванов наказан ремнём")

Далее, есть две системы, одна из которых объединила все сообщения
об этих поворотах дела в один кластер, а другая разбила на три.

Представим себе асессора, глядящего на сообщение о наказании ремнем
и на кластеры от двух систем. Асессор видит "главное" сообщение от второй
системы "Петя Иванов наказан ремнём" и от первой системы, допустим,
"Лампочку разбил третьеклассник Петя Иванов".

Вопрос #1: что он скажет о близости сообщения к кластерам, глядя только на
"главные" сообщения кластеров?
Вопрос #2: что он скажет о близости сообщения к кластерам, если он посмотрит
и на сами кластеры?

Мне кажется, что при таком подходе лучше говорить не о близости сообщения к
кластерам,
а о сравнении кластеров, котоые содержат сообщение.

Однако я знаю по собственному опыту, что сравнение кластеров,
сгенерированных
_даже_ двумя версиями одного алгоритма,
не сильно отличающихся по какому-то параметру -- это трудоемкое и
нетривиальное занятие.

С уважением
Михаил Маслов

by **dobroff2003** » Tue Apr 26, 2005 4:37 pm

Добрый день,

Michael Maslov wrote:
>
> Т.е. кластеры представляются асессорам либо "главным сообщением", либо
> многодокументной аннотацией -- если я прввильно понял.
>
> Но тогда, во-первых, все оцениваемые системы должны будут поддерживать
> выбор главного сообщения (а когда нибудь и много-документное аннотирование).
>

Если речь идет об обработке новостей - во ВСЕХ системах пользователь
сначала выбирает интересующий его кластер, затем смотрит внутри него.
То есть вроде бы всегда есть что-то должное быть "лицом" кластера.

> Во-вторых, все системы должны понимать смысл главного сообщения одинаково.
> Например, в TDT под этим, по-видимому, подразумевают сообщение, описывающее
> "с чего все началось". У них есть понятие seminal event, и даже одна из
> четырех задач TDT
> -- new event detection -- посвящена определению таких сообщений.
> А у яндекс.новостей, гугль-ньюз и новотеки под главным подразумевается
> сообщение о том, "чем всё кончилось", т.е. "смысловой итог" события.

Я полагаю, что пользователю ВСЕ РАВНО согласно какой модели строятся
кластеры в той или иной системе.
Пользователь видит "лицо" кластера и имеет некоторые ожидания
относительно его состава.
И не зная, что "всю жизнь говорил прозой", вполне может определить (со
своей точки зрения) правильно сообщения относятся к кластеру или нет.

> В-третьих, я боюсь, что на оценку может оказать большее влияние не столько
> само
> разбиение на кластеры, сколько качество выбора главного сообщения (или
> аннотации кластера)
>

Я не очень понимаю, что значит "само разбиение на кластеры". Если я
пользователь, я вообще не знаю слова "кластер". Я вижу только "лицо"
кластера и сообщения внутри.

>
> Мне кажется, что понятие близости сообщения к кластерам как-то
> неправильно смещает взгляд асессора на задачу.
>

Тут важный момент. Асессор видит при оценке ВСЕ потенциальные кластеры
(их "лица").
Полагаю, асессор легко сможет оценить сообщения более близкие от менее
близких.

> Давайте рассмотрим случай нетранзитивности близости сообщений --
> типа "преступление - поимка преступника - суд над преступником".
> Например, ряд близких по времени сообщений о преступлении ("В подъезде
> разбита лампочка"),
> поимке ("Свидетели сообщают, что лампочку разбил третьеклассник Петя
> Иванов") и наказании
> ("Родители Пети Иванова возместили ущерб, ввернув новую лампочку", "Петя
> Иванов наказан ремнём")
>
> Далее, есть две системы, одна из которых объединила все сообщения
> об этих поворотах дела в один кластер, а другая разбила на три.
>
> Представим себе асессора, глядящего на сообщение о наказании ремнем
> и на кластеры от двух систем. Асессор видит "главное" сообщение от второй
> системы "Петя Иванов наказан ремнём" и от первой системы, допустим,
> "Лампочку разбил третьеклассник Петя Иванов".
>

Так именно это и интересно.
Потому что у нас, например, есть собственные идеи как должны делиться
кластеры в иерархии событий.
А как нравится асессорам? Именно это и представляет реальный результат!

(В частности, а если в Вашем сценарии есть 20 сообщений с описанием
разных способов как Петя бил лампочку и 5 разных сообщений про наказание
ремнем? - Нам кажется, что деление на кластеры имеет зависимость от
"внимания" источников помимо "внешних" моделей мира)

> Вопрос #1: что он скажет о близости сообщения к кластерам, глядя только на
> "главные" сообщения кластеров?
> Вопрос #2: что он скажет о близости сообщения к кластерам, если он посмотрит
> и на сами кластеры?
>

Вот и два способа оценки, вполне соответствующие реальной практике
работы с новостями.

> Мне кажется, что при таком подходе лучше говорить не о близости сообщения к
> кластерам,
> а о сравнении кластеров, котоые содержат сообщение.
>

В принципе - да. Но измеряется именно близость.

С уважением
Борис

romip.ru

About News track

Re: [romip] Re: About News track

RE: [romip] Re: About News track

Re: [romip] Re: About News track

RE: [romip] Re: About News track

RE: [romip] Re: About News track

RE: [romip] Re: About News track

RE: [romip] Re: About News track

Re: [romip] Re: About News track

Re: [romip] Re: About News track

Re: [romip] Re: About News track

Who is online