Одноуровневая кластеризация

Другие дорожки РОМИП, которые пока не закрепились в программе - кластеризация новостей, свободная дорожка и т.д

Postby sbaglei » Mon Feb 09, 2009 5:16 pm

Добрый день,
возвращаясь к идее Бориса Доброва - есть ли заинтересованные в дорожке
кластеризации новостей с одноуровневым форматом результатов, без
вложенности кластеров?
sbaglei
 
Posts: 9
Joined: Mon Oct 23, 2006 9:38 am

Re: [romip] Одноуровневая кластеризация

Postby dobroff2003 » Mon Feb 09, 2009 7:13 pm

Добрый день,

Monday, February 9, 2009, 7:16:52 PM, you wrote:

SB> есть ли заинтересованные в дорожке кластеризации новостей с
SB> одноуровневым форматом результатов, без вложенности кластеров?

только стоит поставить задачу правильно - не позволяя ручной подчистки
результатов

дело в том, что сейчас коллекция ОЧЕНЬ МАЛЕНЬКАЯ, что позволяет в
текущих постановках использовать не очень трудно создаваемыми
средствами (типа средства оценки) ВРУЧНУЮ создать "идеальное"
распределение кластеров

чтобы затруднить такую возможность предлагается:

-- участники подадут результаты кластеризации, например, с часовым
интервалом (или чаще) в пределах заданного "временного окна" (по
времени публикации новости)

-- возможны две "смысловые" дорожки
---- со стандартным размером окна, равным суткам
---- с рамером окна больше суток (например, двое-трое суток)

то есть участники подают "много" распределений кластеров (например, за
три дня = 24*3 = 72, если по часу)

а оцениваться будет, как всегда, одно-два-три распределения, заранее
неизвестное участникам
(и все равно стоит качественно увеличить количество новостей)


+++ ЕЩЕ ОДНА ЗАДАЧА: +++

обзорное реферирование нескольких связанных документов (multi-document
summarization), например, новостных кластеров (как-то заранее для всех
заданных - не обязательно "идеальных", например, результат любого
прогона кластеризации)

насколько я знаю :) , у С.Тарасова (СПб) есть приложение, которое
можно будет использовать для оценки (удобно в ручном режиме набирать
предложения из тех же документов)


--
С наилучшими пожеланиями,
Борис Добров
dobroff2003
Оргкомитет
 
Posts: 83
Joined: Fri May 23, 2003 9:52 am

Re: Одноуровневая кластеризация

Postby s_yv_b » Tue Feb 10, 2009 12:41 pm

--- In romip@yahoogroups.com, "Boris V. Dobrov" wrote:
>
> Добрый день,
>
> Monday, February 9, 2009, 7:16:52 PM, you wrote:
>
> SB> есть ли заинтересованные в дорожке кластеризации новостей с
> SB> одноуровневым форматом результатов, без вложенности кластеров?
>
> только стоит поставить задачу правильно - не позволяя ручной
подчистки
> результатов
>
> дело в том, что сейчас коллекция ОЧЕНЬ МАЛЕНЬКАЯ, что позволяет в
> текущих постановках использовать не очень трудно создаваемыми
> средствами (типа средства оценки) ВРУЧНУЮ создать "идеальное"
> распределение кластеров
>
> чтобы затруднить такую возможность предлагается:
>
> -- участники подадут результаты кластеризации, например, с часовым
> интервалом (или чаще) в пределах заданного "временного окна" (по
> времени публикации новости)
>
> -- возможны две "смысловые" дорожки
> ---- со стандартным размером окна, равным суткам
> ---- с рамером окна больше суток (например, двое-трое суток)
>
> то есть участники подают "много" распределений кластеров (например,
за
> три дня = 24*3 = 72, если по часу)
>
> а оцениваться будет, как всегда, одно-два-три распределения, заранее
> неизвестное участникам
> (и все равно стоит качественно увеличить количество новостей)
>
>
> +++ ЕЩЕ ОДНА ЗАДАЧА: +++
>
> обзорное реферирование нескольких связанных документов (multi-
document
> summarization), например, новостных кластеров (как-то заранее для
всех
> заданных - не обязательно "идеальных", например, результат любого
> прогона кластеризации)
>
> насколько я знаю :) , у С.Тарасова (СПб) есть приложение, которое
> можно будет использовать для оценки (удобно в ручном режиме набирать
> предложения из тех же документов)
>
>
> --
> С наилучшими пожеланиями,
> Борис Добров
>
Здравствуйте, решила присоединиться к обсуждению.
Механизм защиты от ручной подчистки я, честно говоря, не совсем
поняла, но у меня есть оговорка: по своей сути РОМИП не конкурс и,
подчищая результаты системы, участники в первую очередь будут вредить
себе.
Теперь насчет одноуровневости кластеризации. Мне кажется, имеет смысл
одноуровневая кластеризация по событиям, но с построением
своеобразного графа связей между этими событиями. Т.е. кластеризовать
новости на темы вроде (1)"взрыв на заводе ...", (2)"террористический
акт в районе ...", (3)"смерть директора завода ...", (4)"футбольный
матч ...." и построение связей, например таких: 2->1->3, 4 или таких
4->2, 1->3 смотря по конкретным сюжетам.
В общем, это мои мысли по поводу кластеризации новостей.
С уважением, Евгения.
s_yv_b
 
Posts: 7
Joined: Tue Feb 10, 2009 9:57 am

Re: Одноуровневая кластеризация

Postby sbaglei » Tue Feb 10, 2009 3:52 pm

> Теперь насчет одноуровневости кластеризации. Мне кажется, имеет смысл
> одноуровневая кластеризация по событиям, но с построением
> своеобразного графа связей между этими событиями. Т.е. кластеризовать
> новости на темы вроде (1)"взрыв на заводе ...", (2)"террористический
> акт в районе ...", (3)"смерть директора завода ...", (4)"футбольный
> матч ...." и построение связей, например таких: 2->1->3, 4 или таких
> 4->2, 1->3 смотря по конкретным сюжетам.

Если понял правильно, при такой постановке задачи "верхний" уровень
кластеризации, сохраняется, как минимум.
sbaglei
 
Posts: 9
Joined: Mon Oct 23, 2006 9:38 am

Re: Одноуровневая кластеризация

Postby s_yv_b » Wed Feb 11, 2009 9:49 am

--- In romip@yahoogroups.com, "Stas Baglei" wrote:
>
> > Теперь насчет одноуровневости кластеризации. Мне кажется, имеет
смысл
> > одноуровневая кластеризация по событиям, но с построением
> > своеобразного графа связей между этими событиями. Т.е.
кластеризовать
> > новости на темы вроде (1)"взрыв на заводе ...",
(2)"террористический
> > акт в районе ...", (3)"смерть директора завода ...", (4)"футбольный
> > матч ...." и построение связей, например таких: 2->1->3, 4 или
таких
> > 4->2, 1->3 смотря по конкретным сюжетам.
>
> Если понял правильно, при такой постановке задачи "верхний" уровень
> кластеризации, сохраняется, как минимум.
>
И, да и нет. Да в том смысле, что над первым уровне кластеризации
надстраивается еще что-то, да и если разбить граф на компоненты
связности можно получить некоторые кластеры. Нет т.к. 2->1->3 и (1, 2,
3) не одно и тоже, я предлагаю более детальное структурирование чем
просто кластеризацию. К тому же если в классическом случае в верхний
кластер попали бы, например, все новости про терроризм и только они, то
в моем случае в компоненту связности попадут новости про конкретный
террористический акт и про взрыв конкретного завода и т.д.. Т.е. я
предлагаю верхний уровень кластеризации заменить уровнем
причиноследственных связей.
s_yv_b
 
Posts: 7
Joined: Tue Feb 10, 2009 9:57 am

Re: [romip] Re: пДОПХТПЧОЕЧБС ЛМБУФЕТЙЪБГЙС

Postby dobroff2003 » Wed Feb 11, 2009 12:22 pm

Добрый день,

по-видимому, имеется несколько "параллельных" задач кластеризации
новостей

1) есть реальная задача оценки стандартного представления новостной
информации в Интернет - как это делают Гугл, Яндекс, Рамблер, Новотека
и т.д.

поток разделяется на новостные кластеры, предположительно
ориентированные на интересы пользователей

основная проблема - из-за недостатка места представления информации
пользователям в такие кластеры объединяются разные атомарные события
(которые, конечно, на практике не выделяются - по крайней мере в
интерфейсе)

2) есть академическая задача восстановления структуры атомарных
событий

и мне не очень понятно насколько такая задача жизненна

рассмотрим например следующий текст из новостной коллекции РОМИП

что предлагается сделать:
- восстановить ВСЕ упоминаемые и описанные события?
- кто-то возмется выделить "основные" события?

тут надо учесть, что в коллекции есть отдельные сообщения о:
- последствиях пожара в РУДН
-- количестве погибших
-- поиске виновных
-- предъявленных обвинениях
- о сообщениях о бомбе
- об эвакуации студентов
- о поисках бомбы
- о поисках звонившего

причем в одном документе могут быть затронуты несколько атомарных
событий, и может отсутствовать строгая иерархия

=================================================================
ID = 300732
ZGL = Студенты РУДН встречали своих спасателей аплодисментами
URL = news.pravda.ru/society/2003/12/02/58010.html
DATE = 2003.12.02 12:00:55
LENGTH = 2155
INPUT_FILE = news-vybory
DOC_ID = vybory-22186

Студенты РУДН встречали своих спасателей аплодисментами

Дело о пожаре в РУДН вступило в новую фазу. Минувшей ночью студенты,
проживающие в общежитии, вновь оказались на улице. На сей раз, правда,
все закончилось благополучно. Накануне вечером двое студентов из
Бангладеш стояли на балконе общежития, расположенного на улице
Миклухо-Маклая. Мимо проходил молодой человек, который бросил в
сторону иностранцев фразу о том, что в здании вскоре может произойти
взрыв. По всей видимости, студенты восприняли ее всерьез и сообщили о
случившемся в администрацию общежития, которая, в свою очередь,
связалась с ГУВД Москвы, сообщает Интерфакс. Некоторое время спустя,
около 11 часов вечера, на пульт дежурного 02 из телефона-автомата
позвонил неизвестный, который сказал "неуверенным тоном о том, что в
здании общежития якобы может быть заложено взрывное устройство". В
общежитии московского Университета дружбы народов имени Патриса
Лумумбы. На улицу Миклухо-Маклая, где расположен студенческий городок,
прибыли экстренные службы: спасатели, пожарные, скорая помощь,
инженерно-саперные бригады, которые были встречены студентами
"лумумбария" аплодисментами, сообщает REGNUM. Сотрудники милиции
совместно с представителями администрации вуза, провели эвакуацию
студентов. Несколько групп кинологов со специально обученными
собаками, а также сотрудники инженерно-саперного отдела ГУВД Москвы
проверили корпуса общежития. Никаких подозрительных предметов
обнаружить не удалось. Второй звонок в милицию с сообщением о
заложенной в общежитии взрывчатке поступил в милицию около 3 часов
ночи. На место происшествия снова прибыли экстренные службы. Студенты
были повторно эвакуированы. Проверка общежитий закончилась только рано
утром. Результат поисков был прежним. По предварительным данным, в
общей сложности из всех корпусов было эвакуировано до 2 тысяч
студентов. В настоящее время сотрудниками милиции проводится
расследование. Напомним, что во время пожара 24 ноября в одном из
блоков общежития Университета дружбы народов пострадали по меньшей
мере 167 человек, еще 37 погибли. Также на эту тему: ОГНЕ БРОДА НЕТ!
Подробности пожара в студенческом общежитии РУДН

=================================================================

с моей точки зрения - проблем хватает в обоих задачах, но первая ближе
к жизни

--
С наилучшими пожеланиями,
Борис Добров



Wednesday, February 11, 2009, 11:49:08 AM, you wrote:

s> --- In romip@yahoogroups.com, "Stas Baglei" wrote:
>>
>> > Теперь насчет одноуровневости кластеризации. Мне кажется, имеет
s> смысл
>> > одноуровневая кластеризация по событиям, но с построением
>> > своеобразного графа связей между этими событиями. Т.е.
s> кластеризовать
>> > новости на темы вроде (1)"взрыв на заводе ...",
s> (2)"террористический
>> > акт в районе ...", (3)"смерть директора завода ...", (4)"футбольный
>> > матч ...." и построение связей, например таких: 2->1->3, 4 или
s> таких
>> > 4->2, 1->3 смотря по конкретным сюжетам.
>>
>> Если понял правильно, при такой постановке задачи "верхний" уровень
>> кластеризации, сохраняется, как минимум.
>>
s> И, да и нет. Да в том смысле, что над первым уровне кластеризации
s> надстраивается еще что-то, да и если разбить граф на компоненты
s> связности можно получить некоторые кластеры. Нет т.к. 2->1->3 и (1, 2,
s> 3) не одно и тоже, я предлагаю более детальное структурирование чем
s> просто кластеризацию. К тому же если в классическом случае в верхний
s> кластер попали бы, например, все новости про терроризм и только они, то
s> в моем случае в компоненту связности попадут новости про конкретный
s> террористический акт и про взрыв конкретного завода и т.д.. Т.е. я
s> предлагаю верхний уровень кластеризации заменить уровнем
s> причиноследственных связей.
dobroff2003
Оргкомитет
 
Posts: 83
Joined: Fri May 23, 2003 9:52 am

Re: Одноуровневая кластеризация

Postby sbaglei » Fri Mar 06, 2009 8:18 pm

> теперь надо бы согласовать критерий оценки, который должен быть, по
> моему мнению, двухуровневым:
> 1) сначала определение "идеальных" кластеров (по-видимому,
> относительно одного или нескольких внешних критериев) и ошибок
> отклонения
> 2) затем способ подсчета - по сути задание критериев того, какие
> ошибки более важны чем другие
Добрый день, прошу прощения за паузу в обсуждении.
1) В качестве "привязки" кластера из результатов обработки при сравнении с
идеальными результатами можно было бы использовать первый документ из списка в
кластере.
2) Возможно, определяющим критерием оценки может являться полнота и точность
нахождения кластеров по признаку из п.1. А полноту и точность наполнения
кластеров документами можем принимать как вторичный критерий. В принципе, эти
два параметра можно и не "замешивать" в какую-то интегральную оценку, они могут
существовать параллельно.
sbaglei
 
Posts: 9
Joined: Mon Oct 23, 2006 9:38 am


Return to Экспериментальные дорожки

Who is online

Users browsing this forum: No registered users and 7 guests