Добрый день,
по-видимому, имеется несколько "параллельных" задач кластеризации
новостей
1) есть реальная задача оценки стандартного представления новостной
информации в Интернет - как это делают Гугл, Яндекс, Рамблер, Новотека
и т.д.
поток разделяется на новостные кластеры, предположительно
ориентированные на интересы пользователей
основная проблема - из-за недостатка места представления информации
пользователям в такие кластеры объединяются разные атомарные события
(которые, конечно, на практике не выделяются - по крайней мере в
интерфейсе)
2) есть академическая задача восстановления структуры атомарных
событий
и мне не очень понятно насколько такая задача жизненна
рассмотрим например следующий текст из новостной коллекции РОМИП
что предлагается сделать:
- восстановить ВСЕ упоминаемые и описанные события?
- кто-то возмется выделить "основные" события?
тут надо учесть, что в коллекции есть отдельные сообщения о:
- последствиях пожара в РУДН
-- количестве погибших
-- поиске виновных
-- предъявленных обвинениях
- о сообщениях о бомбе
- об эвакуации студентов
- о поисках бомбы
- о поисках звонившего
причем в одном документе могут быть затронуты несколько атомарных
событий, и может отсутствовать строгая иерархия
=================================================================
ID = 300732
ZGL = Студенты РУДН встречали своих спасателей аплодисментами
URL = news.pravda.ru/society/2003/12/02/58010.html
DATE = 2003.12.02 12:00:55
LENGTH = 2155
INPUT_FILE = news-vybory
DOC_ID = vybory-22186
Студенты РУДН встречали своих спасателей аплодисментами
Дело о пожаре в РУДН вступило в новую фазу. Минувшей ночью студенты,
проживающие в общежитии, вновь оказались на улице. На сей раз, правда,
все закончилось благополучно. Накануне вечером двое студентов из
Бангладеш стояли на балконе общежития, расположенного на улице
Миклухо-Маклая. Мимо проходил молодой человек, который бросил в
сторону иностранцев фразу о том, что в здании вскоре может произойти
взрыв. По всей видимости, студенты восприняли ее всерьез и сообщили о
случившемся в администрацию общежития, которая, в свою очередь,
связалась с ГУВД Москвы, сообщает Интерфакс. Некоторое время спустя,
около 11 часов вечера, на пульт дежурного 02 из телефона-автомата
позвонил неизвестный, который сказал "неуверенным тоном о том, что в
здании общежития якобы может быть заложено взрывное устройство". В
общежитии московского Университета дружбы народов имени Патриса
Лумумбы. На улицу Миклухо-Маклая, где расположен студенческий городок,
прибыли экстренные службы: спасатели, пожарные, скорая помощь,
инженерно-саперные бригады, которые были встречены студентами
"лумумбария" аплодисментами, сообщает REGNUM. Сотрудники милиции
совместно с представителями администрации вуза, провели эвакуацию
студентов. Несколько групп кинологов со специально обученными
собаками, а также сотрудники инженерно-саперного отдела ГУВД Москвы
проверили корпуса общежития. Никаких подозрительных предметов
обнаружить не удалось. Второй звонок в милицию с сообщением о
заложенной в общежитии взрывчатке поступил в милицию около 3 часов
ночи. На место происшествия снова прибыли экстренные службы. Студенты
были повторно эвакуированы. Проверка общежитий закончилась только рано
утром. Результат поисков был прежним. По предварительным данным, в
общей сложности из всех корпусов было эвакуировано до 2 тысяч
студентов. В настоящее время сотрудниками милиции проводится
расследование. Напомним, что во время пожара 24 ноября в одном из
блоков общежития Университета дружбы народов пострадали по меньшей
мере 167 человек, еще 37 погибли. Также на эту тему: ОГНЕ БРОДА НЕТ!
Подробности пожара в студенческом общежитии РУДН
=================================================================
с моей точки зрения - проблем хватает в обоих задачах, но первая ближе
к жизни
--
С наилучшими пожеланиями,
Борис Добров
Wednesday, February 11, 2009, 11:49:08 AM, you wrote:
s> --- In
romip@yahoogroups.com, "Stas Baglei" wrote:
>>
>> > Теперь насчет одноуровневости кластеризации. Мне кажется, имеет
s> смысл
>> > одноуровневая кластеризация по событиям, но с построением
>> > своеобразного графа связей между этими событиями. Т.е.
s> кластеризовать
>> > новости на темы вроде (1)"взрыв на заводе ...",
s> (2)"террористический
>> > акт в районе ...", (3)"смерть директора завода ...", (4)"футбольный
>> > матч ...." и построение связей, например таких: 2->1->3, 4 или
s> таких
>> > 4->2, 1->3 смотря по конкретным сюжетам.
>>
>> Если понял правильно, при такой постановке задачи "верхний" уровень
>> кластеризации, сохраняется, как минимум.
>>
s> И, да и нет. Да в том смысле, что над первым уровне кластеризации
s> надстраивается еще что-то, да и если разбить граф на компоненты
s> связности можно получить некоторые кластеры. Нет т.к. 2->1->3 и (1, 2,
s> 3) не одно и тоже, я предлагаю более детальное структурирование чем
s> просто кластеризацию. К тому же если в классическом случае в верхний
s> кластер попали бы, например, все новости про терроризм и только они, то
s> в моем случае в компоненту связности попадут новости про конкретный
s> террористический акт и про взрыв конкретного завода и т.д.. Т.е. я
s> предлагаю верхний уровень кластеризации заменить уровнем
s> причиноследственных связей.