кластеризация новостей

Другие дорожки РОМИП, которые пока не закрепились в программе - кластеризация новостей, свободная дорожка и т.д

Postby neigor » Wed Mar 25, 2009 11:32 pm

Добрый день,

из обсуждения "одноуровневой" кластеризации и других вариантов
у меня не сложилось четкого представления, какой вариант постановки
задачи (и подхода к оценки) наиболее приемлем, как компромис.

Пока есть две зарегистрированных заявки на эту дорожку
- от Стаса и Евгении (и возможно потерявшаяся по пути заявка Бориса).
Еще кто-ниубдь заинтересован в этой дорожке?

Давайте попробуем выработать и утвердить правила этой дорожки на 2009 год?

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: кластеризация новостей

Postby sbaglei » Fri Mar 27, 2009 3:07 pm

Добрый день!

Обобщая сказанное ранее по теме, предлагаю следующую заготовку для правил по
дорожке:

1) выбираем размер временных окон, на которые разбивается новостной массив для
кластеризации;

2) участники обрабатывают задание, используя временные окна в качестве
дополнительного условия формирования кластеров. В сформированных кластерах
порядок расположения документов в списке должен быть значимым, "лучший" документ
распологается на первом месте;

3) для оценки выбирается несколько окон. в каждом из выбранных окон асессоры
находят кластеры документов, которые принимаются как "идеальные";

4) при оценке в результатах участников для каждого из выбранных окон:
- документы, указанные в каждом из полученных кластеров на первом месте,
принимаются в качестве документов-центроидов;
- если документ-центроид попадает в один из кластеров-образцов из идеального
распределения, устанавливаем связь между сформированным и "идеальным" кластером;
- сравниваем сформированный участником кластер и связанный с ним идеальный
кластер, вычисляем полноту и точность внутри каждого кластера;
- рассчитываем средние оценки полноты, точности и F-меры для всех кластеров
внутри окна, аналогично тому, как это делается в дорожках тематической
классификации: используем методы макро- и микроусреднения;

5) таким образом, для каждого из окон получаем набор следующих оценок:
- средняя полнота, точность и F-мера распределения кластеров;
- средняя полнота, точность и F-мера распределения документов внутри кластеров;

6) получаем интегральные оценки кластеризации для каждого окна, используя
среднее гармоническое усреднение между обобщенными значениями полноты, точности,
F-меры распределения документов внутри кластеров и распределения кластеров. При
этом, исходя из того, что предметом кластеризации является новостной поток,
предлагаем основными считать оценки распределения кластеров как таковых. Для
этого при усреднении можно было бы использовать некоторые произвольно выбранные
коэффициенты важности. Их отношение может быть, допустим, таким: (распределение
документов внутри кластеров)/(распределение кластеров)=0.3/0.7.

7) используя интегральные оценки кластеризации для каждого окна, получаем
средние оценки полноты, точности и F-меры по всем выбранным окнам. Можно
параллельно рассчитывать общие оценки полноты и точности распределения
документов в кластерах и распределения кластеров в каждом из окон методом
"общего котла", суммируя оценки полноты и точности из всех кластеров по всем
обрабатываемым окнам. Это позволит не уравнивать между собой оценки множеств
кластеров в сильно различающихся по размеру окнах. Значения F-мер в этом случае
будут считаться после обработки всех окон.


Дополнения и замечания приветствуются.


--- In romip@yahoogroups.com, Igor Nekrestyanov wrote:
>
> Добрый день,
>
> из обсуждения "одноуровневой" кластеризации и других вариантов
> у меня не сложилось четкого представления, какой вариант постановки
> задачи (и подхода к оценки) наиболее приемлем, как компромис.
>
> Пока есть две зарегистрированных заявки на эту дорожку
> - от Стаса и Евгении (и возможно потерявшаяся по пути заявка Бориса).
> Еще кто-ниубдь заинтересован в этой дорожке?
>
> Давайте попробуем выработать и утвердить правила этой дорожки на 2009 год?
>
> -igor
>
sbaglei
 
Posts: 9
Joined: Mon Oct 23, 2006 9:38 am

Re: кластеризация новостей

Postby s_yv_b » Wed Apr 01, 2009 10:28 am

Здравствуйте, извиняюсь за молчанку.

Я так понимаю что в основном всем нравится предложение Стаса. В принципе я
согласна отказаться от идеи с уровнем причинно-следственных связей – если это
никому не надо, то может быть в этом и нет смысла. В защиту своей идеи могу
только сказать, что иногда пользуюсь ссылками вида «с этой книгой читают также»,
что-то подобное можно было бы реализовать и с новостями. Но, опять-таки если это
не интересно, то я от этого могу отказаться, тем более что не могу пока
предложить четкого алгоритма проверки этой части задания.
Теперь насчет единственного уровня. Каким будет этот уровень? Если делать
слишком крупные темы, то специфика новостей теряется, поэтому я считаю, что
стоит оставить уровень соответствующий прошлогоднему уровню «event» т.е. самому
нижнему уровню. Насчет упорядочивания новостей внутри кластеров и выявления
соответствия между идеальным кластером и кластером системы участницы мне
нравится. Вопрос только в том насколько правильно будет то, что каждая новость
будет принадлежать единственному кластеру. На мой взгляд, существует
значительное количество новостей с упоминаниями о разных событиях, например
подведения итогов соревнований или обсуждения последствий чего-либо (последствие
и его предпосылка, по-моему, разные события). В принципе можно выявлять основное
событие этой новости. Но тогда возникает вопрос – мы хотим разложить все новости
по полочкам или предоставить пользователю максимально полную подборку новостей
по интересующей его теме? Во втором случае, мне кажется, стоит помещать часть
новостей в несколько кластеров (каждую). Причем, учитывая идею с упорядочиванием
новостей в кластерах, такие новости не будут создавать путаницу при анализе
ответов систем т.к. будут лучшими максимум в одном кластере.
И еще – идею с временными окнами я что-то не совсем поняла. Можете поподробнее
объяснить какая будет функция у этих окон?

С уважением, Евгения.
s_yv_b
 
Posts: 7
Joined: Tue Feb 10, 2009 9:57 am

Re: кластеризация новостей

Postby sbaglei » Thu Apr 02, 2009 4:42 pm

Добрый день!

Насчет величины кластера согласен, event (или событие) подходит вполне.

Привязку отдельной новости к единственному кластеру предлагаю использовать не
для всех новостей в кластере, а только для первой, заглавной новости. Так или
иначе, если мы хотим иметь возможность оценить точность и полноту распределения
кластеров, необходим некоторый признак (или набор признаков), позволяющий
однозначно связать кластер в идеальном распределении и ответе системы. В
принципе, для такой цели можно использовать и N наиболее важных новостей из
кластера, тогда связующим признаком будет являться выделенная комбинация
новостей, не повторяющаяся в верхушках других кластеров. Но, по-моему, такой
подход усложнит процедуру оценки, так как потребует более сложной проверки
уникальности, а также, при совпадении, процедуры увеличения N вплоть до
достижения неповторяющейся комбинации новостей.
Можем ли мы пойти на ограничение в виде уникальности для главного документа в
кластере? На мой взгляд, да -- в силу того, что он главный, в какой-то мере
определяющий для события. Но если есть другие точки зрения, давайте обсудим.

Функция временных окон – в увеличении возможного количества кластеров в ответах
систем для усложнения подкрутки результатов. Подробнее Борис описывал разбиение
на окна здесь:
http://tech.groups.yahoo.com/group/romip/message/902
Думаю, для новостей вполне допустимое ограничение. На практике новости возникают
в виде готовой и цельной коллекции довольно редко.
sbaglei
 
Posts: 9
Joined: Mon Oct 23, 2006 9:38 am


Return to Экспериментальные дорожки

Who is online

Users browsing this forum: No registered users and 8 guests

cron