Page 1 of 1

Разметка больших новостных кластеров

PostPosted: Mon Oct 18, 2010 3:42 pm
by igor_kuralenok
Привет всем!

В кулуарных обсуждениях на очной встрече поминалась задача из сабжа. Кто
заинтересован в подобной разметке? Давайте поймем сколько нас и начнем
договариваться о том как ее делать, при условии наличия достаточного количества
желающих.

IK

Re: [romip] Разметка больших новостных кластеров

PostPosted: Tue Oct 19, 2010 8:57 am
by dobroff2003
Добрый день,

Monday, October 18, 2010, 7:42:30 PM, you wrote:

ИК> В кулуарных обсуждениях на очной встрече поминалась задача из
ИК> сабжа. Кто заинтересован в подобной разметке? Давайте поймем
ИК> сколько нас и начнем договариваться о том как ее делать, при
ИК> условии наличия достаточного количества желающих.

да, например, меня интересует данная тема

основная мотивация:
-------------------

1) при том, что миллионы пользователей вполне удовлетворены текущими
версиями новостных агрегаторов (которые суть результат достаточно
простых алгоритмов), есть несколько "темных облачков" при
кластеризации новостей :)

2) речь идет о "больших" (например, "встреча G8", "мартовские взрывы в
метро") и/или "длинных" ("июньские события в Киргизии", "чемпионат
мира по футболу") сюжетах, пространственно протяженных (выборы в РФ, ЕГЭ) -
в общем, есть большое количество сложных сюжетов разной природы,
которые как-то отображаются в любом из агрегаторов, но не выдерживают
критики при ближайшем рассмотрении

3) также сюда можно отнести "очень длинные сюжеты" (типа запуски
"Булавы", российско-белорусские отношения и т.п.)


основной организационный метод:
--------------------------------

мне кажется, это скорее совместное научное исследование, а потом
соревнование

т.к. на этапе постановки задачи и элементарных тестов будет уже
получено достаточно много полезных результатов (м.б. и дорожка после
этого не понадобится)

опять же, кажется, что здесь не одна задача, а много

и надо разобраться - с чем мы имеем дело, как это можно использовать
на практике

и затем уже оценивать разные алгоритмы


основная стратегия действий
---------------------------

i) по теории

-- изучение литературы, составление библиографии

-- вообще ответ на вопрос - насколько мы повторяем TDT-2004
(A.Feng, J.Allan, Hierarchical Topic Detection in TDT-2004
http://ciir.cs.umass.edu/pubfiles/ir-389.pdf)

-- согласование терминологии

-- согласование списка постановок задач


ii) на практике

-- формирование представительной коллекции новостей (если никто не
даст "за так", тогда, например,

скачивание = список URL + библиотека фильтров очистки

-- надо несколько разнесенных по времени недель (чтобы не было никакой
прямой угрозы каким-либо бизнес-целям)

-- разметка какого-то числа кластеров - образование одного или
нескольких (в зависимости от комплекта критериев) "золотых стандартов"

-- гонки и оценки алгоритмов




--
С уважением,
Борис Добров

RE: [romip] Разметка больших новостных кластеров

PostPosted: Thu Oct 21, 2010 8:16 am
by pb
Нам это тоже интересно. И да, здесь много подзадач, каждую из которых надо
решать.

Разметка больших новостных кластеро

PostPosted: Wed Nov 03, 2010 7:38 pm
by s_yv_b
Присоединяюсь к Борису, по поводу терминологии в частности, и необходимости
научного исследования в целом.

По-моему было бы интересно формировать сеть взаимосвязанных сюжетов. В контексте
которой, сюжетом будет освещаться единичное не продолжительное во времени
событие. Тогда, большие кластеры будут являться группами сильно связанных между
собой сюжетов, а маленькие кластеры – единичными сюжетами, имеющими слабую
связь с некоторыми сюжетами подобной тематики.


--- In romip@yahoogroups.com, Игорь Кураленок wrote:
>
> Привет всем!
>
> В кулуарных обсуждениях на очной встрече поминалась задача из сабжа. Кто
заинтересован в подобной разметке? Давайте поймем сколько нас и начнем
договариваться о том как ее делать, при условии наличия достаточного количества
желающих.
>
> IK
>

Re: Разметка больших новостных кластеров

PostPosted: Thu Nov 04, 2010 1:48 am
by vavka98
1. Какие бы ни были новостные агрегаторы, они все равно должны развиваться,
поэтому «темных облаков» может становиться больше, главное чтобы
качество улучшилось.
2. Иерархический сюжет может лучше отразить сюжет сложной природы,
чем плоская кластирезация.
3. Очень длинные сюжеты должны иметь наследственную природу, которая может
разворачиваться для учета истории развития сюжета, а на поверхности иметь свежие
события.

Да это должно быть, исследование, а потом соревнование, потому что при
конкуренции быстрее идет развитие.
Давайте определимся с конкретными действиями и можем начать.
Вас поддерживает целая группа харьковских исследователей.


--- In romip@yahoogroups.com, "Boris V. Dobrov" <dobroff@...> wrote:
>
> Добрый день,
>
> Monday, October 18, 2010, 7:42:30 PM, you wrote:
>
> ИК> В кулуарных обсуждениях на очной встрече поминалась задача из
> ИК> сабжа. Кто заинтересован в подобной разметке? Давайте поймем
> ИК> сколько нас и начнем договариваться о том как ее делать, при
> ИК> условии наличия достаточного количества желающих.
>
> да, например, меня интересует данная тема
>
> основная мотивация:
> -------------------
>
> 1) при том, что миллионы пользователей вполне удовлетворены текущими
> версиями новостных агрегаторов (которые суть результат достаточно
> простых алгоритмов), есть несколько "темных облачков" при
> кластеризации новостей :)
>
> 2) речь идет о "больших" (например, "встреча G8", "мартовские взрывы в
> метро") и/или "длинных" ("июньские события в Киргизии", "чемпионат
> мира по футболу") сюжетах, пространственно протяженных (выборы в РФ, ЕГЭ) -
> в общем, есть большое количество сложных сюжетов разной природы,
> которые как-то отображаются в любом из агрегаторов, но не выдерживают
> критики при ближайшем рассмотрении
>
> 3) также сюда можно отнести "очень длинные сюжеты" (типа запуски
> "Булавы", российско-белорусские отношения и т.п.)
>
>
> основной организационный метод:
> --------------------------------
>
> мне кажется, это скорее совместное научное исследование, а потом
> соревнование
>
> т.к. на этапе постановки задачи и элементарных тестов будет уже
> получено достаточно много полезных результатов (м.б. и дорожка после
> этого не понадобится)
>
> опять же, кажется, что здесь не одна задача, а много
>
> и надо разобраться - с чем мы имеем дело, как это можно использовать
> на практике
>
> и затем уже оценивать разные алгоритмы
>
>
> основная стратегия действий
> ---------------------------
>
> i) по теории
>
> -- изучение литературы, составление библиографии
>
> -- вообще ответ на вопрос - насколько мы повторяем TDT-2004
> (A.Feng, J.Allan, Hierarchical Topic Detection in TDT-2004
> http://ciir.cs.umass.edu/pubfiles/ir-389.pdf)
>
> -- согласование терминологии
>
> -- согласование списка постановок задач
>
>
> ii) на практике
>
> -- формирование представительной коллекции новостей (если никто не
> даст "за так", тогда, например,
>
> скачивание = список URL + библиотека фильтров очистки
>
> -- надо несколько разнесенных по времени недель (чтобы не было никакой
> прямой угрозы каким-либо бизнес-целям)
>
> -- разметка какого-то числа кластеров - образование одного или
> нескольких (в зависимости от комплекта критериев) "золотых стандартов"
>
> -- гонки и оценки алгоритмов
>
>
>
>
> --
> С уважением,
> Борис Добров
>