Разметка больших новостных кластеров

Общие обсуждения - потенциальные будущие дорожки, использование материалов РОМИП вне семинара, очные встречи и прочие вопросы для которых нет отдельной подтемы

Разметка больших новостных кластеров

Postby igor_kuralenok » Mon Oct 18, 2010 3:42 pm

Привет всем!

В кулуарных обсуждениях на очной встрече поминалась задача из сабжа. Кто
заинтересован в подобной разметке? Давайте поймем сколько нас и начнем
договариваться о том как ее делать, при условии наличия достаточного количества
желающих.

IK
igor_kuralenok
Оргкомитет
 
Posts: 21
Joined: Fri Oct 03, 2003 7:24 am

Re: [romip] Разметка больших новостных кластеров

Postby dobroff2003 » Tue Oct 19, 2010 8:57 am

Добрый день,

Monday, October 18, 2010, 7:42:30 PM, you wrote:

ИК> В кулуарных обсуждениях на очной встрече поминалась задача из
ИК> сабжа. Кто заинтересован в подобной разметке? Давайте поймем
ИК> сколько нас и начнем договариваться о том как ее делать, при
ИК> условии наличия достаточного количества желающих.

да, например, меня интересует данная тема

основная мотивация:
-------------------

1) при том, что миллионы пользователей вполне удовлетворены текущими
версиями новостных агрегаторов (которые суть результат достаточно
простых алгоритмов), есть несколько "темных облачков" при
кластеризации новостей :)

2) речь идет о "больших" (например, "встреча G8", "мартовские взрывы в
метро") и/или "длинных" ("июньские события в Киргизии", "чемпионат
мира по футболу") сюжетах, пространственно протяженных (выборы в РФ, ЕГЭ) -
в общем, есть большое количество сложных сюжетов разной природы,
которые как-то отображаются в любом из агрегаторов, но не выдерживают
критики при ближайшем рассмотрении

3) также сюда можно отнести "очень длинные сюжеты" (типа запуски
"Булавы", российско-белорусские отношения и т.п.)


основной организационный метод:
--------------------------------

мне кажется, это скорее совместное научное исследование, а потом
соревнование

т.к. на этапе постановки задачи и элементарных тестов будет уже
получено достаточно много полезных результатов (м.б. и дорожка после
этого не понадобится)

опять же, кажется, что здесь не одна задача, а много

и надо разобраться - с чем мы имеем дело, как это можно использовать
на практике

и затем уже оценивать разные алгоритмы


основная стратегия действий
---------------------------

i) по теории

-- изучение литературы, составление библиографии

-- вообще ответ на вопрос - насколько мы повторяем TDT-2004
(A.Feng, J.Allan, Hierarchical Topic Detection in TDT-2004
http://ciir.cs.umass.edu/pubfiles/ir-389.pdf)

-- согласование терминологии

-- согласование списка постановок задач


ii) на практике

-- формирование представительной коллекции новостей (если никто не
даст "за так", тогда, например,

скачивание = список URL + библиотека фильтров очистки

-- надо несколько разнесенных по времени недель (чтобы не было никакой
прямой угрозы каким-либо бизнес-целям)

-- разметка какого-то числа кластеров - образование одного или
нескольких (в зависимости от комплекта критериев) "золотых стандартов"

-- гонки и оценки алгоритмов




--
С уважением,
Борис Добров
dobroff2003
Оргкомитет
 
Posts: 83
Joined: Fri May 23, 2003 9:52 am

RE: [romip] Разметка больших новостных кластеров

Postby pb » Thu Oct 21, 2010 8:16 am

Нам это тоже интересно. И да, здесь много подзадач, каждую из которых надо
решать.
pb
Оргкомитет
 
Posts: 72
Joined: Mon Feb 10, 2003 11:52 am

Разметка больших новостных кластеро

Postby s_yv_b » Wed Nov 03, 2010 7:38 pm

Присоединяюсь к Борису, по поводу терминологии в частности, и необходимости
научного исследования в целом.

По-моему было бы интересно формировать сеть взаимосвязанных сюжетов. В контексте
которой, сюжетом будет освещаться единичное не продолжительное во времени
событие. Тогда, большие кластеры будут являться группами сильно связанных между
собой сюжетов, а маленькие кластеры – единичными сюжетами, имеющими слабую
связь с некоторыми сюжетами подобной тематики.


--- In romip@yahoogroups.com, Игорь Кураленок wrote:
>
> Привет всем!
>
> В кулуарных обсуждениях на очной встрече поминалась задача из сабжа. Кто
заинтересован в подобной разметке? Давайте поймем сколько нас и начнем
договариваться о том как ее делать, при условии наличия достаточного количества
желающих.
>
> IK
>
s_yv_b
 
Posts: 7
Joined: Tue Feb 10, 2009 9:57 am

Re: Разметка больших новостных кластеров

Postby vavka98 » Thu Nov 04, 2010 1:48 am

1. Какие бы ни были новостные агрегаторы, они все равно должны развиваться,
поэтому «темных облаков» может становиться больше, главное чтобы
качество улучшилось.
2. Иерархический сюжет может лучше отразить сюжет сложной природы,
чем плоская кластирезация.
3. Очень длинные сюжеты должны иметь наследственную природу, которая может
разворачиваться для учета истории развития сюжета, а на поверхности иметь свежие
события.

Да это должно быть, исследование, а потом соревнование, потому что при
конкуренции быстрее идет развитие.
Давайте определимся с конкретными действиями и можем начать.
Вас поддерживает целая группа харьковских исследователей.


--- In romip@yahoogroups.com, "Boris V. Dobrov" <dobroff@...> wrote:
>
> Добрый день,
>
> Monday, October 18, 2010, 7:42:30 PM, you wrote:
>
> ИК> В кулуарных обсуждениях на очной встрече поминалась задача из
> ИК> сабжа. Кто заинтересован в подобной разметке? Давайте поймем
> ИК> сколько нас и начнем договариваться о том как ее делать, при
> ИК> условии наличия достаточного количества желающих.
>
> да, например, меня интересует данная тема
>
> основная мотивация:
> -------------------
>
> 1) при том, что миллионы пользователей вполне удовлетворены текущими
> версиями новостных агрегаторов (которые суть результат достаточно
> простых алгоритмов), есть несколько "темных облачков" при
> кластеризации новостей :)
>
> 2) речь идет о "больших" (например, "встреча G8", "мартовские взрывы в
> метро") и/или "длинных" ("июньские события в Киргизии", "чемпионат
> мира по футболу") сюжетах, пространственно протяженных (выборы в РФ, ЕГЭ) -
> в общем, есть большое количество сложных сюжетов разной природы,
> которые как-то отображаются в любом из агрегаторов, но не выдерживают
> критики при ближайшем рассмотрении
>
> 3) также сюда можно отнести "очень длинные сюжеты" (типа запуски
> "Булавы", российско-белорусские отношения и т.п.)
>
>
> основной организационный метод:
> --------------------------------
>
> мне кажется, это скорее совместное научное исследование, а потом
> соревнование
>
> т.к. на этапе постановки задачи и элементарных тестов будет уже
> получено достаточно много полезных результатов (м.б. и дорожка после
> этого не понадобится)
>
> опять же, кажется, что здесь не одна задача, а много
>
> и надо разобраться - с чем мы имеем дело, как это можно использовать
> на практике
>
> и затем уже оценивать разные алгоритмы
>
>
> основная стратегия действий
> ---------------------------
>
> i) по теории
>
> -- изучение литературы, составление библиографии
>
> -- вообще ответ на вопрос - насколько мы повторяем TDT-2004
> (A.Feng, J.Allan, Hierarchical Topic Detection in TDT-2004
> http://ciir.cs.umass.edu/pubfiles/ir-389.pdf)
>
> -- согласование терминологии
>
> -- согласование списка постановок задач
>
>
> ii) на практике
>
> -- формирование представительной коллекции новостей (если никто не
> даст "за так", тогда, например,
>
> скачивание = список URL + библиотека фильтров очистки
>
> -- надо несколько разнесенных по времени недель (чтобы не было никакой
> прямой угрозы каким-либо бизнес-целям)
>
> -- разметка какого-то числа кластеров - образование одного или
> нескольких (в зависимости от комплекта критериев) "золотых стандартов"
>
> -- гонки и оценки алгоритмов
>
>
>
>
> --
> С уважением,
> Борис Добров
>
vavka98
 
Posts: 1
Joined: Thu Nov 04, 2010 1:48 am


Return to Общие вопросы

Who is online

Users browsing this forum: No registered users and 1 guest

cron