1. Какие бы ни были новостные агрегаторы, они все равно должны развиваться,
поэтому «темных облаков» может становиться больше, главное чтобы
качество улучшилось.
2. Иерархический сюжет может лучше отразить сюжет сложной природы,
чем плоская кластирезация.
3. Очень длинные сюжеты должны иметь наследственную природу, которая может
разворачиваться для учета истории развития сюжета, а на поверхности иметь свежие
события.
Да это должно быть, исследование, а потом соревнование, потому что при
конкуренции быстрее идет развитие.
Давайте определимся с конкретными действиями и можем начать.
Вас поддерживает целая группа харьковских исследователей.
--- In
romip@yahoogroups.com, "Boris V. Dobrov" <dobroff@...> wrote:
>
> Добрый день,
>
> Monday, October 18, 2010, 7:42:30 PM, you wrote:
>
> ИК> В кулуарных обсуждениях на очной встрече поминалась задача из
> ИК> сабжа. Кто заинтересован в подобной разметке? Давайте поймем
> ИК> сколько нас и начнем договариваться о том как ее делать, при
> ИК> условии наличия достаточного количества желающих.
>
> да, например, меня интересует данная тема
>
> основная мотивация:
> -------------------
>
> 1) при том, что миллионы пользователей вполне удовлетворены текущими
> версиями новостных агрегаторов (которые суть результат достаточно
> простых алгоритмов), есть несколько "темных облачков" при
> кластеризации новостей
>
> 2) речь идет о "больших" (например, "встреча G8", "мартовские взрывы в
> метро") и/или "длинных" ("июньские события в Киргизии", "чемпионат
> мира по футболу") сюжетах, пространственно протяженных (выборы в РФ, ЕГЭ) -
> в общем, есть большое количество сложных сюжетов разной природы,
> которые как-то отображаются в любом из агрегаторов, но не выдерживают
> критики при ближайшем рассмотрении
>
> 3) также сюда можно отнести "очень длинные сюжеты" (типа запуски
> "Булавы", российско-белорусские отношения и т.п.)
>
>
> основной организационный метод:
> --------------------------------
>
> мне кажется, это скорее совместное научное исследование, а потом
> соревнование
>
> т.к. на этапе постановки задачи и элементарных тестов будет уже
> получено достаточно много полезных результатов (м.б. и дорожка после
> этого не понадобится)
>
> опять же, кажется, что здесь не одна задача, а много
>
> и надо разобраться - с чем мы имеем дело, как это можно использовать
> на практике
>
> и затем уже оценивать разные алгоритмы
>
>
> основная стратегия действий
> ---------------------------
>
> i) по теории
>
> -- изучение литературы, составление библиографии
>
> -- вообще ответ на вопрос - насколько мы повторяем TDT-2004
> (A.Feng, J.Allan, Hierarchical Topic Detection in TDT-2004
>
http://ciir.cs.umass.edu/pubfiles/ir-389.pdf)
>
> -- согласование терминологии
>
> -- согласование списка постановок задач
>
>
> ii) на практике
>
> -- формирование представительной коллекции новостей (если никто не
> даст "за так", тогда, например,
>
> скачивание = список URL + библиотека фильтров очистки
>
> -- надо несколько разнесенных по времени недель (чтобы не было никакой
> прямой угрозы каким-либо бизнес-целям)
>
> -- разметка какого-то числа кластеров - образование одного или
> нескольких (в зависимости от комплекта критериев) "золотых стандартов"
>
> -- гонки и оценки алгоритмов
>
>
>
>
> --
> С уважением,
> Борис Добров
>