Добрый день!
Насчет величины кластера согласен, event (или событие) подходит вполне.
Привязку отдельной новости к единственному кластеру предлагаю использовать не
для всех новостей в кластере, а только для первой, заглавной новости. Так или
иначе, если мы хотим иметь возможность оценить точность и полноту распределения
кластеров, необходим некоторый признак (или набор признаков), позволяющий
однозначно связать кластер в идеальном распределении и ответе системы. В
принципе, для такой цели можно использовать и N наиболее важных новостей из
кластера, тогда связующим признаком будет являться выделенная комбинация
новостей, не повторяющаяся в верхушках других кластеров. Но, по-моему, такой
подход усложнит процедуру оценки, так как потребует более сложной проверки
уникальности, а также, при совпадении, процедуры увеличения N вплоть до
достижения неповторяющейся комбинации новостей.
Можем ли мы пойти на ограничение в виде уникальности для главного документа в
кластере? На мой взгляд, да -- в силу того, что он главный, в какой-то мере
определяющий для события. Но если есть другие точки зрения, давайте обсудим.
Функция временных окон – в увеличении возможного количества кластеров в ответах
систем для усложнения подкрутки результатов. Подробнее Борис описывал разбиение
на окна здесь:
http://tech.groups.yahoo.com/group/romip/message/902Думаю, для новостей вполне допустимое ограничение. На практике новости возникают
в виде готовой и цельной коллекции довольно редко.