Предлагаю для обсуждения свое понимание задач по новостной дорожке.
Краткая формулировка основной задачи: "Построение иерархически
организованных кластеров". Как общего списка - "главные новости",
так тематических - политика-экономика-культура-спорт..., и
региональных.
Последнее подразумевает необходимость структурирования _всего_ потока
новостей.
Классификация кластеров по рубрикам - довольно простая задача, ее
предлагается считать решенной. Кришна Бхарат тоже об этом
говорил

Есть и другие задачи (напр. интересно много-документное аннотирование
сюжетов, их "озаглавливание"), но пока непонятно, как оценивать
качество результатов (кто-то здесь уже писал про такие трудности для
аннотирования).
Как известно, существует новостная дорожка TDT (Topic Detection and
Tracking) - см. http://www.nist.gov/speech/tests/tdt/ В ней
определено четыре задачи. Предлагаемая постановка ближе всего к
задачам Topic Detection и New event detection.
(Я готов сделать более подробный обзор TDT - постановок задач,
принципов измерения качества, принципов формирования корпусов)
При этом, imo, _весьма_ важно, чтобы кластеры имели иерархическую
структуру (как минимум два уровня, лучше три). В соответствии с этим
нужно строить "эталонные" корпуса. И это главное отличие от подхода,
принятого в ТDT (во всяком случае, первоначального).
Связано это с двумя обстоятельствами: а) неоднородность кластеров по
масштабу б) необходимость "нежесткого" оценивания расхождений с
эталоном.
О последнем обстоятельстве я скажу вкратце: понятие "эталонного
кластера" - imho, более неопределенное и произвольное, чем
понятие "эталонного ответа поисковой системы"; поэтому и есть желание
ввести третий (верхний) уровень кластеризации. Если я что-то потерял
(с т. зр. "эталона"), не включив в основной сюжет, то я имею шанс
частично исправиться, дав ссылку в блоке "см. также".На самом деле,
связи "см. также" не обязаны быть симметричными, т.е. это уже не
обязательно иерархия.
А первое обстоятельство я опишу в этом посте более подробно.
Дело в том, что по опыту Яндекс-Новостей, кластеры имеют очень разные
размеры. И это представляется вполне адекватным отражением
действительности.
Качественное описание рангового распределения кластеров (на примере
ЯН ~ 10-15 тыс. новостных сообщений в день) выглядит примерно так:
- раз или два в месяц - "мегасобытия"(размер сюжета ~ 500-1000
сообщений)
- три-пять раз в неделю "события недели" (~200-500)
- три-пять раз в день "важные события дня" (~50-200)
- 20-50 в день "текущие события дня" (~10-50)
- 1-3 тысячи в день "маленьких" кластеров -(~2-10)
- порядка 3-7 тысяч "синглетонов" (событий, описываемых в одном
сообщении)
(числа - на глаз, границы проведены довольно-таки произвольно)
Ясно, что события размером более 50 сообщений показывать
пользователю "плоским списком" - весьма неюзабильно.
Тем не менее обе системы - ЯН и Google News - показывают
их "плоско", поскольку, по-видимому, для построения "тонкой
структуры" событий не хватает разрешающей способности методов
кластеризации.
Это при том, что именно большие сюжеты пользователи видят в первую
очередь, поскольку они(сюжеты) ранжируются высоко. И новостные
сервисы становятся весьма востребованными именно во
время "мегасобытий", при этом к качеству их работы именно в эти
моменты предъявляются повышенные требования.
Опишу желаемую картинку на примере сюжета "пожар в манеже" (около 180
сообщений с 14-го марта 21:40 до 15-го марта 01:30)
21:40-22.30 В Москве горит здание Манежа (20-30 сообщений)
22:20-23.50 В горящем здании Манежа обрушилась кровля (10)
22:50-23:50 При пожаре в Манеже погибли двое пожарных (15)
22:50-23:50 В здании журфака МГУ началось тление оконных рам (20)
23:10-23:40 По факту пожара в Манеже возбуждено уголовное дело (7)
23:40-00:00 Глава МЧС: для тушения Манежа будет задействована авиация
(3)
00:00-01:10 Пожар в здании Манежа в центре Москвы локализован (15)
01:00-01:30 Мэр Москвы обещает восстановить Манеж (15)
Картинка приблизительная и неполная.
Вот для сравнения небольшой фрагмент этого сюжета в "плоском" формате:
=================================
...
00:00 На тушение Манежа брошена авиация [газета.ru]
00:00 Пожар в здании Манежа в центре Москвы локализован
[риа "новости"]
00:00 Пожар в здании Манежа локализован [страна.ru]
00:00 Пожар в Манеже локализован [би-би-си]
00:00 Пожар в Манеже локализован [газета.ru]
00:00 Пожар в Манеже пока не перекинулся на здание факультета
журналистики МГУ, сообщил в эфире радиостанции "Эхо Москвы" декан
факультета Ясен Засурский [эхо москвы]
00:10 Двое пожарных погибли в результате сильнейшего пожара,
осветившего огнем весь Кремль в день выборов президента России,
возникшего в центре Москвы. Загорелось одно из ... [эхо москвы]
00:10 На место пожара к Манежу прибыл премьер-министр Михаил
Фрадков [риа "новости"]
00:10 Пожар в здании Манежа локализован [рбк]
00:10 Пожар в здании Манежа локализован [km.ru]
00:10 Пожар в здании Манежа локализован, от него остались только
стены [newsru.com]
00:10 Пожар в московском Манеже локализован [regnum]
00:10 Пожар в Манеже локализован [нтв]
00:10 Ю.Лужков: Очаг возгорания возник в стропильной части здания
Манежа [рбк]
00:10 Ю.Лужков: Угроза возникновения пожара в зданиях,
расположенных близ Манежа, устранена [рбк]
00:11 Пожар в Манеже локализован [двина-информ]
00:20 Пожар в здании Манежа в центре Москвы локализован [вести.ru]
00:21 Пожар в Манеже локализован. Возможно, во всем виновата сварка
[полит.ру]
00:21 Уголовное дело возбудила Московская прокуратура в связи с
гибелью двух сотрудников УГПС при тушении пожара в Манеже. Они
погибли под рухнувшей крышей Выставочного комплекса [эхо москвы]
00:21 Ю.Лужков: Здание Манежа будет обязательно восстановлено [рбк]
01:00 Мэр Москвы обещает восстановить Манеж [би-би-си]
23:50 В Москве погибли двое пожарных [israland]
23:50 Крыша манежа полностью рухнула [первый канал]
23:50 Поджог Манежа маловероятен, - об этом сообщил ИНТЕРФАКСУ
представитель Штаба на месте происшествия. Это уникальное здание
сгорело практически до тла - уже рухнули стены [эхо москвы]
23:50 При тушении пожара в столичном Манеже погибли двое
сотрудников УГПС [риа "новости"]
23:50 При тушении Манежа погибли двое пожарных [страна.ru]
23:50 Причина пожара в московском Манеже - короткое замыкание?
[regnum]
23:50 Сергей Шойгу: с такими конструкциями как в Манеже,
справляться очень сложно [ниг]
...
============================================
С уважением
Михаил Маслов