О новостной дорожке

Другие дорожки РОМИП, которые пока не закрепились в программе - кластеризация новостей, свободная дорожка и т.д

О новостной дорожке

Postby maslov70 » Thu Mar 25, 2004 8:54 pm

Коллеги, добрый вечер.

Предлагаю для обсуждения свое понимание задач по новостной дорожке.

Краткая формулировка основной задачи: "Построение иерархически
организованных кластеров". Как общего списка - "главные новости",
так тематических - политика-экономика-культура-спорт..., и
региональных.

Последнее подразумевает необходимость структурирования _всего_ потока
новостей.

Классификация кластеров по рубрикам - довольно простая задача, ее
предлагается считать решенной. Кришна Бхарат тоже об этом
говорил :) - см. http://www.russ.ru/netcult/gateway/20031013.html

Есть и другие задачи (напр. интересно много-документное аннотирование
сюжетов, их "озаглавливание"), но пока непонятно, как оценивать
качество результатов (кто-то здесь уже писал про такие трудности для
аннотирования).

Как известно, существует новостная дорожка TDT (Topic Detection and
Tracking) - см. http://www.nist.gov/speech/tests/tdt/ В ней
определено четыре задачи. Предлагаемая постановка ближе всего к
задачам Topic Detection и New event detection.

(Я готов сделать более подробный обзор TDT - постановок задач,
принципов измерения качества, принципов формирования корпусов)

При этом, imo, _весьма_ важно, чтобы кластеры имели иерархическую
структуру (как минимум два уровня, лучше три). В соответствии с этим
нужно строить "эталонные" корпуса. И это главное отличие от подхода,
принятого в ТDT (во всяком случае, первоначального).

Связано это с двумя обстоятельствами: а) неоднородность кластеров по
масштабу б) необходимость "нежесткого" оценивания расхождений с
эталоном.

О последнем обстоятельстве я скажу вкратце: понятие "эталонного
кластера" - imho, более неопределенное и произвольное, чем
понятие "эталонного ответа поисковой системы"; поэтому и есть желание
ввести третий (верхний) уровень кластеризации. Если я что-то потерял
(с т. зр. "эталона"), не включив в основной сюжет, то я имею шанс
частично исправиться, дав ссылку в блоке "см. также".На самом деле,
связи "см. также" не обязаны быть симметричными, т.е. это уже не
обязательно иерархия.

А первое обстоятельство я опишу в этом посте более подробно.

Дело в том, что по опыту Яндекс-Новостей, кластеры имеют очень разные
размеры. И это представляется вполне адекватным отражением
действительности.

Качественное описание рангового распределения кластеров (на примере
ЯН ~ 10-15 тыс. новостных сообщений в день) выглядит примерно так:

- раз или два в месяц - "мегасобытия"(размер сюжета ~ 500-1000
сообщений)
- три-пять раз в неделю "события недели" (~200-500)
- три-пять раз в день "важные события дня" (~50-200)
- 20-50 в день "текущие события дня" (~10-50)
- 1-3 тысячи в день "маленьких" кластеров -(~2-10)
- порядка 3-7 тысяч "синглетонов" (событий, описываемых в одном
сообщении)

(числа - на глаз, границы проведены довольно-таки произвольно)

Ясно, что события размером более 50 сообщений показывать
пользователю "плоским списком" - весьма неюзабильно.

Тем не менее обе системы - ЯН и Google News - показывают
их "плоско", поскольку, по-видимому, для построения "тонкой
структуры" событий не хватает разрешающей способности методов
кластеризации.

Это при том, что именно большие сюжеты пользователи видят в первую
очередь, поскольку они(сюжеты) ранжируются высоко. И новостные
сервисы становятся весьма востребованными именно во
время "мегасобытий", при этом к качеству их работы именно в эти
моменты предъявляются повышенные требования.

Опишу желаемую картинку на примере сюжета "пожар в манеже" (около 180
сообщений с 14-го марта 21:40 до 15-го марта 01:30)

21:40-22.30 В Москве горит здание Манежа (20-30 сообщений)
22:20-23.50 В горящем здании Манежа обрушилась кровля (10)
22:50-23:50 При пожаре в Манеже погибли двое пожарных (15)
22:50-23:50 В здании журфака МГУ началось тление оконных рам (20)
23:10-23:40 По факту пожара в Манеже возбуждено уголовное дело (7)
23:40-00:00 Глава МЧС: для тушения Манежа будет задействована авиация
(3)
00:00-01:10 Пожар в здании Манежа в центре Москвы локализован (15)
01:00-01:30 Мэр Москвы обещает восстановить Манеж (15)

Картинка приблизительная и неполная.

Вот для сравнения небольшой фрагмент этого сюжета в "плоском" формате:

=================================
...
00:00 На тушение Манежа брошена авиация [газета.ru]
00:00 Пожар в здании Манежа в центре Москвы локализован
[риа "новости"]
00:00 Пожар в здании Манежа локализован [страна.ru]
00:00 Пожар в Манеже локализован [би-би-си]
00:00 Пожар в Манеже локализован [газета.ru]
00:00 Пожар в Манеже пока не перекинулся на здание факультета
журналистики МГУ, сообщил в эфире радиостанции "Эхо Москвы" декан
факультета Ясен Засурский [эхо москвы]
00:10 Двое пожарных погибли в результате сильнейшего пожара,
осветившего огнем весь Кремль в день выборов президента России,
возникшего в центре Москвы. Загорелось одно из ... [эхо москвы]
00:10 На место пожара к Манежу прибыл премьер-министр Михаил
Фрадков [риа "новости"]
00:10 Пожар в здании Манежа локализован [рбк]
00:10 Пожар в здании Манежа локализован [km.ru]
00:10 Пожар в здании Манежа локализован, от него остались только
стены [newsru.com]
00:10 Пожар в московском Манеже локализован [regnum]
00:10 Пожар в Манеже локализован [нтв]
00:10 Ю.Лужков: Очаг возгорания возник в стропильной части здания
Манежа [рбк]
00:10 Ю.Лужков: Угроза возникновения пожара в зданиях,
расположенных близ Манежа, устранена [рбк]
00:11 Пожар в Манеже локализован [двина-информ]
00:20 Пожар в здании Манежа в центре Москвы локализован [вести.ru]
00:21 Пожар в Манеже локализован. Возможно, во всем виновата сварка
[полит.ру]
00:21 Уголовное дело возбудила Московская прокуратура в связи с
гибелью двух сотрудников УГПС при тушении пожара в Манеже. Они
погибли под рухнувшей крышей Выставочного комплекса [эхо москвы]
00:21 Ю.Лужков: Здание Манежа будет обязательно восстановлено [рбк]
01:00 Мэр Москвы обещает восстановить Манеж [би-би-си]
23:50 В Москве погибли двое пожарных [israland]
23:50 Крыша манежа полностью рухнула [первый канал]
23:50 Поджог Манежа маловероятен, - об этом сообщил ИНТЕРФАКСУ
представитель Штаба на месте происшествия. Это уникальное здание
сгорело практически до тла - уже рухнули стены [эхо москвы]
23:50 При тушении пожара в столичном Манеже погибли двое
сотрудников УГПС [риа "новости"]
23:50 При тушении Манежа погибли двое пожарных [страна.ru]
23:50 Причина пожара в московском Манеже - короткое замыкание?
[regnum]
23:50 Сергей Шойгу: с такими конструкциями как в Манеже,
справляться очень сложно [ниг]
...
============================================


С уважением
Михаил Маслов
maslov70
 
Posts: 21
Joined: Thu Mar 25, 2004 5:48 pm

Re: [romip] О новостной дорожке

Postby neigor » Mon Mar 29, 2004 1:33 pm

Добрый день всем,

Предложенная Михаилом задача конечно интересна.
Но это пока "один из" вариантов, поэтому если у кого-то есть другие
предложения - сформулируйте их пожалуйста.

В частности, так получилось, что хотя в письмах мы писали "новостная
дорожка" (т.е. не фиксируя задачу), но на странице сайта оказалось
"новостной поиск" и заявившиеся на эту дорожку участники (на данный момент
их 4, не считая Михаила) весьма вероятно подразумевали другие задачи.
Поэтому я всех призываю активно подключаться к формированию правил.

Что мне пока не совсем понятно - это планируемые характеристики коллекции
- количество сообщений, средний объем текста, структура сообщения
(это временная метка, заголовок и текст?).

Имеет ли смысл делать честный новостной поиск? Как его тогда можно
организовать (откуда взять запросы и т.п.)

Теперь по поводу задачи, предложенной Михаилом:

> Предлагаю для обсуждения свое понимание задач по новостной дорожке.
>
> Краткая формулировка основной задачи: "Построение иерархически
> организованных кластеров". Как общего списка - "главные новости",
> так тематических - политика-экономика-культура-спорт..., и
> региональных.
>
> Последнее подразумевает необходимость структурирования _всего_ потока
> новостей.

То есть на вход участники получают набор небольших текстовых документов с
временными метками. В качестве выдачи выдают иерархию кластеров
(кластер состоит либо из документов либо из подкластеров или можно и то и
другое? может ли один документ быть в разных кластерах?)

> Как известно, существует новостная дорожка TDT (Topic Detection and
> Tracking) - см. http://www.nist.gov/speech/tests/tdt/ В ней
> определено четыре задачи. Предлагаемая постановка ближе всего к
> задачам Topic Detection и New event detection.

Насколько я помню в TDT все документы в корпусе аннотированы
(то есть для всех указана правильная рубрика) и
общее число тем было сильно ограничено.

Я сомневаюсь, что во входных данных эта информация будет. А
аннотирование всех документов в рамках РОМИП - это выглядит слишком
трудоемко.

В связи с этим мне непонятно как мы собираемся это оценивать.

То что приходит на ум - ассессору дают иерархию и он проверяет ее на
логичность (все ли по теме, размны ли группы), но это довольно нечетко и
совсем непонятно как это переиспользовать. Тем более что разные системы
наверняка начнут выделять разные события и по разному их структурировать.

Можно попробовать видоизменить задачу - кроме потока дать набор событий
и попросить отобрать все что с этим связано (например, для задания событий
можно использовать сообщения из потока или поисковые запросы). но все равно
непонятно как аккуратно оценить иерархию, если нет реального эталона.
Или мы будем просить оценщика структурировать их вручную и назовем это
эталоном?

> Связано это с двумя обстоятельствами: а) неоднородность кластеров по
> масштабу б) необходимость "нежесткого" оценивания расхождений с
> эталоном.
>
> О последнем обстоятельстве я скажу вкратце: понятие "эталонного
> кластера" - imho, более неопределенное и произвольное, чем
> понятие "эталонного ответа поисковой системы"; поэтому и есть желание
> ввести третий (верхний) уровень кластеризации. Если я что-то потерял
> (с т. зр. "эталона"), не включив в основной сюжет, то я имею шанс
> частично исправиться, дав ссылку в блоке "см. также".На самом деле,
> связи "см. также" не обязаны быть симметричными, т.е. это уже не
> обязательно иерархия.

Что-то мне это плохо понятно.
можно об этом поподробнее?

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] О новостной дорожке

Postby neigor » Wed Mar 16, 2005 4:34 pm

Добрый день,

В прошлом году мы пытались сформулировать задачу для новостной
дорожки, но обсуждение увяло, когда стало понятно, что коллекция
не будет готова к РОМИП'2004. В этом году она похоже будет,
так что предлагаю вернуться к этому вопросу и выбрать
интересную многим задачу.

Оригинальное обсуждение можно найти здесь
http://groups.yahoo.com/group/romip/message/148
(там не все ответы в одной нитке - смотрите на темы сообщений)

Вот исходное предложение Михаила Маслова:

> Краткая формулировка основной задачи: "Построение иерархически
> организованных кластеров". Как общего списка - "главные новости",
> так тематических - политика-экономика-культура-спорт..., и
> региональных.
>
> Последнее подразумевает необходимость структурирования _всего_ потока
> новостей.
>
> Классификация кластеров по рубрикам - довольно простая задача, ее
> предлагается считать решенной. Кришна Бхарат тоже об этом
> говорил :) - см. http://www.russ.ru/netcult/gateway/20031013.html
>
> Есть и другие задачи (напр. интересно много-документное аннотирование
> сюжетов, их "озаглавливание"), но пока непонятно, как оценивать
> качество результатов (кто-то здесь уже писал про такие трудности для
> аннотирования).
>
> Как известно, существует новостная дорожка TDT (Topic Detection and
> Tracking) - см. http://www.nist.gov/speech/tests/tdt/ В ней
> определено четыре задачи. Предлагаемая постановка ближе всего к
> задачам Topic Detection и New event detection.
>
> (Я готов сделать более подробный обзор TDT - постановок задач,
> принципов измерения качества, принципов формирования корпусов)
>
> При этом, imo, _весьма_ важно, чтобы кластеры имели иерархическую
> структуру (как минимум два уровня, лучше три). В соответствии с этим
> нужно строить "эталонные" корпуса. И это главное отличие от подхода,
> принятого в ТDT (во всяком случае, первоначального).
>
> Связано это с двумя обстоятельствами: а) неоднородность кластеров по
> масштабу б) необходимость "нежесткого" оценивания расхождений с
> эталоном.
>
> О последнем обстоятельстве я скажу вкратце: понятие "эталонного
> кластера" - imho, более неопределенное и произвольное, чем
> понятие "эталонного ответа поисковой системы"; поэтому и есть желание
> ввести третий (верхний) уровень кластеризации. Если я что-то потерял
> (с т. зр. "эталона"), не включив в основной сюжет, то я имею шанс
> частично исправиться, дав ссылку в блоке "см. также".На самом деле,
> связи "см. также" не обязаны быть симметричными, т.е. это уже не
> обязательно иерархия.
>
> А первое обстоятельство я опишу в этом посте более подробно.
>
> Дело в том, что по опыту Яндекс-Новостей, кластеры имеют очень разные
> размеры. И это представляется вполне адекватным отражением
> действительности.
>
> Качественное описание рангового распределения кластеров (на примере
> ЯН ~ 10-15 тыс. новостных сообщений в день) выглядит примерно так:
>
> - раз или два в месяц - "мегасобытия"(размер сюжета ~ 500-1000
> сообщений)
> - три-пять раз в неделю "события недели" (~200-500)
> - три-пять раз в день "важные события дня" (~50-200)
> - 20-50 в день "текущие события дня" (~10-50)
> - 1-3 тысячи в день "маленьких" кластеров -(~2-10)
> - порядка 3-7 тысяч "синглетонов" (событий, описываемых в одном
> сообщении)
>
> (числа - на глаз, границы проведены довольно-таки произвольно)
>
> Ясно, что события размером более 50 сообщений показывать
> пользователю "плоским списком" - весьма неюзабильно.
>
> Тем не менее обе системы - ЯН и Google News - показывают
> их "плоско", поскольку, по-видимому, для построения "тонкой
> структуры" событий не хватает разрешающей способности методов
> кластеризации.
>
> Это при том, что именно большие сюжеты пользователи видят в первую
> очередь, поскольку они(сюжеты) ранжируются высоко. И новостные
> сервисы становятся весьма востребованными именно во
> время "мегасобытий", при этом к качеству их работы именно в эти
> моменты предъявляются повышенные требования.
>
> Опишу желаемую картинку на примере сюжета "пожар в манеже" (около 180
> сообщений с 14-го марта 21:40 до 15-го марта 01:30)
>
> 21:40-22.30 В Москве горит здание Манежа (20-30 сообщений)
> 22:20-23.50 В горящем здании Манежа обрушилась кровля (10)
> 22:50-23:50 При пожаре в Манеже погибли двое пожарных (15)
> 22:50-23:50 В здании журфака МГУ началось тление оконных рам (20)
> 23:10-23:40 По факту пожара в Манеже возбуждено уголовное дело (7)
> 23:40-00:00 Глава МЧС: для тушения Манежа будет задействована авиация
> (3)
> 00:00-01:10 Пожар в здании Манежа в центре Москвы локализован (15)
> 01:00-01:30 Мэр Москвы обещает восстановить Манеж (15)
>
> Картинка приблизительная и неполная.
>
> Вот для сравнения небольшой фрагмент этого сюжета в "плоском" формате:
>
> =================================
> ...
> 00:00 На тушение Манежа брошена авиация [газета.ru]
> 00:00 Пожар в здании Манежа в центре Москвы локализован
> [риа "новости"]
> 00:00 Пожар в здании Манежа локализован [страна.ru]
> 00:00 Пожар в Манеже локализован [би-би-си]
> 00:00 Пожар в Манеже локализован [газета.ru]
> 00:00 Пожар в Манеже пока не перекинулся на здание факультета
> журналистики МГУ, сообщил в эфире радиостанции "Эхо Москвы" декан
> факультета Ясен Засурский [эхо москвы]
> 00:10 Двое пожарных погибли в результате сильнейшего пожара,
> осветившего огнем весь Кремль в день выборов президента России,
> возникшего в центре Москвы. Загорелось одно из ... [эхо москвы]
> 00:10 На место пожара к Манежу прибыл премьер-министр Михаил
> Фрадков [риа "новости"]
> 00:10 Пожар в здании Манежа локализован [рбк]
> 00:10 Пожар в здании Манежа локализован [km.ru]
> 00:10 Пожар в здании Манежа локализован, от него остались только
> стены [newsru.com]
> 00:10 Пожар в московском Манеже локализован [regnum]
> 00:10 Пожар в Манеже локализован [нтв]
> 00:10 Ю.Лужков: Очаг возгорания возник в стропильной части здания
> Манежа [рбк]
> 00:10 Ю.Лужков: Угроза возникновения пожара в зданиях,
> расположенных близ Манежа, устранена [рбк]
> 00:11 Пожар в Манеже локализован [двина-информ]
> 00:20 Пожар в здании Манежа в центре Москвы локализован [вести.ru]
> 00:21 Пожар в Манеже локализован. Возможно, во всем виновата сварка
> [полит.ру]
> 00:21 Уголовное дело возбудила Московская прокуратура в связи с
> гибелью двух сотрудников УГПС при тушении пожара в Манеже. Они
> погибли под рухнувшей крышей Выставочного комплекса [эхо москвы]
> 00:21 Ю.Лужков: Здание Манежа будет обязательно восстановлено [рбк]
> 01:00 Мэр Москвы обещает восстановить Манеж [би-би-си]
> 23:50 В Москве погибли двое пожарных [israland]
> 23:50 Крыша манежа полностью рухнула [первый канал]
> 23:50 Поджог Манежа маловероятен, - об этом сообщил ИНТЕРФАКСУ
> представитель Штаба на месте происшествия. Это уникальное здание
> сгорело практически до тла - уже рухнули стены [эхо москвы]
> 23:50 При тушении пожара в столичном Манеже погибли двое
> сотрудников УГПС [риа "новости"]
> 23:50 При тушении Манежа погибли двое пожарных [страна.ru]
> 23:50 Причина пожара в московском Манеже - короткое замыкание?
> [regnum]
> 23:50 Сергей Шойгу: с такими конструкциями как в Манеже,
> справляться очень сложно [ниг]
> ...
> ============================================
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm


Return to Экспериментальные дорожки

Who is online

Users browsing this forum: No registered users and 7 guests

cron