romip.ru

by **maslov70** » Tue Apr 26, 2005 7:00 pm

> Пользователь видит "лицо" кластера и имеет некоторые ожидания
> относительно его состава.

Усомнюсь в том, что пользователь имеет ожидания. В поиске, когда он задает
запрос,
т.е. говорит явно, что ему надо, он действительно их имеет. В новостях у
него _нет_ явно сформулированного
запроса, его потребность другая -- узнать, что нового (не буду очередной раз
ссылаться на Бхарата).
В каждом конкретном случае -- с чего началось событие, чем оно кончилось,
что(кто) с этим связано(связан) и т.п.

>
> Я не очень понимаю, что значит "само разбиение на кластеры".

Разбиение на кластеры -- это предмет обсуждаемой дорожки.
Это было сформулировано ранее:
http://groups.yahoo.com/group/romip/message/406
и до сих пор у участников обсуждения возражений не вызывало

Ближайший аналог такой дорожки -- Topic Detection в TDT:
http://www.nist.gov/speech/tests/tdt/tasks/detect.htm

> Потому что у нас, например, есть собственные идеи как должны делиться
> кластеры в иерархии событий.

Расскажите, пожалуйста, поподробнее -- не о механизмах, а о критериях их
деления.
Иначе трудно обсуждать постановку задачи.

С уважением
Михаил Маслов

by **maslov70** » Wed Apr 27, 2005 12:02 am

Я вспомнил обсуждение новостной задачи с участием Бориса
и разработчика Новотеки Вячеслава Тихонова:

http://forum.searchengines.ru/showthrea ... pagenumber\
=6

-- и мне показалось, что я понял, в чем одно из
главных различий подхода Бориса и Вячеслава
(моя позиция в данном вопросе, по-видимому,
близка к позиции Вячеслава).

Один из главных вопросов: какова роль асессора в новостной дорожке?
Грубо говоря, кого он представляет, "читателей" или "писателей"?

Рассмотрим два случая дорожек -- поисковую и классификационную.

В случае поисковой дорожки асессоры, imho, играют роль "читателей".
Им говорят: представьте, что вы пользователь поисковой системы,
вам необходимо найти нечто (дается аннотация) и вы задали вот такой запрос.
Оцените вот этот список ссылок на предмет соответствия запросу.
Ответы асессоров являются критерием качества работы поисковых систем.
Кроме того, по ним можно построить эталон выдачи поисковой системы.
Или несколько эталонов - например, в случае многозначных запросов
(не буду углубляться в этот аспект ...)

С другой стороны, есть задача классификации документов (или сайтов в Вебе).
Здесь есть эталон, т.е. результат ручной классификации документов или
сайтов.
И здесь есть асессоры, коими можно назвать тех, кто относил документы
к темам, т.е. создатели эталона. В случае сайтов, например, это редакторы
веб-каталога -- не люди с улицы, а люди, тем или иным образом
отобранные и подготовленные.

В этих двух случаях есть существенная разница.
В первом случае асессоры представляют
"простого пользователя", а во втором -- редактора-"профессионала".
Вероятно, это не случайно: "редактор выдачи поисковой системы"
выглядит явным оксюмороном, а "редактор каталога"
-- вполне естественное понятие.

К какому же случаю ближе асессоры новостной дорожки?

Мне кажется, что их роль явно ближе к роли редакторов.
Т.е., как и в случае (тематической) классификации их задача -- формировать
то,
что называется 'Topic' (не хочу употреблять русский термин --
он действительно, как говорил Владимир, скользкий).
Разница не очень велика: в случае тематической классификации
это subject-based topic, а в случае новостной -- event-based topic.
И в реальной жизни эта роль близка к роли редактора
новостного издания. Основное сходство ролей в том,
что необходимы:
а) подготовленность -- в смысле знания некоторых
основных принципов работы с материалом
б) проработка материала.

Похоже, таково же мнение и создателей гугль-ньюз
(все-таки сошлюсь еще раз: русский перевод
http://www.russ.ru/netcult/gateway/20031013.html ,
ссылка на оригинал есть в начале статьи).
Бхарат говорит, что метафорой для гугль-ньюз является _газета_, т.е.
результат
деятельности авторов и редакторов. За что по-видимому, последние и
обижаются --
"автомат посмел нас заменить!" -- и не упускают случая "ткнуть носом"
автомат в его ошибки (Бхарат как бы заочно оправдывается перед ними
и убеждает в том, что гугль-ньюз -- это их партнер, а не конкурент)

С уважением
Михаил Маслов

by **dobroff2003** » Wed Apr 27, 2005 10:16 am

Добрый день,

Michael Maslov wrote:
>
> > Пользователь видит "лицо" кластера и имеет некоторые ожидания
> > относительно его состава.
>
> Усомнюсь в том, что пользователь имеет ожидания. В поиске, когда он задает
> запрос,
> т.е. говорит явно, что ему надо, он действительно их имеет. В новостях у
> него _нет_ явно сформулированного
> запроса, его потребность другая -- узнать, что нового (не буду очередной раз
> ссылаться на Бхарата).
> В каждом конкретном случае -- с чего началось событие, чем оно кончилось,
> что(кто) с этим связано(связан) и т.п.
>

Ну не знаю, нужны ли авторитеты для обсуждения естественного поведения.

Мне представляются достаточно сомнительными "внешние" теории о том, что
пользователь выделяет сразу "событие", причем сразу в соответствии с
рассуждениями ученых мужей.

Понятие "ожидание" - психологическое, я лично сужу по себе.

Если недавно в Новотеке было лицо кластера "Путин и Буш встречаются в
Любляне", а кластер был набит протестами антиглобалистов, то это меня
как пользователя раздражает, так как вступает в противоречие с моими
ожиданиями о составе кластера в тот момент, когда я в него вошел.

При этом меня не волнует, какие были гениальные размышления положены в
основу сборки этого кластера,
какие гениальные алгоритмы реализованы. Теория флогистона была неплоха.

> >
> > Я не очень понимаю, что значит "само разбиение на кластеры".
>
> Разбиение на кластеры -- это предмет обсуждаемой дорожки.
> Это было сформулировано ранее:
> http://groups.yahoo.com/group/romip/message/406
> и до сих пор у участников обсуждения возражений не вызывало
>
> Ближайший аналог такой дорожки -- Topic Detection в TDT:
> http://www.nist.gov/speech/tests/tdt/tasks/detect.htm
>

да......

Что-то я, конечно, слышал о TDT

Могу только повториться, полагаю надо идти от реального поведения
пользователей (которым нет дела до кластеров, до того "с чего начиналось
событие" и т.п.), а не от прекрасных алгоритмов разработчиков.

TDT не идеален (см. IR-365: Allan, J., Harding, S., Fisher, D., Bolivar,
A., Guzman-Lara, S., and Amstutz, P., "Taking Topic Detection From
Evaluation to Practice" in CD Proceedings of the Thirty-Eighth Annual
Hawaii International Conference on System Sciences (HICSS) 3-6 January
2005 p. 101
http://ciir.cs.umass.edu/pubfiles/ir-365.pdf).

> > Потому что у нас, например, есть собственные идеи как должны делиться
> > кластеры в иерархии событий.
>
> Расскажите, пожалуйста, поподробнее -- не о механизмах, а о критериях их
> деления.
> Иначе трудно обсуждать постановку задачи.
>

Критерий один - одобрение большинством асессоров.

Причем, если анализируется только один автомат, то ясно, можно мерить
только точность проверяемого кластера.

Более правильно, предъявлять пользователю и аналогичные кластеры - вдруг
исходный был не полон,
что могло влечь совсем другое разбиение на кластеры.

Однако, как определить аналогичные кластеры?

Поэтому я предлагаю идти от сообщений.

Michael Maslov home wrote:
>
> Я вспомнил обсуждение новостной задачи с участием Бориса
> и разработчика Новотеки Вячеслава Тихонова:
>
>
http://forum.searchengines.ru/showthrea ... pagenumber\
=6
>
> -- и мне показалось, что я понял, в чем одно из
> главных различий подхода Бориса и Вячеслава
> (моя позиция в данном вопросе, по-видимому,
> близка к позиции Вячеслава).
>
> Один из главных вопросов: какова роль асессора в новостной дорожке?
> Грубо говоря, кого он представляет, "читателей" или "писателей"?
>

Я полагаю, конечно, "читателей".

Иначе, писатели могут иметь миллион интерпретаций, в частности не
событийную, но тематическую.

> С другой стороны, есть задача классификации документов (или сайтов в Вебе).
> Здесь есть эталон, т.е. результат ручной классификации документов или
> сайтов.
> И здесь есть асессоры, коими можно назвать тех, кто относил документы
> к темам, т.е. создатели эталона. В случае сайтов, например, это редакторы
> веб-каталога -- не люди с улицы, а люди, тем или иным образом
> отобранные и подготовленные.
>

Основная проблема классификации текстов именно в том, что в больших
масштабах люди НЕ МОГУТ создать непротиворечивую "консистентную"
коллекцию - будь они хоть лучшими экспертами (в среднем согласие 60%).

> В этих двух случаях есть существенная разница.
> В первом случае асессоры представляют
> "простого пользователя", а во втором -- редактора-"профессионала".
> Вероятно, это не случайно: "редактор выдачи поисковой системы"
> выглядит явным оксюмороном, а "редактор каталога"
> -- вполне естественное понятие.
>

Эксперт-классификатор может придерживаться своей точки зрения.
Я, например, часто вижу, что эксперты юристы (по два высших образования)
долго спорят о том как надо классифицировать тот или иной документ.

Пользователь же хочет найти документ. И для него (асессора) вполне
значимы характеристики полноты и точности поиска по классификатору.

Так что я разницы не вижу.

> К какому же случаю ближе асессоры новостной дорожки?
>
> Мне кажется, что их роль явно ближе к роли редакторов.
> Т.е., как и в случае (тематической) классификации их задача -- формировать
> то,
> что называется 'Topic' (не хочу употреблять русский термин --
> он действительно, как говорил Владимир, скользкий).
> Разница не очень велика: в случае тематической классификации
> это subject-based topic, а в случае новостной -- event-based topic.

Именно. Мы обсуждаем идеальные алгоритмы для неформализованных понятий.

> И в реальной жизни эта роль близка к роли редактора
> новостного издания. Основное сходство ролей в том,
> что необходимы:
> а) подготовленность -- в смысле знания некоторых
> основных принципов работы с материалом
> б) проработка материала.
>
> Похоже, таково же мнение и создателей гугль-ньюз
> (все-таки сошлюсь еще раз: русский перевод
> http://www.russ.ru/netcult/gateway/20031013.html ,
> ссылка на оригинал есть в начале статьи).
> Бхарат говорит, что метафорой для гугль-ньюз является _газета_, т.е.
> результат
> деятельности авторов и редакторов. За что по-видимому, последние и
> обижаются --
> "автомат посмел нас заменить!" -- и не упускают случая "ткнуть носом"
> автомат в его ошибки (Бхарат как бы заочно оправдывается перед ними
> и убеждает в том, что гугль-ньюз -- это их партнер, а не конкурент)
>

ну и что? Есть некоторая реализация, кто спорит.
Наверное, хорошая - сами по себе частные ошибки ни о чем не говорят.

Разве наш вопрос - повторить гугль-ньюз?
Разве он единственен?

Наш вопрос - попробовать разобраться как должно быть, какие критерии,
какие типы ошибок есть,
какой УРОВЕНЬ ОШИБОК допустим (чтобы вернуться, например, к оценке того
же гугль-ньюз) и т.п.

Борис

by **maslov70** » Wed Apr 27, 2005 11:16 pm

ВП > Важно то, что эти явления протекают
каждое в своем жанре, по типовому сценарию с небольшими вариациями. Эти
сценарии
можно представить себе как наборы слотов. Если событие попало, в какой-то из
слотов, то порождается какой-то из сценариев (может быть несколько
сценариев).

Делить события на типы и задавать для них сценарии -- очень правильная идея.
В терминах построения эталонов в TDT это называется типами событий (types
of seminal events),
для каждого типа задются правила интерпретации(rules of interpertation) --
для асессоров.

ВП> Сколько сценариев может быть? Думаю, для достижения промышленного
качества
достаточно несколько сотен, возможно, тысяч. Главное - их при наличии
некоторого
гипотетического инструментария и удачно подобранного формализма можно
достаточно
быстро подготовить.

Владимир, я боюсь, что в контексте построения дорожки выделить
несколько сотен типов, и задать для них сценарии - неподъемная задача :-( .
Да у нас и корпуса, наверное, недостаточно для этого представительны
-- не факт, что там есть, напр. смерть vip-персоны ...

С другой стороны, асессорам будет нелегко в таком кол-ве типов
ориентироваться.

Мне кажется, для асессоров нужно меньшее кол-во типов. В TDT2 -TDT3,
например,
их было одиннадцать:

--------------------------------
1. Выборы (напр. новые назначения(?), изменения в правительстве, выборные
скандалы)

2. Скандалы / слухи (напр. моника левински)

3. Судебные разбирательства / преступления (напр. преступления, аресты,
расследования)

4. Природные бедствия (напр. торнадо, наводнения, засухи, обвалы, извержения
вулканов)

5. Происшествия (напр. аварии/крушения трансп. средств, обрушения берега,
... )

6. Война / насилие (терроризм в этом типе, похоже)

7. Научно-исследовательские новости

8. Финансы (напр. экономические кризисы, слияния компаний)

9. Новые законы (предлагаемые поправки к законам, новые законопроекты)

10 Спорт

11. Разное (смерть доктора Спока, визит Мадлен Олбрайт в Канаду)
--------------------------------

Эти типы для нашей действительности местами нетипичны, наверное.
Но, если мы при построении дорожки будем основываться на
типах событий и "правилах интерпретации", то, imho,
можно взять их за основу, местами подправив и дополнив.

И "правила интерпретации", imho, чересчур жесткая постановка вопроса,
м.б. действительно, лучше говорить асессорам о "типичных сценариях"?

С уважением
Михаил Маслов

by **vladimir_pleshko** » Thu Apr 28, 2005 2:28 pm

Я ничего такого не имел ввиду, в том числе и предложения типов сценариев
ассессорам. Просто это были мысли вслух о задаче. Еще вынужден признаться в
своей дремучести - я не знаком с публикациями по TDT. В этом смысле я, возможно,
вношу некий деструктив в обсуждение.

> Эти типы для нашей действительности местами нетипичны, наверное.
> Но, если мы при построении дорожки будем основываться на
> типах событий и "правилах интерпретации", то, imho, можно
> взять их за основу, местами подправив и дополнив.
>
> И "правила интерпретации", imho, чересчур жесткая постановка
> вопроса, м.б. действительно, лучше говорить асессорам о
> "типичных сценариях"?

Рациональное зерно, мне кажется в том, что ассесору для лучшего интуитивного
понимания задачи можно сказать, что "как правило, сюжет строится по какому-либо
типовому сценарию с небольшими вариациями" и привести несколько сценариев для
примера.

Кстати, задача классификации сюжетов по типам тоже интересна. Если в этом году
участникам удастся получить удовлетворительный результат (или понять, почему его
не удалось получить), то на следующий год можно будет добавить и классификацию
сюжетов.

С уважением,
Владимир Плешко

by **maslov70** » Thu Apr 28, 2005 11:00 pm

Добрый день.

BD> Если недавно в Новотеке было лицо кластера "Путин и Буш встречаются в
> Любляне", а кластер был набит протестами антиглобалистов, то это меня
> как пользователя раздражает, так как вступает в противоречие с моими
> ожиданиями о составе кластера в тот момент, когда я в него вошел.

> При этом меня не волнует, какие были гениальные
> размышления положены в основу сборки этого кластера,
> какие гениальные алгоритмы реализованы.

Напоминаю, что обсуждается не дилемма "суждения пользователей
-- суждения авторов алгоритма", а дилемма "суждения пользователей
-- суждения экспертов". Эксперты не глупее пользователей и тоже
и не допустили бы такого офтопика.

MM >> Расскажите, пожалуйста, поподробнее -- не о механизмах,
>> а о критериях их деления.
>> Иначе трудно обсуждать постановку задачи.

BD > Критерий один - одобрение большинством асессоров.
> Причем, если анализируется только один автомат,
> то ясно, можно мерить только точность проверяемого кластера.
> Более правильно, предъявлять пользователю и
> аналогичные кластеры - вдруг
> исходный был не полон,
> что могло влечь совсем другое разбиение на кластеры.
> Однако, как определить аналогичные кластеры?
> Поэтому я предлагаю идти от сообщений.

То есть, асессоры должны сравнивать все-таки кластеры, и ранжировать
их по степени адекватности соответствующему событию.

Борис, это действительно очень трудоемкая и нетривиальная задача --
особенно для больших, и, следовательно, наиболее интересных кластеров.

Я занимался этим, когда настраивал параметры базового
алгоритма яндекс.новостей. Это было очень муторно
-- при том, что за раз я сравнивал _две_близких_ версии алгоритма
(vs _много_разных_ алгоритмов) и в
подавляющем большинстве случаев я ориентировался только
по заголовкам сообщений
(а мы ведь не можем позволить такой халтуры асессорам?).

И больше всего меня расстраивало то, что результат
сравнения двух версий
разбиения практически невозможно использовать повторно:
новая вариация параметров влечет за собой новое сравнение разбиений.
Через "пару тысяч ведер" мне захотелось эталона,
но это -- капитальные вложения в проект ...

Т.е. imo, основные недостатки этого подхода:

1) Трудоемкость
2) Невозможность повторного использования результатов труда. Новый
участник дорожки или даже версия алгоритма старого участника
=> новое мучение для асессоров.

Построить несколько версий эталонного разбиения коллекции будет и легче,
и, главное, полезней.

С уважением
Михаил Маслов

by **dobroff2003** » Tue May 03, 2005 10:16 am

Добрый день!

Так все-таки есть у кого-то ясность как будет "оцениваться" новостная
дорожка?

Предложенная "агломеративная" модель имеет следующие недостатки:

1) Действительно, сборка "минимальных" кластеров скорее всего близка во
всех системах.
Однако далее асессоры наклеют равное количество "эталонных" кластеров
равное количеству асессоров.
Напомню, что в TDT использовались специально обученные асессоры,
которые работали в течение достаточно продолжительного времени, и все
равно результаты их работы сильно удивили остальных, так что есть точка
зрения, что асоссоров не так обучили.

У нас асессоры - студенты. Какого качества кластеры мы ожидаем
получить?

Что можно будет делать с этими кластерами?

2) Идея "агломеративной" модели описана явно.
При том, что я не очень понимаю ее соотнесенность с
действительностью,
я неплохо, как мне кажется, понимаю, что можно нарисовать специальный
метод и "подогнать" результаты под результаты модели.

3) Следует учесть, что выдано ОЧЕНЬ МАЛО документов от ОЧЕНЬ МАЛОГО
количества источников, причем слабо пересекающихся по тематике. В
результате в каждой неделе ПРОСТО ПО КОЛИЧЕСТВУ (!) есть всего 2-3
нетривиальных "больших" кластера, что тоже позволяет подкручивать явно
или неявно.

В связи с этим:

а) предлагаю дорожку провести - то есть прогоны выполнить, результаты
собрать

б) однако, фактического "соревнования" асессорами не проводить,
ограничиться на этот год автоматическими сравнениями между результатами
разных участников, что может быть поможет выработать критерии оценки на
следующий год.

Борис

by **neigor** » Wed May 04, 2005 7:30 am

Я попробовал просуммировать свое текущее понимание постановки задачи
http://romip.narod.ru/ru/2005/tracks/news-track.html

Что касается оценки, то я частично согласен с Борисом, а именно:

1) весьма вероятно "эталонные разбиения" будут сильно различаться
2) по идее все-таки важно оценивать, насколько пользователю удобно
3) что у агломеративной модели есть ряд недостатков
4) что пока непонятно насколько недостаточно материала в текущей коллекции

я не согласен, что из-за этого стоит отказаться от использования человека
при оценке вообще.

Вообщем-то мне кажется полезной идея про "лицо кластера", ведь
это то, что пользователь видит прежде чем решает лезть ли дальше в эту тему.

Какие вообще возникают проблемы у пользователя? Что приходит в голову:
- польстился на "лицо", а содержимое ему не соответствует
- часть кластера не относится к этому сюжету (точность)
- не получить полной картины так как
потеряны связи с другими близкими сообщениями (полнота)
что-нибудь еще?

По идее мерять надо как раз проблемы и соответственно задача асессорам
выявить эти проблемы.

> Так все-таки есть у кого-то ясность как будет "оцениваться" новостная
> дорожка?

А как насчет следующей вариации на тему пулинга:

1) От каждой системы берем N кластеров. У каждого кластера есть сообщение
"лицо", которое система выбирает сама по своим принципам.
2) Для каждого отобранного "лица" строим пул -
объединение всех кластеров всех систем куда попало это сообщение
3) Асессор оценивает этот пул на предмет "выбора подмножества сообщений
относящихся к этому же сюжету что и заданное заглавное".
Оценка по шкале как предлагал Илья -
входят ли они в один сюжет, в один надсюжет, или вообще на разную тему
Но производится она не для пар сообщений, а асессору дается список,
который надо рассортировать.

Оценки - сравнение эталонных кластеров с кластерами в ответе.

Мы не получим полного эталона
но получим несколько "эталонных кластеров" для каждого из лиц.
рассхождения между асессорами конечно будут, но есть надежда что
в таком случае разные варианты будут сильно пересекаться
(ну и всегда можно вспомнить про сильные/слабые требования

-igor

by **maslov70** » Thu May 05, 2005 5:44 pm

Добрый день.

> Предложенная "агломеративная" модель имеет следующие недостатки:
>
> 1) Действительно, сборка "минимальных" кластеров скорее всего близка во
> всех системах.
> Однако далее асессоры наклеют равное количество "эталонных" кластеров
> равное количеству асессоров.

Я согласен с наличием проблемы необученности асессоров.

Но я _абсолютно_ не вижу проблемы в множественности образцов.
Предлагаю считать, что решение таких задач _в_принципе_ не единственно.
Например, согласие экспертов в 60% для задачи классификации
_совершенно_естественно_ -- эксперт имеет право иметь свою
картину предметной области, несколько отличную от картины мира
других экспертов. Imho, неправильно считать идеальной оценкой "усредненную".

То же (пожалуй, в существенно большей степени) для новостей. Например,
у русских экспертов и пользователей один взгляд на события (и
медиапространство),
у украинских -- слегка другой(другое), а у каких-нибудь японцев -- совсем
третий(третье).
Или у коммунистов и либералов, москвичей и питерцев и т.п.

> Напомню, что в TDT использовались специально обученные асессоры,
> которые работали в течение достаточно продолжительного времени, и все
> равно результаты их работы сильно удивили остальных, так что есть точка
> зрения, что асоссоров не так обучили.

Я не в восторге от процедуры построения эталона в TDT 1998--2002

В частности, если строить топик из 500-1000 сообщений,
каждый раз анализируя одно из сообщений вне контекста, то, конечно,
топик в целом получится кривым -- за деревьями не видно леса.

Imo, автоматическое "первичное склеивание" (признанное Борисом
вполне беспроблемным ) позволит сократить количество _содержательно_
анализируемых объектов раз в 5-10, картина станет более обозримой, и это в
конечном счете должно положительно сказаться на качестве образцов.

> У нас асессоры - студенты. Какого качества кластеры мы ожидаем
> получить?
>
> Что можно будет делать с этими кластерами?

а) Можно оценить качество работы асессоров (автоматом или вручную),
придать каждому из них "вес" в соответствии с качеством,
который использовать при оценке работы систем.

б) Можно неоднократно возвращаться к созданным эталонам,
соответствующим конкретной коллекции, и исправлять их, не делая "с нуля"
-- в соответствии с уточненным пониманием задачи.

в) Можно, наконец, строить их постепенно, начиная с
самых больших и важных событий и продвигаясь
к менее важным.

> 2) Идея "агломеративной" модели описана явно.
> При том, что я не очень понимаю ее соотнесенность с
> действительностью,
> я неплохо, как мне кажется, понимаю, что можно нарисовать специальный
> метод и "подогнать" результаты под результаты модели.

Подгонять надо не под "результаты модели", а под конкретный образец,
созданный людьми. Я думаю, что это непросто, особенно
учитывая обстоятельства, упомянутые в первом пункте.

Второй пункт Бориса голословен и, в чем-то противоречит
первому пункту (с моими комментариями),
поэтому я не соглашаюсь.

> 3) Следует учесть, что выдано ОЧЕНЬ МАЛО документов от ОЧЕНЬ МАЛОГО
> количества источников, причем слабо пересекающихся по тематике.

Давайте ОТДЕЛИМ вопрос объема коллекции от других, в частности от метода
оценки.
Иначе у нас для каждого объема и каждый год будут разные методы.

> В результате в каждой неделе ПРОСТО ПО КОЛИЧЕСТВУ (!) есть всего 2-3
> нетривиальных "больших" кластера, что тоже позволяет подкручивать явно
> или неявно.

Ну, метод борьбы с подкрутками более-менее известен.
Делим эталон (эталоны) на две части -- обучающая и тестовая.
Обучающую отдаем разработчикам систем -- с эталонными разбиениями
и на продолжительное время. А тестовую -- без разбиений
и на короткое время, достаточное только для запуска программы
и отсылки результатов.

Это, кстати, вполне соответствует условиям работы
новостных систем -- есть какой-то опыт на основе
прошедших событий, однако новые события могут быть
_совершенно_ отличными от уже бывших (во всяком случае, по лексике)

Кроме того, ориентация на сборку больших кластеров
обычно ведет к пере-склеиванию маленьких. Здесь, как и везде,
есть "рычаг" типа точности-полноты ...

Imo, по третьему пункту -- принципиальных проблем нет.

>
>
> В связи с этим:
>
> а) предлагаю дорожку провести - то есть прогоны выполнить, результаты
> собрать
>
> б) однако, фактического "соревнования" асессорами не проводить,

> ограничиться на этот год автоматическими сравнениями между результатами
> разных участников, что может быть поможет выработать критерии оценки на
> следующий год.

Я, между прочим, изначально не очень надеялся на полноценный
прогон в этом году. Вспомните историю нынешних дорожек РОМИП-а
(справка от Ильи Сегаловича):

2001 год -- начало общения участников по переписке
2002 год -- первое очное обсуждение
2003 год -- прогон типа "первого блина"
2004 год -- первый полноценный прогон

Сейчас новостная дорожка находится где-то между первой и второй стадией.

Однако, это совершенно не означает, что надо приостановить обсуждение задачи
до следующего года и "ограничиться на этот год автоматическими
сравнениями между результатами". Идея "общего котла" для новостной дорожки
не является безальтернативной (это в случае поиска ее можно таковой
признать),
и не кажется мне оптимальной.

С уважением
Михаил Маслов

by **maslov70** » Thu May 05, 2005 8:22 pm

Добрый день еще раз.

> 1) весьма вероятно "эталонные разбиения" будут сильно различаться
> 2) по идее все-таки важно оценивать, насколько пользователю удобно
> 3) что у агломеративной модели есть ряд недостатков

пп 1-3 -- см. ответ Борису http://groups.yahoo.com/group/romip/message/488

О "ряде недостатков". Imho, по большому счету их два:

1. Затратность построения инструментария для оценок (Маслов,
http://groups.yahoo.com/group/romip/message/408 , первый из раздела
"Недостатки подхода maslov")
2. Проблема обучения асессоров (Добров,
http://groups.yahoo.com/group/romip/message/483 , частично п.1)

> 4) что пока непонятно насколько недостаточно материала в текущей коллекции

Что ж, мы будем продолжать работу по заключению соглашений с новыми
агентствами ...

>
> я не согласен, что из-за этого стоит отказаться от использования человека
> при оценке вообще.
>
> Вообщем-то мне кажется полезной идея про "лицо кластера", ведь
> это то, что пользователь видит прежде чем решает лезть ли дальше в эту
тему.
>
> Какие вообще возникают проблемы у пользователя? Что приходит в голову:
> - польстился на "лицо", а содержимое ему не соответствует

Давайте все-таки разделим задачи -- у формирования "лица" очень много разной
специфики.

Например, примерно в половине случаев для пользователей я.новостей
лицом кластера
является _только_ заголовок -- для тех, кто кликает на них с главной
странице яндекса, а также тех, кто кликает их из яндекс.почты и других
-- внешних -- мест, типа http://www.novgorod.ru (правая колонка).

В этом случае у задачи выбора "лица" есть ряд особенностей:

а) Заголовок должен быть взят от сообщения, которое достаточно хорошо
представляет состояние сюжета на текущий момент
б) Заголовок должен быть взят от сообщения от "достаточно хорошего"
агентства (оценка агентств -- отдельная история)
в) Заголовок должен быть не слишком длинным и не слишком коротким
г) Есть проблема "жареных" заголовков, когда редактор _намеренно_
делает заголовок "не соответствующим содержанию документа"
(и, след-но, кластера) Реальные примеры: 'В Норильске найден труп
Абрамовича'
(не губернатора Чукотки), 'Москва ждет атаки с запада'
(сообщение об атмосферном фронте) и т.п.
-- и т.п.

Например, в последнем случае подход, основанный на "ожидаемости для
пользователя" может сильно оштрафовать систему, которая сделала
точный и полный кластер, но выбрала "жареный" заголовок.
При том, что, вообще говоря, с "жареными" заголовками
полностью автоматически бороться, imho, очень
трудно, если вообще возможно ...

Поэтому мне не нравится идея привязывать оценку разбиения новостного
потока на сюжеты к оценке его "лица".

> - часть кластера не относится к этому сюжету (точность)
> - не получить полной картины так как
> потеряны связи с другими близкими сообщениями (полнота)
> что-нибудь еще?

У я.новостей одна из основных задач -- формирование актуального
списка 'главных событий дня'
-- в виде топ-5 (или 15, то же самое по темам). Там потери полноты
чреваты тем, что в топе могут оказаться
несколько кластеров, посвященных одному событию,
что воспринимается как серьезная ошибка системы.

Но ранжирование сюжетов -- опять-таки, отдельная задача ...

>
> По идее мерять надо как раз проблемы и соответственно задача асессорам
> выявить эти проблемы.
>
> > Так все-таки есть у кого-то ясность как будет "оцениваться" новостная
> > дорожка?
>
> А как насчет следующей вариации на тему пулинга:
>
> 1) От каждой системы берем N кластеров. У каждого кластера есть сообщение
> "лицо", которое система выбирает сама по своим принципам.
> 2) Для каждого отобранного "лица" строим пул -
> объединение всех кластеров всех систем куда попало это сообщение

а) Есть опасность, что будут получаться очень большие пулы.
Причем чем больше участвует систем, тем больше пулы.
Кроме того, опасно наличие "агрессивных склеивателей" среди
систем-участников,
типа нынешней Новотеки.
Кроме того, опасны документы-"дайджесты": если хотя бы один алгоритм
окажется неустойчивым к дайджестам, то получим большие и неадекватно
склеенные пулы.
Можно отойти от идеи объединения кластеров,
и строить пулы на основе чего-нибудь вроде кворума.
Тогда придется мириться с неполнотой ...

б) Может получиться, что одному и тому же событию нередко будет
соответствовать около N одинаковых пулов, где N - число систем
(системы построили похожие кластеры, но почти все "лица" -- разные)
Асессору в разные моменты времени может попасться несколько пулов,
соответствующих одному и тому же событию ( и каждый раз будут разные
версии кластера ;-)

)

> 3) Асессор оценивает этот пул на предмет "выбора подмножества сообщений
> относящихся к этому же сюжету что и заданное заглавное".
> Оценка по шкале как предлагал Илья -
> входят ли они в один сюжет, в один надсюжет, или вообще на разную
тему
> Но производится она не для пар сообщений, а асессору дается список,
> который надо рассортировать.
>
> Оценки - сравнение эталонных кластеров с кластерами в ответе.
>
> Мы не получим полного эталона
> но получим несколько "эталонных кластеров" для каждого из лиц.
> рассхождения между асессорами конечно будут, но есть надежда что
> в таком случае разные варианты будут сильно пересекаться
> (ну и всегда можно вспомнить про сильные/слабые требования

>

В общем, это некий гибрид построения эталона и метода "общего котла".

а) Но мне кажется, что элементы подхода "общего котла", во-первых,
не дают особых преимуществ -- пул _не_сильно_ меньше
по сравнением с множеством документов в коллекции. Во-вторых,
привносят недостаток -- опасность потери полноты, если все
системы ошибутся по полноте (в рассматриваемой задаче это, imo,
вполне реально)

б) Кроме того, Борис опять скажет, что неполный эталон легко накрутить ;-)

====================================

Теперь моя очередь порассуждать на тему "у метода общего котла есть ряд
недостатков" ;-)

Imho, их три основных.

1) Метод "общего котла" предполагает, что объединение результатов ответов
всех систем содержит идеальный ответ. Что может привести к потере полноты

На основе усечения по пулу строится процедура
построения оценок -- асессорам предлагается только элементы этого
подмножества.

Для задачи оценки поиска это подход
а) вроде бы безальтернативный
б) приемлемый, т.к. ответы поисковых систем велики и проблема полноты не
стоит остро

Но в "непоисковых дорожках" -- типа классификации документов,
разбиения новостей на сюжеты, аннотирования,
он, imo, не является бесспорным.
Во-вервых, корпус относительно невелик и усечение по пулу не дает такого
"прорывного" сокращения объема анализируемого материала.

Во-вторых, ответы автоматических систем могут _значительно_
отличаться от суждений людей, т.е. ответы всех систем могут быть более
похожи друг на друга, чем на суждение любого из асессоров.

Поэтому, возможно, применение метода "общего котла" чревато существенной
потерей полноты.
В качестве примера сошлюсь на (довольно старую) статью по сравнению
автоматических рефератов с ручными:
The Formation of Abstracts by the Selection of Sentences, G.J. Rath e.a.,
1961 (American Documentation, 12(2):139--143, April 1961)

2) Метод "общего котла" трудно повторно использовать, во всяком случае,
делать это "честно".

Если же делать "честно", то возрастает трудоемкость для асессоров.

Насколько мне известно, в поисковых дорожках РОМИПа
для нового участника не проводится
дополнительной оценки результата. Используются оценки
по "общему котлу" оценок по
уже существующим участникам, что, вообще говоря, ведёт к
дискриминации новых участников.

В случае "непоисковых дорожек" дискриминация новичков, возможно,
сильно увеличивается. Т.е. нетрудно представить ситуацию,
когда в компанию "средних" систем приходит "сильный" новичок,
привнесший полноту, но его более хорошая
полнота будет штрафоваться, за счет чего он
проиграет "средним" участникам.

3) Создателям систем "непонятно, к чему стремиться", результат метода
"общего котла" не является ориентиром.
Если в поисковой задаче из метода "общего котла" в форме, принятой в РОМИПе,
можно извлечь некий неплохой эталон, то,
скажем, из "попарного пулинга" ничего понять нельзя.
Методы, предложенные Борисом и Игорем
в этом отношении лучше. Но мне больше нравится полный эталон :-)

С уважением
Михаил Маслов

romip.ru

About News track

Re: [romip] Re: About News track

Re: [romip] Re: About News track

Re: [romip] Re: About News track

Re: [romip] Re: About News track

RE: [romip] Re: About News track

Re: [romip] Re: About News track

Re: [romip] Re: About News track

Re: [romip] Re: About News track

Re: [romip] Re: About News track

Re: [romip] Re: About News track

Who is online