кластеризация результатов поиска

Общие обсуждения - потенциальные будущие дорожки, использование материалов РОМИП вне семинара, очные встречи и прочие вопросы для которых нет отдельной подтемы

кластеризация результатов поиска

Postby kazak59yandex » Mon Oct 13, 2008 3:24 pm

Здравствуйте!
Есть желание опробовать свои методы в данной задаче.
Вижу два варианта задачи:
1. на заданной коллекции веб документов, для заданного поискового
запроса И ЗАДАННЫХ результатов поиска, задача участника -
сгруппировать результаты по контекстам.
2. РЕЗУЛЬТАТЫ поиска НЕ ЗАДАНЫ, то есть каждый участник помимо
кластеризации, должен еще и "искать" сам
Есть ли возможность организовать такого рода дорожки?
Спасибо!
Рабчевский Евгений
kazak59yandex
 
Posts: 6
Joined: Mon Oct 13, 2008 1:45 pm

кластеризация результатов поиска

Postby neigor » Mon Oct 13, 2008 4:15 pm

возможность зависит от того, удастся ли решить все методологические вопросы
(задания и правила), а также от числа желающих участвовать.

вторая постановка в принципе похожа на упоминавшуюся на круглом столе задачу
по разнообразию выдачи (правда в контексте картиночных дорожек).

Как вы представляете себе оценку таких дорожек?
То есть, как описать, что такое правильный/лучший ответ асессору?

-igor


>Здравствуйте!
>Есть желание опробовать свои методы в данной задаче.
>Вижу два варианта задачи:
>1. на заданной коллекции веб документов, для заданного поискового
>запроса И ЗАДАННЫХ результатов поиска, задача участника -
>сгруппировать результаты по контекстам.
>2. РЕЗУЛЬТАТЫ поиска НЕ ЗАДАНЫ, то есть каждый участник помимо
>кластеризации, должен еще и "искать" сам
>Есть ли возможность организовать такого рода дорожки?
>Спасибо!
>Рабчевский Евгений
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] кластеризация результатов поиска

Postby dobroff2003 » Mon Oct 13, 2008 5:01 pm

Добрый день,

формальное предложение

1) результаты "заданные", но их очень много - достаточно взять любую
выдачу по ad hoc поиску (либо выдачу любого участника, либо что-нибудь
нейтральное типа BM25)

2) запросы, которые будут оцениваться заранее не известны

3) дальше, как я понимаю - кластеризация с учетом запроса

однако не понятна цель оценки - и, соответственно, критерий оценки -
сама по себе кластеризация результатов запросов - "академическая"
задача, от которых вроде предложено отходить

--
С наилучшими пожеланиями,
Борис Добров


Monday, October 13, 2008, 8:15:23 PM, you wrote:

IN> возможность зависит от того, удастся ли решить все методологические вопросы
IN> (задания и правила), а также от числа желающих участвовать.

IN> вторая постановка в принципе похожа на упоминавшуюся на круглом столе задачу
IN> по разнообразию выдачи (правда в контексте картиночных дорожек).

IN> Как вы представляете себе оценку таких дорожек?
IN> То есть, как описать, что такое правильный/лучший ответ асессору?

IN> -igor


>>Здравствуйте!
>>Есть желание опробовать свои методы в данной задаче.
>>Вижу два варианта задачи:
>>1. на заданной коллекции веб документов, для заданного поискового
>>запроса И ЗАДАННЫХ результатов поиска, задача участника -
>>сгруппировать результаты по контекстам.
>>2. РЕЗУЛЬТАТЫ поиска НЕ ЗАДАНЫ, то есть каждый участник помимо
>>кластеризации, должен еще и "искать" сам
>>Есть ли возможность организовать такого рода дорожки?
>>Спасибо!
>>Рабчевский Евгений
dobroff2003
Оргкомитет
 
Posts: 83
Joined: Fri May 23, 2003 9:52 am

Re: кластеризация результатов поиска

Postby kazak59yandex » Tue Oct 14, 2008 6:28 am

По постановке задачи согласен с Борисом:
- классификация отдельная задача с точки зрения системы, поэтому все
участники должны классифицировать одни результаты выдачи

По поводу актуальности и прикладной значимости: думаю пользователям
реальных поисковиков было бы удобно, если бы результаты поиска вместо
ранжированного списка представлялись в виде облаков, каждое из
которых можно было бы охарактеризовать своей подтемой.

При такой постановке задачи, критерий работы системы заключается в:
1. раскрыто максимальное количество подтем для заданной темы
2. подтемы не дублируют друг друга по смыслу
3. в рамках одной подтемы лежат документы, которые действительно к
ней относятся

Извините за кодировку в прошлый раз,
Рабчевский Евгений

--- In romip@yahoogroups.com, "Boris V. Dobrov" wrote:
>
> Добрый день,
>
> формальное предложение
>
> 1) результаты "заданные", но их очень много - достаточно взять любую
> выдачу по ad hoc поиску (либо выдачу любого участника, либо что-
нибудь
> нейтральное типа BM25)
>
> 2) запросы, которые будут оцениваться заранее не известны
>
> 3) дальше, как я понимаю - кластеризация с учетом запроса
>
> однако не понятна цель оценки - и, соответственно, критерий оценки -
> сама по себе кластеризация результатов запросов - "академическая"
> задача, от которых вроде предложено отходить
>
> --
> С наилучшими пожеланиями,
> Борис Добров
>
>
> Monday, October 13, 2008, 8:15:23 PM, you wrote:
>
> IN> возможность зависит от того, удастся ли решить все
методологические вопросы
> IN> (задания и правила), а также от числа желающих участвовать.
>
> IN> вторая постановка в принципе похожа на упоминавшуюся на круглом
столе задачу
> IN> по разнообразию выдачи (правда в контексте картиночных дорожек).
>
> IN> Как вы представляете себе оценку таких дорожек?
> IN> То есть, как описать, что такое правильный/лучший ответ
асессору?
>
> IN> -igor
>
>
> >>Здравствуйте!
> >>Есть желание опробовать свои методы в данной задаче.
> >>Вижу два варианта задачи:
> >>1. на заданной коллекции веб документов, для заданного поискового
> >>запроса И ЗАДАННЫХ результатов поиска, задача участника -
> >>сгруппировать результаты по контекстам.
> >>2. РЕЗУЛЬТАТЫ поиска НЕ ЗАДАНЫ, то есть каждый участник помимо
> >>кластеризации, должен еще и "искать" сам
> >>Есть ли возможность организовать такого рода дорожки?
> >>Спасибо!
> >>Рабчевский Евгений
>
kazak59yandex
 
Posts: 6
Joined: Mon Oct 13, 2008 1:45 pm

Re: [romip] Re: кластеризация результатов поиска

Postby neigor » Mon Oct 20, 2008 7:11 am

>При такой постановке задачи, критерий работы системы заключается в:
>1. раскрыто максимальное количество подтем для заданной темы
>2. подтемы не дублируют друг друга по смыслу
>3. в рамках одной подтемы лежат документы, которые действительно к ней
относятся

Это уже метрики.

Я так понимаю, что ответ системы - ранжированный список из N групп документов
(кластеров). Вопросы:
- повторение документов в кластерах допустимо?
- есть ли в лкастерах "главный" докмент, aka "лицо кластера"?

И большой открытый вопрос,
что будет показываться асессорам и что они будут оценивать?
Это на самом деле определяет решение какой задачи оценивалось.

Например, допустим кластер содержит случайный набор документов.
Что делать асессору? Какие из документов лишние? Какая тема у кластера?

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: кластеризация результатов поиска

Postby kazak59yandex » Mon Oct 20, 2008 10:17 am

--- In romip@yahoogroups.com, Igor Nekrestyanov wrote:
>
>
> >При такой постановке задачи, критерий работы системы заключается в:
> >1. раскрыто максимальное количество подтем для заданной темы
> >2. подтемы не дублируют друг друга по смыслу
> >3. в рамках одной подтемы лежат документы, которые действительно к
ней относятся
>
> Это уже метрики.
>
> Я так понимаю, что ответ системы - ранжированный список из N групп
документов
> (кластеров). Вопросы:
> - повторение документов в кластерах допустимо?
я думаю, это вполне реальная ситуация, ведь в рамках подтемы списки
ранжируются, считаю допустимо.

> - есть ли в лкастерах "главный" докмент, aka "лицо кластера"?
мне кажется, для кластера тема должна быть обозначена явно, но
выражать это с помощью одного документа - не решение.

>
> И большой открытый вопрос,
> что будет показываться асессорам и что они будут оценивать?
> Это на самом деле определяет решение какой задачи оценивалось.
1. ограниченный список подтем (названий кластеров), это число должно
быть достаточно большим
2. для каждой подтемы ограниченный ранжированный список

>
> Например, допустим кластер содержит случайный набор документов.
> Что делать асессору? Какие из документов лишние? Какая тема у
кластера?

Тема должна быть явно указана, тогда ясно как оценить, какие лишние,
какие нет.

>
> -igor
>
kazak59yandex
 
Posts: 6
Joined: Mon Oct 13, 2008 1:45 pm

Re: кластеризация результатов поиска

Postby peskovaolga » Fri Nov 07, 2008 4:27 pm

>> Я так понимаю, что ответ системы - ранжированный список из N групп
документов (кластеров).

В идеале не обязательно плоский список групп. Возможны
варианты, например, самоорганизующиеся карты, иерархии кластеров,
облака или какие-либо другие структуры кластеров, предложенные
участниками. Заодно можно было бы получить от асессоров мнение о
удобстве, читаемости и т. п. той или иной структуры представления
группировки найденных документов.
Правда, тогда пришлось бы решать вопрос, в каком формате
участники предоставляют результаты? Нужно ведь в таком, чтобы потом
можно было бы их результаты рассматривать в едином универсальном
средстве оценки для асессоров.
Я думаю, что в свете сказанного, ответом системы может быть
дерево кластеров, ограниченной глубины, например. Каждый кластер
должен иметь название (описание).

>>что будет показываться асессорам и что они будут оценивать?

В целом, я так вижу подход к оценке результатов для данной
дорожки:
1) Для оценки полноты и точности кластеризации выборки
документов использовать автоматический анализ ответов. На мой взгляд,
привлечение асессоров для данной задачи не увенчается успехом.
Асессорам врядли удастся охватить всю выборку документов так, чтобы
сформировать полное представление о тематических группах, затем как-
то оценить соответствие кластерной структуры участника той, что они
себе представили. Для этого можно автоматически вычислять полноту,
точность, F1-меру и др., используя понятие «интра-пары» в полученном
разбиении данных и в «эталонном», если, конечно, «эталонное»
разбиение известно. То есть надо, чтобы для документов
кластеризуемого множества заранее была известна принадлежность
к «эталонным» кластерам (рубрикам). Тогда для сокращения трудоёмкости
подготовки заданий для этой дорожки можно взять такую коллекция,
документы которой уже рубрицированы экспертами, например, коллекцию
Кодекса или т. п.
2) А вот асессоры нужны для оценки жизнеспособности
результата группировки найденных документов. Их субъективные мнения
по поводу кластерных структур систем-участников должны дать
представление об удобстве, о пользе, о понятности и т. п. такого
способа выдачи результатов поиска для пользователя поисковой системы.
Возможно, такие субъективные оценки асессоров лишь подтвердят мнение,
что эта задача имеет мало практического смысла, а возможно, дадут
свежие представления о том, что нужно сделать, чтобы теоретическая
выгода от группировки результатов поиска перешла в практическое
удобство для простого пользователя. ;)
Остаётся только поставить правильные вопросы для
асессоров. ;) Мои скромные предложения по этому поводу. Пусть
асессорам показывается дерево кластеров с возможностью просмотра
списка заглавий документов, входящих в выбранный кластер. Тогда
выполните следующее:
а) оцените по 10-ти бальной шкале выдачу результатов в целом:
- информативность кластерной структуры («Даёт ли дерево
кластеров пользователю чёткое представление о тематических классах,
на которые разбивается выборка документов?»);
- понятность названий кластеров;
- удобство навигации по выборке документов с помощью данного
дерева кластеров;
б) выделите кластеры, которые, на ваш взгляд, следовало бы
объединить;
в) выделите кластеры, которые, на ваш взгляд, следовало бы
разбить, т. е. слишком укрупнённые кластеры (тематики);
г) выделите кластеры, которые имеют непонятные (нечитаемые)
или неинформативные названия;
д) и т. п.
Затем можно усреднить (б-д) показатели (по общему количеству
кластеров) для каждой системы.

>>: однако не понятна цель оценки - и, соответственно, критерий
оценки - сама по себе кластеризация результатов запросов -
"академическая" задача, от которых вроде предложено отходить

Можно рассмотреть этот опыт чуть шире: как группировка не
только результатов поиска, а как группировка результатов любой
фильтрации коллекции документов, например, пользователь хочет
просмотреть новые поступления в коллекцию за какой-то период времени
или просмотреть документы, отфильтрованные по какому-либо другому
атрибуту документов, например, по форме документа, по его
издательству и т. д.
Правда, такие задачи относятся к более узкой области применения, в
основном для электронных библиотек, а не для Веба в целом.

Ещё возникает вопрос, ведь задача кластеризации результатов
поиска должна выполняться «на лету», тогда немаловажной становится
оценка времени кластеризации выборки документов, а не только её
качества. Сложно сходу сказать, как это сделать.

С уважением, Пескова Ольга.
peskovaolga
 
Posts: 4
Joined: Fri Nov 07, 2008 2:57 pm

Re: кластеризация результатов поиска

Postby kazak59yandex » Thu Nov 20, 2008 10:08 am

>
> В идеале не обязательно плоский список групп. Возможны
> варианты, например, самоорганизующиеся карты, иерархии кластеров,
> облака или какие-либо другие структуры кластеров, предложенные
> участниками. Заодно можно было бы получить от асессоров мнение о
> удобстве, читаемости и т. п. той или иной структуры представления
> группировки найденных документов.
> Правда, тогда пришлось бы решать вопрос, в каком формате
> участники предоставляют результаты? Нужно ведь в таком, чтобы потом
> можно было бы их результаты рассматривать в едином универсальном
> средстве оценки для асессоров.

Давайте разделять психологию и математику. Вопрос о способе
представления результатов и их "читаемости" относится к первому,
вопрос о спсобе формировании кластеров - ко второму.
Однако, понятно, что какой-то вид у результатов быть должен. В этом
смысле, в идеале я вижу облака, на практике лучше выбрать что-то
тривиальное, списки или деревья, которые Вы предлагаете (только я не
понял что это такое?).

> В целом, я так вижу подход к оценке результатов для данной
> дорожки:
> 1) Для оценки полноты и точности кластеризации выборки
> документов использовать автоматический анализ ответов. На мой
взгляд,
> привлечение асессоров для данной задачи не увенчается успехом.
> Асессорам врядли удастся охватить всю выборку документов так, чтобы
> сформировать полное представление о тематических группах, затем как-
> то оценить соответствие кластерной структуры участника той, что они
> себе представили. Для этого можно автоматически вычислять полноту,
> точность, F1-меру и др., используя понятие «интра-пары» в
полученном
> разбиении данных и в «эталонном», если, конечно, «эталонное»
> разбиение известно. То есть надо, чтобы для документов
> кластеризуемого множества заранее была известна принадлежность
> к «эталонным» кластерам (рубрикам). Тогда для сокращения
трудоёмкости
> подготовки заданий для этой дорожки можно взять такую коллекция,
> документы которой уже рубрицированы экспертами, например, коллекцию
> Кодекса или т. п.

Ольга, обратите внимание, что коллекция должна быть кластеризованна в
контексте поискового запроса. Где такое взять не представляю.
Конечно можно использовать результаты готовой системы (я видел
подобный поисковик для английского языка) в качестве эталона, но мне
не известны реализации для русского языка.

> Остаётся только поставить правильные вопросы для
> асессоров. ;) Мои скромные предложения по этому поводу. Пусть
> асессорам показывается дерево кластеров с возможностью просмотра
> списка заглавий документов, входящих в выбранный кластер. Тогда
> выполните следующее:
> а) оцените по 10-ти бальной шкале выдачу результатов в целом:
> - информативность кластерной структуры («Даёт ли дерево
> кластеров пользователю чёткое представление о тематических классах,
> на которые разбивается выборка документов?»);
> - понятность названий кластеров;
> - удобство навигации по выборке документов с помощью данного
> дерева кластеров;
> б) выделите кластеры, которые, на ваш взгляд, следовало бы
> объединить;
> в) выделите кластеры, которые, на ваш взгляд, следовало бы
> разбить, т. е. слишком укрупнённые кластеры (тематики);
> г) выделите кластеры, которые имеют непонятные (нечитаемые)
> или неинформативные названия;
> д) и т. п.
> Затем можно усреднить (б-д) показатели (по общему количеству
> кластеров) для каждой системы.
>

Ольга, а что Вы понимаете под деревом кластеров? (можно на примере)

>
> Ещё возникает вопрос, ведь задача кластеризации результатов
> поиска должна выполняться «на лету», тогда немаловажной становится
> оценка времени кластеризации выборки документов, а не только её
> качества. Сложно сходу сказать, как это сделать.

Мне кажется, это второстепенный вопрос. Предлагаю так, считается, что
производительность системы удовлитворительная, если участник успел
сдать задание в установленный срок.))

Рабчевский Евгений.
kazak59yandex
 
Posts: 6
Joined: Mon Oct 13, 2008 1:45 pm

Re: кластеризация результатов поиска

Postby peskovaolga » Fri Dec 12, 2008 5:40 pm

> Ольга, а что Вы понимаете под деревом кластеров? (можно на примере)
>

Просто иерархическую кластеризацию, где группы (кластеры) документов
являются или дочерними для групп (кластеров) более высокого уровня,
или корневыми (не имеющими родительские группы). Иерархию кластеров я
и назвала деревом.
Например,
Сети
-> Сетевое оборудование
-> Протоколы
-> Беспроводные технологии
Аппаратное-беспечение
-> Мониторы
-> Процессоры
-> Память
-> подсистемы хранения данных

и т. д. :)
peskovaolga
 
Posts: 4
Joined: Fri Nov 07, 2008 2:57 pm


Return to Общие вопросы

Who is online

Users browsing this forum: No registered users and 1 guest

cron