>> Я так понимаю, что ответ системы - ранжированный список из N групп
документов (кластеров).
В идеале не обязательно плоский список групп. Возможны
варианты, например, самоорганизующиеся карты, иерархии кластеров,
облака или какие-либо другие структуры кластеров, предложенные
участниками. Заодно можно было бы получить от асессоров мнение о
удобстве, читаемости и т. п. той или иной структуры представления
группировки найденных документов.
Правда, тогда пришлось бы решать вопрос, в каком формате
участники предоставляют результаты? Нужно ведь в таком, чтобы потом
можно было бы их результаты рассматривать в едином универсальном
средстве оценки для асессоров.
Я думаю, что в свете сказанного, ответом системы может быть
дерево кластеров, ограниченной глубины, например. Каждый кластер
должен иметь название (описание).
>>что будет показываться асессорам и что они будут оценивать?
В целом, я так вижу подход к оценке результатов для данной
дорожки:
1) Для оценки полноты и точности кластеризации выборки
документов использовать автоматический анализ ответов. На мой взгляд,
привлечение асессоров для данной задачи не увенчается успехом.
Асессорам врядли удастся охватить всю выборку документов так, чтобы
сформировать полное представление о тематических группах, затем как-
то оценить соответствие кластерной структуры участника той, что они
себе представили. Для этого можно автоматически вычислять полноту,
точность, F1-меру и др., используя понятие «интра-пары» в полученном
разбиении данных и в «эталонном», если, конечно, «эталонное»
разбиение известно. То есть надо, чтобы для документов
кластеризуемого множества заранее была известна принадлежность
к «эталонным» кластерам (рубрикам). Тогда для сокращения трудоёмкости
подготовки заданий для этой дорожки можно взять такую коллекция,
документы которой уже рубрицированы экспертами, например, коллекцию
Кодекса или т. п.
2) А вот асессоры нужны для оценки жизнеспособности
результата группировки найденных документов. Их субъективные мнения
по поводу кластерных структур систем-участников должны дать
представление об удобстве, о пользе, о понятности и т. п. такого
способа выдачи результатов поиска для пользователя поисковой системы.
Возможно, такие субъективные оценки асессоров лишь подтвердят мнение,
что эта задача имеет мало практического смысла, а возможно, дадут
свежие представления о том, что нужно сделать, чтобы теоретическая
выгода от группировки результатов поиска перешла в практическое
удобство для простого пользователя.
Остаётся только поставить правильные вопросы для
асессоров.
Мои скромные предложения по этому поводу. Пусть
асессорам показывается дерево кластеров с возможностью просмотра
списка заглавий документов, входящих в выбранный кластер. Тогда
выполните следующее:
а) оцените по 10-ти бальной шкале выдачу результатов в целом:
- информативность кластерной структуры («Даёт ли дерево
кластеров пользователю чёткое представление о тематических классах,
на которые разбивается выборка документов?»);
- понятность названий кластеров;
- удобство навигации по выборке документов с помощью данного
дерева кластеров;
б) выделите кластеры, которые, на ваш взгляд, следовало бы
объединить;
в) выделите кластеры, которые, на ваш взгляд, следовало бы
разбить, т. е. слишком укрупнённые кластеры (тематики);
г) выделите кластеры, которые имеют непонятные (нечитаемые)
или неинформативные названия;
д) и т. п.
Затем можно усреднить (б-д) показатели (по общему количеству
кластеров) для каждой системы.
>>: однако не понятна цель оценки - и, соответственно, критерий
оценки - сама по себе кластеризация результатов запросов -
"академическая" задача, от которых вроде предложено отходить
Можно рассмотреть этот опыт чуть шире: как группировка не
только результатов поиска, а как группировка результатов любой
фильтрации коллекции документов, например, пользователь хочет
просмотреть новые поступления в коллекцию за какой-то период времени
или просмотреть документы, отфильтрованные по какому-либо другому
атрибуту документов, например, по форме документа, по его
издательству и т. д.
Правда, такие задачи относятся к более узкой области применения, в
основном для электронных библиотек, а не для Веба в целом.
Ещё возникает вопрос, ведь задача кластеризации результатов
поиска должна выполняться «на лету», тогда немаловажной становится
оценка времени кластеризации выборки документов, а не только её
качества. Сложно сходу сказать, как это сделать.
С уважением, Пескова Ольга.