romip.ru

by **maxgubin** » Fri Jun 18, 2004 1:43 pm

Всем добрый день!

Я хочу поднять тему, немного непохожую на предыдущие. Предположим, вы
получили результаты ROMIP, как вы их используете? Вроде никак не обсуждалось
(никто не упомянул), кто как это потом применил и как это улучшило систему.
Если это никому не интересно, то можно забыть :).

Немного, для затравки, абстрактных рассуждений. Поисковая система это
некоторая система, которая реализует функцию F(q,d,c),
где q - запрос
d - документ
с - коллекция

эта функция выполнятся для каждого запроса и документа данной коллекции и
возвращает, в простейшем случае, 1- релевантен, 0 - нерелевантен.

Данная функция имеет кучу параметров, которые можно разбить на две группы:

1. выделяемые признаки. Например: наличие терминов, частоты, PageRank,
деревья семантического разбора и т.д. Здесь более-менее все понятно. Новые
признаки придумываются относительно редко, у Бориса в отчете по последнему
РОМИП есть замечательное исследование, где он учитывал/не учитывал некоторые
признаки и как это повлияло. Если все будет удачно, то подобную работу я
сделаю по результатам этого РОМИП.

2. Функторы, т.е. функции, комбинирующие эти признаки. В простейшем случае,
предположим, мы просто линейно складываем с коэффициентом значения признаков
и сравниваем с порогом или какие-то умножаем и складываем и т.д. Если читать
результаты TREC, то часто видно такой эмпирический подбор функций, типа
BM25. Я ни разу не видел, чтобы это опиралось на какую-то математику или
более или менее систематический подход. Или я не прав?

Теперь вопрос - как, используя результаты РОМИП (проще говоря,
табулированные значения F), решить задачу определения параметров 2 типа.
Если в простейшем случае считать, что вид функции задан и определяются
только константы в ней, то у меня их сейчас около 30-ти и можно применить,
например, факторный анализ, решить какие коэффициенты связаны, какие не
важны и т.д., но, по-моему, это слишком затратно. Я сейчас просто отдельно
двигаю каждый коэффициент, находя локальный максимум, и на этом
успокаиваюсь. На эту тему из других подходов, я только видел несколько
статей, где пытаются использовать генетические алгоритмы, но не более того.
Кроме того, это не позволит определить ситуацию, когда неправильно выбрана
сама функция - например, сравнение с порогом линейной суммы значений
признаков вместо мандатного голосования признаков и т.д. Может быть, у кого
есть про это идеи или кто-то видел про это литературу? Может дело в моей
математической дремучести и есть какой-то аппарат?

Заранее извиняюсь, если никому не интересно,
Максим

romip.ru

расширенные описания информационных поиребностей?

Обработка результатов, другая сторона

Who is online