Поисковые дорожки
Posted: Tue Apr 05, 2005 6:05 pm
Добрый день,
мое текущее понимание того, что мы делаем:
1) поиск по нормативной коллекции
Коллекция Legal-2004 (та же что была в прошлом году)
Тот же набор запросов, что и в прошлом году
2) поиск по Веб коллекции
Коллекция Narod.Ru (возможно лишь с небольшимb изменениями формата
хранения данных, чтобы он был более целостным)
Набор запросов прошлогодний (+возможно некоторое его расширение,
если у нас получится получить соответствующие журналы)
==========
Пояснение: Почему те же запросы?
Во-первых это НЕ значит, что оцениваться будут те же самые запросы
Во-вторых, мы предполагаем, что те, кто участвует в РОМИП не первый год
все равно не пускают ту же самую систему каждый раз. То есть ответы
систем будут отличаться от прошлогодних. (а если система не развивается,
то значит она уже идеальна и зачем тогда ее опять оценивать?
В-третьих, у нас есть возможность включить в котлы для оценки документы,
найденные системами в прошлом году. Увеличение числа реальных прогонов,
которые использовались для формирования котлов и наверное позволит улучшить
аппроксимацию полноты. Насколько это реально полезно покажет практика.
==========
3) смешанная коллекция
Несколько раз поднимался вопрос о такой дорожке. Насколько я понимаю,
основной вопрос тут - как перекос коллекции скажется на результатах
(вероятность найти правильный ответ на нормативно правовой запрос в
Narod.Ru есть, но не велика. А для типового Веб запроса ответ в
нормативно-правовой коллекции тоже не особо вероятен.
Но возможно изменение статистики распределения слов скажется и на итоговом
ранжировании.
Предлагается провести ее в следующем варианте:
- желающие объединяют коллекции и прогоняют по ним объединенный набор
запросов.
- при подаче такого прогона это анонсируется
- при отборе запросов для оценки будет выбрано какое-то количество
запросов для которых смешение вызвало заметные возмущения.
(появление ответов из "чужой" коллекции или значительное изменение
порядка ответов)
- оценка производится в рамках оценки для первых двух дорожек
(расширяются соответствующие котлы)
Вопросы:
- понятна ли постановка?
- интересна ли она?
- есть ли предложения по ее модификации?
ПОИСК ПО ДОКУМЕНТУ ОБРАЗЦУ:
несмотря на обсуждение в форуме и даже появление каких-то компромисных
постановок задач (например поиск по параграфу), похоже что реально
участвовать в этой дорожке готов лишь SearchInform.
Или это еще кому-то интересно?
Если не заципливаться на поиске нечетких дублей, а трактовать задачу
как поиск по "длинному запросу", то можно, например, как и предлагалось
нагенирить цитат (например, параграф до 300 слов в котором есть ключевые
слова) из прошлогодних релевантных ответов и выдать их как еще одно задание
(отличающееся только способом задания запроса. Оценка может выглядеть так
- для запроса мы попросим выбрать цитату(ы) хорошо его описывающую.
Сами документы будут оцениваться глядя на исходный запрос, а
у системы будут оцениваться прогоны полученные по "хорошим" цитатам).
Все равно часть старых запросов наверное будет оцениваться.
Этот вариант кому-нибудь интересен?
Если желающий будет всего один, а организацию дорожки не удастся
совместить с другими, то скорее всего такой дорожки в этом году не будет
Комментарии/предложения по любой из дорожек очень приветствуются.
В особенности от тех кто уже подал на них заявки или планирует это сделать
-igor
p.s.
Текущая информация о полученных заявках
- http://romip.narod.ru/ru/2005/participants.html
(правда сейчас это не совсем последний вариант)
мое текущее понимание того, что мы делаем:
1) поиск по нормативной коллекции
Коллекция Legal-2004 (та же что была в прошлом году)
Тот же набор запросов, что и в прошлом году
2) поиск по Веб коллекции
Коллекция Narod.Ru (возможно лишь с небольшимb изменениями формата
хранения данных, чтобы он был более целостным)
Набор запросов прошлогодний (+возможно некоторое его расширение,
если у нас получится получить соответствующие журналы)
==========
Пояснение: Почему те же запросы?
Во-первых это НЕ значит, что оцениваться будут те же самые запросы
Во-вторых, мы предполагаем, что те, кто участвует в РОМИП не первый год
все равно не пускают ту же самую систему каждый раз. То есть ответы
систем будут отличаться от прошлогодних. (а если система не развивается,
то значит она уже идеальна и зачем тогда ее опять оценивать?
В-третьих, у нас есть возможность включить в котлы для оценки документы,
найденные системами в прошлом году. Увеличение числа реальных прогонов,
которые использовались для формирования котлов и наверное позволит улучшить
аппроксимацию полноты. Насколько это реально полезно покажет практика.
==========
3) смешанная коллекция
Несколько раз поднимался вопрос о такой дорожке. Насколько я понимаю,
основной вопрос тут - как перекос коллекции скажется на результатах
(вероятность найти правильный ответ на нормативно правовой запрос в
Narod.Ru есть, но не велика. А для типового Веб запроса ответ в
нормативно-правовой коллекции тоже не особо вероятен.
Но возможно изменение статистики распределения слов скажется и на итоговом
ранжировании.
Предлагается провести ее в следующем варианте:
- желающие объединяют коллекции и прогоняют по ним объединенный набор
запросов.
- при подаче такого прогона это анонсируется
- при отборе запросов для оценки будет выбрано какое-то количество
запросов для которых смешение вызвало заметные возмущения.
(появление ответов из "чужой" коллекции или значительное изменение
порядка ответов)
- оценка производится в рамках оценки для первых двух дорожек
(расширяются соответствующие котлы)
Вопросы:
- понятна ли постановка?
- интересна ли она?
- есть ли предложения по ее модификации?
ПОИСК ПО ДОКУМЕНТУ ОБРАЗЦУ:
несмотря на обсуждение в форуме и даже появление каких-то компромисных
постановок задач (например поиск по параграфу), похоже что реально
участвовать в этой дорожке готов лишь SearchInform.
Или это еще кому-то интересно?
Если не заципливаться на поиске нечетких дублей, а трактовать задачу
как поиск по "длинному запросу", то можно, например, как и предлагалось
нагенирить цитат (например, параграф до 300 слов в котором есть ключевые
слова) из прошлогодних релевантных ответов и выдать их как еще одно задание
(отличающееся только способом задания запроса. Оценка может выглядеть так
- для запроса мы попросим выбрать цитату(ы) хорошо его описывающую.
Сами документы будут оцениваться глядя на исходный запрос, а
у системы будут оцениваться прогоны полученные по "хорошим" цитатам).
Все равно часть старых запросов наверное будет оцениваться.
Этот вариант кому-нибудь интересен?
Если желающий будет всего один, а организацию дорожки не удастся
совместить с другими, то скорее всего такой дорожки в этом году не будет
Комментарии/предложения по любой из дорожек очень приветствуются.
В особенности от тех кто уже подал на них заявки или планирует это сделать
-igor
p.s.
Текущая информация о полученных заявках
- http://romip.narod.ru/ru/2005/participants.html
(правда сейчас это не совсем последний вариант)