традиционные поисковые дорожки

(read only)

Postby neigor » Wed Mar 16, 2005 5:38 pm

На данный момент есть следующий набор высказанных пожеланий:

1) классические традиционные дорожки по поиску (как РОМИП'2004)
2) к традиционной дорожке по поиску подготовить дорожку для исследования
аналога Yahoo Y!Q - когда есть как запрос (короткий), так и окрестность
текста (например, абзац или весь текст). Такие окрестности можно нагенерить
из документов, присланных сразу несколькими системами по прошлым годам. При
этом любопытно, например, контекст любого ли абзаца улучшает результаты
3) смешанный вариант (нормативно-вебовский). Объединяем коллекции и
запросы. Идея состоит в том, чтобы посмотреть, насколько устойчива система к
смешанным коллекциям и насколько "непрофильная" коллекция ухудшает поиск по
"профильной".
4) поиск по документу-образцу
5) поиск по абзацу
6) интерактивный поиск (или с использованием relevance feedback)

7 отдельных поисковых дорожек (пункт 1 считается за две) точно не потянуть :)
Особенно с учетом того сколько будет других дорожек.

Кое-что из этого может быть вполне удобно сделать в рамках общих дорожек.
Например, 5 получается из 2, если учитывать только абзац, но не запрос.
Или 3 может оцениваться вместе с дорожками в 1.

На 6 и 4 пока реальных заявок нет, были только предварительные обсуждения
с потенциальными участниками.

Хочется найти компромис, так чтобы число дорожек не превысило трех
(кроме объема оценки, хочется минимизировать фрагментацию участников),
и все могли решать интересные им задачи.

Вариант для обсуждения:

1. Мне импонирует идея смешанной коллекции и смешанного набора запросов.
При вычислении оценок мы всегда можем сузиться на только нормативные
или только Веб запросы. В принципе, каждый участник может выполнить
тот же набор запросов на части смешшаной коллекции (например,
на веб-коллекции или нормативной коллекции).

Что меня тут смущает:
- есть ли шанс что на нормативные запросы в принципе может что-то найтись
в Веб-коллекции и наоборот?
- Кто-то может не справится с таким объемом данных
(но он ведь тогда может искать только по legal, например)
- Если пытаться оценивать другие критерии релевантности, например
как предлагали Борис и Максим - наиболее значимые документы вперед
(сначала конституция, затем ее упоминания и т.п.),
то это отдельная оценка => нужна отдельная дорожка

2. Еще одна (пока вторая) дорожка - это по сути вариант 2 для смешанной
коллекции. Строим пары вопрос+абзац (больше одной для каждого запроса!) и
можем на этом наборе проводить и 2 и 5. Хотя, поскольку задачи решаются
разные, то и оценку придется видимо для этих задач проводить отдельно.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Return to Объявления Оргкомитета

Who is online

Users browsing this forum: No registered users and 12 guests