romip.ru

by **neigor** » Sat Oct 11, 2008 9:23 am

Добрый день,

мой конспект заметок с обсуждения на круглом столе прилагается,
я попробовал их как-то грубо структурировать и кое-где добавил свои
комментарии.

Пожалуйста, дополняйте и комментируйте.

-igor

организация:
=============
- Банкет "после", а не "до" РОМИП - Хорошая идея :)
- запускать "старые" дорожки (те, где правила не изменятся) намного раньше
- более прозрачный процесс формирования обучающих выборок
- четче заранее анонсировать правила
(например, непересекающиеся кластеры в новостной дорожке, ...)
- быть жестче со сроками
- централизованные инструменты для предварительной проверки формата
результатов (наличия id в коллекции)
- расширить инструменты для контроля работы асессоров
(например, если они ставят разные оценки сильно похожим документам,
то просить объяснений)
Может быть обратная связь от участников к асессорам.
- Более качественный сборник трудов (менбше опечаток, лучше язык, ...)
- Поискать волонтеров для написания инструментов для оценки
и организации процесса. (для этого надо выложить существующее
или сформулировать задачи)

правила существующих дорожек
==========
- опечатки во входных запросах
- убрать совсем?
- делать отдельный расчет результатов по запросам без опечаток?
(igor: возможно уже сейчас)

- может быть оставить только одну Веб коллекцию
- Объединить KM и BY?
- Оставить только BY, но расширив его?
- оставить как есть, чтобы накапливать таблицы релевантности?

- более граммотные асессоры, которые бы оценивали "выдачу", а не
только одну точку зрения
(igor: это был бы "системный" подход, у каждого отдельного
пользователя своя конкретная цель,
может быть нужно больше асессоров, с разными целями)

- Привязывать описания дорожек к практическим задачам, делать их менее
академичными.

- Добавить 11-точечный график для классификации
(там где возвращаемый результат ранжируемый)
(перекликается с задачей мониторинга потока, так что имеет смысл даже и p10)

- рассмотреть возможность изменения правил для новостно дорожки, чтобы
кластеризация была не обязательно двухуровневая (а например даже
одноуровневая, но по разным критериям)

новые дорожки:
==========
- м.б. англоязычная дорожка с англоязычными запросами?

- многоязычная дорожка (англ/укр/русский)
- возможно в сотрудничестве с CLEF?
- где брать асессоров, которые Native speakers?
- потенциальные участники: яндекс, exactus, ??

- дорожка по исправлению опечаток
- потенциальные участники: яндекс, mail.ru, ??

- вернуть QA дорожку. нужны участники

- "маленькие коллекции для маленьких исследователей"
поиск по 10% коллекции, сужение результатов "больших" участников
igor: а есть конкретные примеры где это поможет?

- Дорожка типа LearnToRank, когда участникам предоставляются
обсчитанные значения параметров (вектора, описывающие документы)
и нужно подобрать алгоритм Ранжирования.
(аналог WebSpamChallenge), может быть не поиск, но например классификация

- поиск плагиата. участники?

- иерархическая классификация?

картиночные дорожки:
=============
- оценка разнообразия выдачи?
(что-то подобное появилось у ImageCLEF?)
- 20000 - маленькая коллекция, оценивать больше 250 запросов
- разделить подзадачи: семантическая похожесть или цветовая/визуальная
похожесть
- более точные формулировки задач, которые позволяют сформулировать более
четкие/измеримые критерии ("похожие" картинки - расплывчато)

разное:
=============
- обзор open source инструментов, которые можно было бы использовать для
того чтобы не решать все проблемы с нуля
- место обмена файлами?

romip.ru

Заметки с круглого стола РОМИП'2008

Who is online