Добрый день,
Было здорово пообщаться со всеми кто смог добраться до Переславля!
Мои заметки с круглого стола (+некоторые идеи из обсуждавшегося до и после),
сгруппированные по темам:
1. Привлечение новых участников
- новые участники могут бояться стоимости (надо искать финансирование)
- раскручивать сайт как место где живет community
- может реклама в профильных конференциях поможет привлечь молодежь
- подумать как сделать РОМИп кто занимается не только ранжированием и
классификацией
(больше упор на кластеризацию новостей и т.п.)
- задания в упрощенной форме для новых людей
- на сайте РОМИП висят слишком крупные фирмы (пугает новичков)
- студенту для диплома нужен хороший результат, а тут сразу ясно что
выграть будет очень не просто
- использовать lucene (или другие открытые реализации) для baseline,
написать тьюториал "Как начать этим заниматься?" на сайте
- объявить денежный конкурс Например
(на научную работу на основе РОМИП - диплом, курсовая или просто статья)
- проблема: как заставить научных руководителей использовать РОМИП
- сделать небольшую легко скачиваемую (без письменных соглашений) коллекцию
на основе таблиц релевантности и ответов участников за прошлые годы
(легкий старт)
2. Дорожки
- лучше не склеивать KM и BY, а делать отдельные дорожки
- подбирать задания стимулирующие развитие алгоритмов,
в частности - другие запросы для ссылочного ранжирования
- есть интерес к созданию дорожки по поиску картинок
(см. группу 3)
- может быть стоит сделать более узкие дорожки по выявлению дублей
и удалению элементов оформления со страницы?
(были заинтересованные, но также высказывалось опасение что
слишком утилитарно и очень узко)
- давайте оценивать больше
- РОМИП несколько игрушечный
(в реальных промышленных системах больше факторов,
и за последние годы уже накопленно много оцененных запросов)
- давайте заморозим коллекции на несколько лет чтобы накопить больше
результатов
- может сделать игровую дорожку: дать безымянный движок который выдает
несколько факторов по каждому документу, подобрать выборку
(облегчает старт? просто машинное обучение?)
- интересно подумать о дорожке классификации запросов
(по теме, прагматикам, ...)
- дорожек слишком много
- быть жестче: если нет уверенности что два участника сдадут результаты,
то не брать дорожку
- новостная коллекция очень маленькая
- потенциальная дорожка: по поиску релеватных документов где нет слов
запроса
(зачем? чтобы посмотреть можно ли приподняться над обычными
результатами)
- вместо дорожки по поиску дублей подумать о дорожке по поиску плагиата
3. Поиск картинок
- Наталья Васильева - волонтер организовывать/координировать
- есть масса открытых вопросов
(откуда взять интересную и легальную коллекцию,
какую задачу рассамтривать, как оценивать, ...)
- можно взять коллекции личных фотографий и делать поиск по изображению
образцу или классификацию
- в ряде постановок нет привязки к русскому языку => можно больше
привлекать международных участников
4. Сайт РОМИП
- повысить информативность и частоту обновления сайта
- сайт как библиотека знаний по IR
- выкладывать все дипломы и статьи с использованием РОМИП выкладывать на
сайт
- обязать тех кто получает коллекции уведомлять нас о фактах публикации
с использованием материалов РОМИП
- пересчитать bpref за прошлые годы и вывесить на сайт
5. Прочее
- KM.RU предложил предоставить версию коллекции без дублей
- KM.RU предложил предоставить дополнительную информацию о
списках входящих ссылок (или числе ссылок) для учета при отборе заданий
- как РОМИП может поучаствовать в следующей летней школе?
- может быть вступить в SIG IR (на примере московской секции ACM SIGMOD)
- может быть писать все статьи на английском со следующего года?
(международная видимость)
- Яндекс будет участвовать в следующем году
- надо прилагать больше усилий чтобы сделать РОМИП индустриальным стандартом
- допускать доклады про что-то на коллекциях РОМИп без участия в дорожках
6. что вам лично мешает участвовать в РОМИП? (вопрос для не участников
и не планирующих)
- публикации с РОМИП не очень ценные
минимальная планка - включение в DBLP (для того чтобы учитывалась
публикации)
- нет моей задачи
- много технической работы - не хватает времени
- регистрация для получения доуступа к коллекциям - процесс выглядит слишком
сложно
Если я что-то забыл или исказил или описал невнятно - пожалуйста, поправьте!
-igor