заметки с круглого стола в Петрозаводске

Общие обсуждения - потенциальные будущие дорожки, использование материалов РОМИП вне семинара, очные встречи и прочие вопросы для которых нет отдельной подтемы

заметки с круглого стола в Петрозаводске

Postby neigor » Tue Sep 29, 2009 8:50 am

Добровольцы/Инициативы
- Саша Гончаров:
выложить решение на основе Lucene и других свободных инструментов
в качестве "базовой" системы поиска по картинкам
- Дима Беляев
помочь сделать коллекцию Веб картинок разных размеров
- Илья Сегалович
- гранты Яндекс на частичную компенсацию затрат студентам
- выяснить возможность сделать приложение о РОМИП к переводимой
книжке Manning
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: заметки с круглого стола в Петрозаводске

Postby neigor » Tue Sep 29, 2009 8:55 am

Я попробовал как-то рассортировать заметки в группы.
Пожалуйста, дополняйте где что-то забыто.

-igor

==================
Новые коллекции
- Коллекция Веб картинок разных размеров
- Коллекции для предсказывания пользовательского поведения (на основе
clickthrough data)
- Коллекция блогов
- Речевые корпуса (должны быть разные дикторы)
- Музыкальная коллекция (старые музыкальные произведения?)
- ru wikipedia как коллекция

Правила/логистика
- Больше асессоров на одно задание для картинок
- Больше асессоров для нормативного поиска
- Более формальные инструкции для асессоров - десятка примеров
помогают повысить согласованность оценок
- Добавить новые метрики в итоговый расчет - reciprocal rank, pfound
- ранний старт дорожек где все понятно с правилами
(pros: теоретичеси больше времени на их выполение
cons: реально мало кто начинает сильно заранее, как делать cfp
если неизвестны дорожки?)
- оргкомитету более регулярно анонсировать статус оценки и вообще что
происходит
(и просить помощи)
- в обязательном порядке объявлять детальные правила для всех дорожек
(включая информацию для асессоров) зараниее (до запуску дорожки)
- тематическая классификация с ранжированными ответами: верните большую
глубину котла
- очная встреча до начала РОМИП чтобы согласовать правила
(cons: все не приедут в москву ради этого)
- "ответственные участники" для каждой из дорожек - они утверждают
правила
с оргкомитетом
- "двухшаговый запуск" дорожек (отменять сразу если мало заявок)
(так вроде и делаем?)
- проводить только дорожки для >4 участников
(cons: убивает "новые" идеи/задачи?)

Инструменты асессоров
- добавить подсветку ключевых слов
(cons: велик соблазн промотать документ, читая отдельные предложения)
- сделать клавиатурные shortcuts
(важно чтобы они не накапливались когда инструмент тормозит с
загрузкой)
- Дать асессорам возможность "проверять" результаты, показывая им
аномалии в оценке
(например, кластера близких по тексту документов, которые получили
разные оценки)

Новые дорожки
- Картиночные
- поиск изображений на которых есть заданный объект (по его
изображению)
- построение текстовых меток (ключевых слов) для изображений
- Вопросно-ответный поиск (всегда финиширует только один участник)
- Поиск по англоязычной коллекции
(pros: локальные участники не участвуют в TREC,
cons: как оценивать? лучше фокусироваться на уникальных задачах)
- предсказание куда кликнет пользователь
- дорожка по контекстной рекламе
- Поиск поляризированных текстов (opinion mining)
- Поиск плагиата
- Свободная дорожка (делай что хочешь и можешь рассказать) (без оценки?)
- Кластеризация новостного потока с новыми правилами
- Кластеризация текстов
- задачи поиска по блогам
- дорожка про разнообразие выдачи
(ранжирование с учетом новыизны)
- поиск по видео

Привлечение участников
- выложить готовые индексы для коллекций + инструкцию как их
использовать (загрузить в БД)
- Можем ли мы выложить какую-нибудь коллекцию с онлайн соглашением
или без него вообще
(чтобы студенту не нужно было ждать и вообще решаться что-то
подписывать)
- облегченная дорожка для новичков (студентов)
- больше популяризировать РОМИП в университетах среди преподавателей
- глава/приложение для книжки manning о РОМИП?
- статьи о РОМИП на хабре
- Частичная компенсация затрат для студентов-участников
- ISBN для книжки - повышает ценность публикации для
студентов/аспирантов
(идеально было бы быть в списке ВАК)

Добровольцы/Инициативы
- Саша Гончаров:
* выложить решение на основе Lucene и других свободных
инструментов в качестве "базовой" системы поиска по картинкам
- Дима Беляев
* помочь сделать коллекцию Веб картинок разных размеров
- Илья Сегалович
* гранты Яндекс на частичную компенсацию затрат студентам
* выяснить возможность сделать приложение о РОМИП к переводимой
книжке Manning
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] заметки с круглого стола в Петрозаводске

Postby pb » Tue Sep 29, 2009 9:10 am

Igor Nekrestyanov пишет:
> Добровольцы/Инициативы
> - Саша Гончаров:
> выложить решение на основе Lucene и других свободных инструментов
> в качестве "базовой" системы поиска по картинкам
> - Дима Беляев
> помочь сделать коллекцию Веб картинок разных размеров
> - Илья Сегалович
> - гранты Яндекс на частичную компенсацию затрат студентам
>
и аспирантам?
> - выяснить возможность сделать приложение о РОМИП к переводимой
> книжке Manning
>
>
давайте просто в сноске от редактора перевода - краткое описание и
ссылка (приложение имхо не надо, к тому же надо наверное согласовывать с
CU Press)
> ------------------------------------
>
> Yahoo! Groups Links
>
>
>
>
>
pb
Оргкомитет
 
Posts: 72
Joined: Mon Feb 10, 2003 11:52 am

Re: [romip] Re: заметки с круглого стола в Петрозаводске

Postby goncharov.alexander » Tue Sep 29, 2009 9:46 am

Новые коллекции
  - Коллекция Веб картинок разных размеров
- Коллекция картинкок с пользовательскими тегами для дорожки автоматического аннотирования изображений  
Привлечение участников
Wiki-подобный ресурс. На мой взгляд есть чему поучиться у machinelearning.ru

Добровольцы/Инициативы
  - Саша Гончаров:
      * выложить решение на основе Lucene и других свободных
инструментов в качестве "базовой" системы поиска по картинкам
В ближайшее время подготовим код и куда-нибудь выложим (куда?). Может быть есть смысл организовать svn или git для совместой работы?
-- С уважением,Саша Гончаров
goncharov.alexander
 
Posts: 7
Joined: Thu Feb 21, 2008 8:06 am

Re: заметки с круглого стола в Петрозаводске

Postby salexunder » Tue Sep 29, 2009 1:33 pm

> Добавить новые метрики в итоговый расчет - reciprocal rank, pfound

Мне было бы интересно увидеть еще оценку по метрикам DCG (или NDCG) и P@1, если
никто не против.
salexunder
 
Posts: 16
Joined: Tue Mar 17, 2009 8:21 am

RE: [romip] Re: заметки с круглого стола в Петрозаводске

Postby sergei_tatevosian » Tue Sep 29, 2009 1:48 pm

P@1 это Precision(1)? Если да, поддерживаю оба показателя :)


[romip] Re: заметки с круглого стола в Петрозаводске

> Добавить новые метрики в итоговый расчет - reciprocal rank, pfound

Мне было бы интересно увидеть еще оценку по метрикам DCG (или NDCG) и P@1,
если никто не против.
sergei_tatevosian
Оргкомитет
 
Posts: 38
Joined: Mon May 28, 2007 9:21 am

Re: заметки с круглого стола в Петрозаводске

Postby salexunder » Tue Sep 29, 2009 2:03 pm

> P@1 это Precision(1)?

Да. Точность на уровне 1.

На мой взгляд, введение метрик p@1 и mean reciprocal rank будет особенно
полезным для оценки результатов по коллекции legal, поскольку задания по этой
коллекции традиционно содержат большую долю навигационных запросов.
salexunder
 
Posts: 16
Joined: Tue Mar 17, 2009 8:21 am

RE: [romip] Re: заметки с круглого стола в Петрозаводске

Postby sergei_tatevosian » Tue Sep 29, 2009 2:14 pm

С Legal-ом вообще все плохо, потому что каждый год аксессоры не знают, что
от них требуется оценивать результаты поиска, а не юридическую реальность,
данную им в полностью обновившихся документах. В 2010 году у них все
документы в коллекции будут нерелевантны. ИМХО, при таких вводных дорожку
надо просто отменить - какой в ней смысл, если перед оценкой надо вколотить
в мозг юристов одну единственную фразу "оценивай документ, а не то, что
появилось 10 обновлений представленных в коллекции документов" и каждый год
это не делается. Плюс к тому, за запрос о к-л законе все рассмотрения актов,
относящихся к нему и разные его редакции тоже считаются оценщиками
нерелевантными. Вопрос: зачем их (юристов) приглашали? Они как раз все
делают по-своему. А нам надо по-нашему. Предлагаю в качестве оценщиков по
коллекции Legal посадить обычных людей. В Legal документы подлиннее, но
ничего - прокрутят, почитают.


[romip] Re: заметки с круглого стола в Петрозаводске

> P@1 это Precision(1)?

Да. Точность на уровне 1.

На мой взгляд, введение метрик p@1 и mean reciprocal rank будет особенно
полезным для оценки результатов по коллекции legal, поскольку задания по
этой коллекции традиционно содержат большую долю навигационных запросов.
sergei_tatevosian
Оргкомитет
 
Posts: 38
Joined: Mon May 28, 2007 9:21 am

Re: заметки с круглого стола в Петрозаводске

Postby salexunder » Tue Sep 29, 2009 2:32 pm

--- In romip@yahoogroups.com, "Tatevosyan Sergey" wrote:
>
> каждый год аксессоры не знают, что
> от них требуется оценивать результаты поиска, а не юридическую реальность,
> данную им в полностью обновившихся документах.

Насколько я понимаю, это не совсем так. В инструкции по нормативной коллекции
сказано:
"При составлении описания необходимо учитывать, что коллекция документов, в
которой производился поиск ответов на запрос и которые впоследствии будут
оцениваться, трехгодичной давности (2006 года) и содержит документы, которые
созданы не позднее 2006 года."
Т.е. вроде бы асессор должен знать об этой особенности коллекции.


> В 2010 году у них все
> документы в коллекции будут нерелевантны.

Ну, это все же преувеличение. На некоторые запросы (например, "N 573 от
18.09.2006") выход новых нормативных документов вообще не оказывает никакого
влияния.


> ИМХО, при таких вводных дорожку
> надо просто отменить

Я верю в то, что после реализации предложенных Б.В.Добровым доработок среды
асессора (отслеживание дубликатов) результаты оценки по коллекции legal будут
вполне адекватными.

Сафронов.
salexunder
 
Posts: 16
Joined: Tue Mar 17, 2009 8:21 am

Re: заметки с круглого стола в Петрозаводске

Postby salexunder » Tue Sep 29, 2009 2:52 pm

--- In romip@yahoogroups.com, Igor Nekrestyanov wrote:

> - ru wikipedia как коллекция

А откуда предлагается брать набор запросов для этой коллекции?

Сафронов.
salexunder
 
Posts: 16
Joined: Tue Mar 17, 2009 8:21 am

Next

Return to Общие вопросы

Who is online

Users browsing this forum: No registered users and 14 guests

cron