Я попытался просуммировать вкратце все основные темы затронутые вчера на круглом
столе.
В ряде мест есть ссылки на конкретных участников, которые (по моему
преставлению)
согласились этим вопросом заняться или были заинтересованы в этом поучаствовать
:)
Вероятно, я что-то пропустил или забыл что, кто-то выражал желание помочь в
какой-нибудь из активностей.
Присылайте уточнения и подписывайтесь на пункты где нужны волонтеры!
-igor
p.s.
волонтеры принимаются не только из тех, кто присутствовал на круглом столе
лично и не только на эти задачи :)
================================================
Заметки о круглом столе РОМИП'2006:
0. Мы можем проще раздавать коллекции от НП РОМИП используя NDA
(то есть появляется шанс для "скачали с публичных Веб-сайтов и используем
для дорожки")
1. Новые коллекции (варианты)
a. новая Веб коллекция
(несколько большего объема, больше похожая на Веб, uniform sampling +
возможно
списки сайтов которые ссылаются на данную страницу "извне" коллекции)
(AI: сформулировать более четко что мы хотим получить (Илья С., Михаил
К.)
b. блоги
(срез всех блогов из нескольких популярных мест за 1 неделю, без
комментариев к ним, наподобие грантов Яндекс)
(предложение Ильи С.)
c. предоставить для narod.ru списки неточных дублей, чтобы участники могли
чистить свом выдачи
(предложение Ильи С.)
d. новый legal (РФ+Моксва+Питер - примерно в три раза больше, новый каталог,
версии документов)
(даже в adhoc - объяснения юриста в описаниях запросов соответствуют
текущему состоянию,
а не на N Лет назад)
AI: Максим Г. обещал организовать предоставление материалов в оргкомитет
e. выдачи по запросам с данными о кликах пользователей (анонимно и под NDA)
AI: Андрей Ф. и Илья С. обещали подумать о технической возможности и
постановке задачи.
2. Новые коллекции (пожелания):
a. размеченный для классификации новостной корпус
b. другие тематические наборы данных для классификации кроме Legal
c. двуязычная коллекция (eng+rus?)
3. Критика существующих коллекций
a. Слишком небольшие корпуса для новостных дорожек
b. надо обновить выборку запросов, чтобы она лучше соответствовала
коллекции и текущему лексикону в веб
4. потенциальные новые дорожки
- "тематический поиск"
AI: Борис Д. обещал инициировать обсуждение в списке по теме
"что же такое тематический поиск и в какрм виде он может быть в РОМИП"
- поиск по документам где нет слов запроса
(усложняет задачу и системам и асессорам?)
- wikipedia (что-то похожее на CLEF?) (каждому придется скачивать?)
- блоги (как сформулировать задачу? найти очевидца?)
- поиск по форумам - разновидность фактографического поиска?
- дорожки связанные картинками
- наподобие CLEF?
- по запросу находим список картинок а потом производим его групировку
(похожие картинки,с похожими объектами, ...)
- искать по расширенным описаниям (уже накопленным)
(понятно что их несного и можно фальсифицировать)
5. Предотвращение роста "порога входа" для новых "небольших" (индивидуальных)
участников:
a. финансово
- продолжаем стараться получить грант РФФИ (если не получится,
возможно финансовые влияния крупных участников?) возможно
- предоставление льготного участия для индивидуальных
участников, которое спонсируется другими
b. технически
- наличие не очень большой "подъемной" коллекции
- хранилище готовых компонент? модулей из которых можно строить систему
- предоставить возможность участникам выкладывать исходные тексты,
которые они использовали в экспериментах создать на сайте раздел с
- информацией "для новичков"
(где взять парсер, ....)
AI: Михаил Агеев согласился координировать эту активность
- частичные результаты (типа дать таблицу с расчитанными весами bm25
для коллекции) может быть завести отдельную коллекцию для поисковой
- дорожки "для
новичков" (поменьше) или пусь они выполняют эти же задания на
фиксированном подмножестве?
- "причесать" narod.ru - выложить xhtml версию и указать лексему для
каждого слова (в соседнем xml теге)?
AI: добровольцы?
- сделать доступным reference implementation для всех дорожек?
6. Сайт:
- переезд на www.romip.ru с сохранением проброса с romip.narod.ru
- выбрать движок и хостинг
AI: кто готов этим заняться?
- изменение структуры и дизайна
(AI: Руслан К. согласился помочь с реализацией)
- завести свой форум
(а можем ли мы перенести туда архив сообщений с yahoo?)
- обновить англоязычную версию
(есть желающие помочь с какими-нибудь разделами?)
- сделать и выложить англоязычные (да наверное и русскоязычные) краткие
"сводки" о каждом из прошедших РОМИП. wiki-based раздел "для
- новичков" (wiki, чтобы все могли помогать в
наполнении) (типа морфологии можно взять тут, парсеры тут, ...)
- сделать англоязычную версию более живой (коллективная поставка
новостей)
- добавить на сайте в faq побольше информации
7. возможное видоизменение правил дорожки:
- QA (РОМИП2005) - возможно стоить изменить/упростить постановку задачу,
но усложнить данные чтобы охватить большее число участников и уйти от
результатов порядка 0.97 (которые сложно улучшать). Например,
извлечение сущностей?
- поиск по документу образцу
(цель: увеличить число участников)
варианты: персонализированный поиск? поиск по выделенному фрагменту
текста?
8. Логистика:
- хорошо что на докладах много не участников РОмИП
- плохо что время на доклады в этом году так сжато.
хорошо бы 25 минут на доклад.
- сроки
- можно "классические" дорожки начинать рано (в январе)
при этом сроки сдачи сильно не сдвигать (больше времени)
- опрашивать участников о предпочтительном порядке сдачи результатов
- запускать дорожки только после подготовки инструмента оценки
(спорно: могут быть большие задержки - черезчур пессимистично)
- расширить списки для анонсов следующего цикла РОМИП
и вообще стараться шире доносить информацию о РОМИП (например на КИИ)
9. Прочее:
- добавить новые метрики в тул (геометрическое среднее?)
- исправить наконец все неправильные упоминания о микро/макро в описании
метрик
в трудах :)
- стремиться к выкладыванию исходников инструментов что сделаны для
сбора и вычисления оценок