Re: Dialog 2004 - типа план

(конференции, семинары, лекции, ...)

Re: Dialog 2004 - типа план

Postby dobroff2003 » Fri Feb 13, 2004 4:16 pm

Igor Nekrestyanov wrote:
>
> послать-то мне не сложно, вот только понимания что там писать у меня нет
>

На самом деле, собирался написать целую СЕРИЮ писем, да вот времени не
было.
Но вчера отодвинул очередную сдачу на неделю...

1) Материала для статьи у нас более чем достаточно

2) В конце письма что-то типа плана, если вставить по паре предложений -
будет уже более
1000 символов, чего достаточно для аннотации

3) Теперь о том, что бы я включил в статью на ДИАЛОГ (на CLEF - на
который, я полагаю,
надо будет просто творчески перевести):

3а) Главной задачей первого года было ПРОСТО провести семинар - первый в
РФ - стране с пробелами
в законодательстве и культуре обмена информацией
Важнейший вопрос был преодоление взаимного недоверия и т.п.
И эта задача была РЕШЕНА объединением ДОБРОЙ ВОЛИ участников.

3б) Был проведен КОМПЛЕКС работ, результатами которого стали:
- создан корпус (БОЛЬШОЙ, ДОСТУПНЫЙ), может это не в чистом виде
"лингвистический"
корпус - в смысле размеченный - но уж какой есть
- решены вопросы с его распространением
- собраны результаты
- проведена оценка:
-- создано специальное ПО для поддержки оценки
-- физически люди оценивали (STRONG, WEAK)
- все данные хранятся и могут быть получены (надеюсь :) ),
при условии оформления

3в) Получены НЕТРИВИАЛЬНЫЕ результаты (в смысле, может и тривиальные, но
не очевидные):
- по задаче классификации - большие проблемы с обучающим множеством
- большое расхождение между экспертами (STRONG и WEAK) при оценке
поиска
- а также такой результат - не видный изнутри, но важный снаружи -
есть группа
организаций способных так или иначе решать задачи ПРИЛИЧНОГО
объема

3г) Можно воспроизвести список задач, обсуждавшихся на Круглом столе
Михаил Агеев как-то делал в МГУ презентацию по TRECy - можно
пообещать
сравнение с мировыми тенденциями

3д) Сейчас можно просто КРАТКО упомянуть о потенциальных задачах 2004
года
(корпуса, задачи).
Назвать сроки проведения.
В принципе не страшно, если мы где-то здесь ошибемся - дело живое,
все понимают.
Кроме того, я думаю к окончательной редакции мы разберемся.

4) Кстати о РОМИП2004:
Нам надо определиться с принципами для чего мы это делаем, затем
ответы на остальные вопросы будут простыми.

4а) Корпуса:
(Принцип - доступные корпуса важны сами по себе для гарантированного
ВОСПРОИЗВЕДЕНИЯ заявляемых результатов)

- WEB корпус (корпуса ?) у нас уже есть
- корпус НПА обещает Максим Губин (я недавно общался одновременно
с И.И.Мироновой (Кодекс) и Н.В.Ткаченко (Гарант), обе пообещали,
по крайней мере, обсуждать вопрос по участии их экспертов в оценке
РОМИП
по НПА)
- корпус СМИ у меня есть - надеюсь получить права на его
использование
(возможно в урезанном виде) в рамках РОМИПа

4б) Задачи:
(Мне кажется, после первого года я могу сформулировать принцип
здесь)
(Принцип - надо не придумывать задачи по логике "что-то похожее мы
сможем
заделать" - НО надо стараться разобраться в ФУНДАМЕНТАЛЬНЫХ
вопросах-проблемах
теми способами, что можем)
(Очень хорошо, что РОМИП, как и планировалось, не пошел по пути
"пузомерки".
Мы не соревнуемся - мы сообща стараемся аккуратно поставить
проблемы,
и определить свое позиционирование относительно этих проблем).

В первый год мы разбирались с "релевантностью" - и так и не
разобрались -
поэтому предлагаю продолжить.

Кроме того, важны ответы на следующие вопросы:
- ну а на какой максимум можно расчитывать на этих коллекциях
(в разных предположениях - ничего не зная - как было, либо
что-то зная частично)
- разобраться, по-возможности, ПОЧЕМУ обучающая коллекция для
классифкации
оказалась противоречивой (я лично думаю, что это всегда так),
тогда
возникают вопросы - как тем не менее работать в таких условиях:
-- указывать экспертам на их ошибки и т.п.

Кроме того (2):
- в 2003 применялись самые простые методы, лишь бы "выполнить"
- сейчас можно экспериментировать - все уже поняли, что никто не
будет
интерпретировать результаты РОМИП как приговор информационной
системе
- то есть можно попробовать другие методы

Мой вывод:
- надо повторять задания 2003 года, частично (но только частично)
изменить
состав вопросов

Не важно, что в какой-то номинации будет один участник - я думаю,
всем будет интересно,
что было получено, а при условии что результаты сохранятся - можно
будет и через
год (ГОДЫ!!!) сравниваться.

============================
Результаты первого Российского семинара по оценке методов
информационного поиска
(РОМИП-2003)

И.С. Некрестьянов, СПбГУ, nis@...,
И.В. Сегалович, ООО "Яндекс"; iseg@...,
В.И. Шабанов, компания Rambler, vs@...
http://romip.narod.ru


1. Введение
2. Задачи РОМИП 2003
2.1. Текстовый корпус
2.2. Задача информационного поиска
2.3. Процедура оценки
2.4. Задача классификации
2.5. Процедура оценки
3. Задачи РОМИП 2004

======================================

Пока все это писал, получил письмо Игоря.
В сумме, уже более 1000 знаков.
Сейчас все склею - будет черновик тезисов.

Борис
dobroff2003
Оргкомитет
 
Posts: 83
Joined: Fri May 23, 2003 9:52 am

Return to События

Who is online

Users browsing this forum: No registered users and 11 guests

cron