План РОМИП'2005?

(read only)

Postby neigor » Mon Jan 17, 2005 4:24 pm

Добрый день,

пауза затянулась и наверное во многом из-за моей пассивности :(
Пора исправлять ситуацию :)

Предлагаю обсудить план семинара в этом году.
Пока основной вопрос - "Что делаем?".

Есть конечно еще и
Когда делаем? - запускаем все дорожки одновремено или с временным сдвигом,
остаемся ли в контексте RCDL, ....
Как делаем? - будет ли в этом году грант неясно, делать ли анонс на
зарубежную аудиторию, ...
но их можно пытаться решать в рабочем порядке.

=====================
Итак, возможные дорожки:
=====================

1. Adhoc

видимо классическую задачу оставить стоит,
по Веб и/или нормативной коллекции.
Можно попробовать создать новую (расширенную?) (Веб?) (с осмысленным
графом ссылок?) коллекцию для этого.

2. Классификация

мы можем продолжить как классификацию на основе DMOZ+narod,
так и на основе поиска

3. QA

Как сформулировать задачу, чтобы она:
a) имела простую постановку
b) могла быть оценена
c) была интересна не только Володе Плешко :)

Есть ли вообще к этой задаче интерес?

4. Поиск по новостной коллекции

Интерес как я понимаю есть,
точной постановки задач нет, но тут можно опираться на обширный
зарубежный опыт, а вот с коллекции пока нет.

Илья/Михаил: не могли бы вы пояснить есть ли шанс получить новотную
коллекцию для этого цикла РОМИП?

5. Автоматическое аннотирование

Несколько человек высказывало интерес к этой задаче.
Основное затруднение - результаты оценки плохо переиспользуемы,
то есть сделав новый вариант аннотирования после РОМИП
непонятно можно ли его хоть как-то сравнить с теми вариантами что
оценивались.

Тем не менее попробовать эту дорожку интересно. Чтобы охватить как можно
больше потенциальных желающих хочется выбрать коллекцию
и условия задачи устраивающую большинство
(нужны ли ссылки в коллекции, все ли хотят контекстно-зависимое
аннотирование по запросу, ...)

6. Другие дорожки

Во время очной части РОМИП'2004 и после нее выдвигались некоторые другие
идеи. Для того чтобы их можно было включить в программу семинара необходимо
понять как их реализовывать и кто будет учавствовать. Не обязательно сразу
иметь все ответы, но надо хотя бы попытаться донести идею до потенциально
заинтересованной аудитории :)

Вообще, прошу всех заинтересованных в участии высказаться - сейчас самое
время повлиять на правила и программу, так чтобы потом не казалось, что все
не так :)

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: План РОМИП'2005?

Postby gershenzon » Tue Jan 18, 2005 11:03 am

Добрый день!
Это Д. Панкратов и Л. Гершензон из Интегрума.

> 3. QA
>
> Как сформулировать задачу, чтобы она:
> a) имела простую постановку
> b) могла быть оценена
> c) была интересна не только Володе Плешко :)
>
> Есть ли вообще к этой задаче интерес?

Нам интересна эта дорожка.
Мы себе это задание представляем примерно так:

Определяется набор объектов и атрибутов этих объектов.
Примеры объектов: человек, организация,
Примеры атрибутов:
для человека - год рождения, место работы, образование, ...
для организации - финансовые показатели, число сотрудников,
менеджмент,...

Задание формулируется так: для множества объектов определенного типа
найти значения определенных атрибутов. Для каждого ответа выдавать
также иллюстрацию, фрагмент документа или целый документ, из которого
извлечена информация
Хочется договориться о форме значений атрибутов и самих объектов.
Скажем, для задачи определения даты рождения человека - выдавать
именно дату, а не просто фрагмент текста, ее содержащий. Если нужно
найти человека, обязательно требовать наличие фамилии, ответы
типа "великий артист" или "его друг" не принимать.
Оценка точности ответа производится асессором на основе прилагающихся
иллюстраций.
С полнотой все не так очевидно...

Это наши первые пожелания по этой дорожке. Мы готовы к активному
обсуждению.
Володя Плешко, в такой формулировке это интересно? Есть ли еще
желающие участвовать в дорожке, сформулированной таким образом?
Хорошо бы, чтобы нас было много.
gershenzon
 
Posts: 1
Joined: Tue Jan 18, 2005 6:25 am

Re: [romip] План РОМИП'2005?

Postby pb » Tue Jan 25, 2005 11:04 am

Добрый день!

Предлагаю постановку задачи по автоматическому аннотированию.

0. Фиксируем формат и кол-во предложений/слов в аннотации.
1. Собираем результаты прогонов по дорожке ad hoc.
2. Формируем пулы по ограниченному кол-ву запросов. Например, 200. Эти
запросы точно включают те, которые будут оцениваться.
3. Выдаем участникам наборы "запрос+пул".
4. Требуем быстрого выполнения (скажем, неделя).
5. По оценивающимся запросам проверяются 1)полные тексты 2) аннотации
6. Аннотация - хорошая, если эти оценки совпадают (в случае градаций +
нескольких оценщиков - "близки"). Косвенно получаем еще один
интересный результат - насколько оценка по аннотации быстрее.

ПБ
pb
Оргкомитет
 
Posts: 72
Joined: Mon Feb 10, 2003 11:52 am

RE: [romip] План РОМИП'2005?

Postby maxgubin » Wed Jan 26, 2005 8:40 am

Всем добрый день!
Меня достаточно сильно интересует оценка качества автоматического
аннотирования. Но, в предлагаемой методике есть, как мне кажется два
недостатка:

1. Повторная используемость, то о чем постоянно говорит Игорь Н.
Результатами этого прогона нельзя воспользоваться потом, например, используя
новый алгоритм - потому что каждый раз требуется работа асессоров. Я тут
проводя оценки у себя внутри все пытаюсь придумать такую методику, но пока
идеи нет. Насколько я знаю, хорошей идеи пока и в зарубежном опыте нет :)

2. Некоторая ограниченность постановки задачи. Ее можно кратко
сформулировать так "насколько хорошо согласована релевантность аннотации и
документа". Но ведь это не единственный критерий. Может быть важна,
например, постановка "насколько аннотация хорошо отражает, о чем документ с
точки зрения запроса" (например, из аннотации следует, что по запросу F1 он
про гонки, а на самом деле, про версию правовой системы). Или "насколько
аннотация уменьшает необходимость в просмотре текста нерелевантного
документа" т.е. насколько компенсирует неидеальность алгоритма отбора
поиска. Например, я сейчас ставлю как одно из самых важных "насколько
аннотация помогает найти часть документа, содержащая информацию о запросе",
просто у меня много больших документов.


Максим
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am


Return to Объявления Оргкомитета

Who is online

Users browsing this forum: No registered users and 20 guests

cron