Добрый день,
нам необходимо подготовить список дорожек, которые мы
можем реализовать в рамках РОМИП'2004.
Вот список дорожек-кандидатов собранный из проекта Владимира Плешко и
заметок Бориса Доброва о круглом столе РОМИП'2003.
Реально реализовываться будут конечно не все дорожки, а только те
из них, которые:
- вызовут наибольший интерес (ресурсы ограничены)
- будут "реализуемы"
(определены правила и созданы коллекции данных)
Поэтому я призываю всех заинтересованных в участии в какой-либо из дорожек
активно включаться в обсуждение ее организации.
>1) поиск
>1.1) документографический (хотелось бы)
то есть классический поиск по не-Веб коллекции?
Обсуждавшиеся варианты:
1) нормативные документы
(предлагались варианты с получением коллекций,
сложнее с запросами и проверка ответов требует профессиональных
знаний в этой прикладной области)
2) новостная коллекция
можем ли мы получить коллекцию разумного образаца?
откуда брать запросы?
3) художественная литература
4) газеты
>1.2) web
>1.2.1) страницы (стоит повторить)
интересная подзадача - определение лучшей страницы с сайта
>1.2.2) сайты
хотим ли мы новую коллекцию документов или можно переиспользовать коллекцию
от РОМИП2003 с новыми запросами?
(лично мне нравится идея переиспользовать коллекцию - кажется она
получилась не очень простая или хочется чище?)
>1.3) пассажей/фрагментов текста
>1.4) фактографический
>1.3.1) ответ-документ
>1.3.2) ответ-строка
>2) классификация
>2.1) тематическая
>2.1.2) сайтов (стоит повторить)
мы можем использвать уточненную обучающую выборку для той же коллекции
- переиспользовав результат РОМИП2003
интересно попробовать и классическую задачу классификации документов
- откуда взять обучающую выборку?
>2.2) оценочная
>3) кластер-анализ
>3.1) новости
интересно попробовать emerging topic detection
>4) аннотирование/реферирование/выделение ключевых слов (тем)
>4.1) по контексту (думаю, нужно разок провести на небольшой коллекции и
>успокоиться)
>4.2) общее (аналогично 4.1)
>...
аннотирование не совсем понятно как оценивать и нет возможности
переиспользовать результат, это понижает реализуемость
Хотя выделение ключевых слов - кажется вполне реализуемо
5) , то есть
улучшение характеристик стандартной ПМ за счет учета различного
рода дополнительных факторов;
это несколько академичная задача, но например для аннотирования по запросу
она очень хорошо подходит
В качестве основы можно взять что-то стандартное и свободно-доступное
6) Итеративное уточнение запросов
Можно сделать на основе запросов РОМИП2003 (одну итерацию),
но почти без защиты от фальсификации.
7) Анализ коллекции
7.1) Выявление дубликатов (частично схожих и версий)
7.2) Выявление логических документов
7.3) Выявление документов заданного жанра
(например, научных текстов в narod.ru)
-igor