Page 1 of 1
Posted:
Sun Feb 08, 2004 9:40 pm
by neigor
Добрый день,
нам необходимо подготовить список дорожек, которые мы
можем реализовать в рамках РОМИП'2004.
Вот список дорожек-кандидатов собранный из проекта Владимира Плешко и
заметок Бориса Доброва о круглом столе РОМИП'2003.
Реально реализовываться будут конечно не все дорожки, а только те
из них, которые:
- вызовут наибольший интерес (ресурсы ограничены)
- будут "реализуемы"
(определены правила и созданы коллекции данных)
Поэтому я призываю всех заинтересованных в участии в какой-либо из дорожек
активно включаться в обсуждение ее организации.
>1) поиск
>1.1) документографический (хотелось бы)
то есть классический поиск по не-Веб коллекции?
Обсуждавшиеся варианты:
1) нормативные документы
(предлагались варианты с получением коллекций,
сложнее с запросами и проверка ответов требует профессиональных
знаний в этой прикладной области)
2) новостная коллекция
можем ли мы получить коллекцию разумного образаца?
откуда брать запросы?
3) художественная литература
4) газеты
>1.2) web
>1.2.1) страницы (стоит повторить)
интересная подзадача - определение лучшей страницы с сайта
>1.2.2) сайты
хотим ли мы новую коллекцию документов или можно переиспользовать коллекцию
от РОМИП2003 с новыми запросами?
(лично мне нравится идея переиспользовать коллекцию - кажется она
получилась не очень простая или хочется чище?)
>1.3) пассажей/фрагментов текста
>1.4) фактографический
>1.3.1) ответ-документ
>1.3.2) ответ-строка
>2) классификация
>2.1) тематическая
>2.1.2) сайтов (стоит повторить)
мы можем использвать уточненную обучающую выборку для той же коллекции
- переиспользовав результат РОМИП2003
интересно попробовать и классическую задачу классификации документов
- откуда взять обучающую выборку?
>2.2) оценочная
>3) кластер-анализ
>3.1) новости
интересно попробовать emerging topic detection
>4) аннотирование/реферирование/выделение ключевых слов (тем)
>4.1) по контексту (думаю, нужно разок провести на небольшой коллекции и
>успокоиться)
>4.2) общее (аналогично 4.1)
>...
аннотирование не совсем понятно как оценивать и нет возможности
переиспользовать результат, это понижает реализуемость
Хотя выделение ключевых слов - кажется вполне реализуемо
5) , то есть
улучшение характеристик стандартной ПМ за счет учета различного
рода дополнительных факторов;
это несколько академичная задача, но например для аннотирования по запросу
она очень хорошо подходит
В качестве основы можно взять что-то стандартное и свободно-доступное
6) Итеративное уточнение запросов
Можно сделать на основе запросов РОМИП2003 (одну итерацию),
но почти без защиты от фальсификации.
7) Анализ коллекции
7.1) Выявление дубликатов (частично схожих и версий)
7.2) Выявление логических документов
7.3) Выявление документов заданного жанра
(например, научных текстов в narod.ru)
-igor
Re: [romip] дорожки для РОМИП2004
Posted:
Mon Feb 09, 2004 4:50 pm
by pb
Мои небольшие комментарии.
ПБ
>>1) поиск
>>1.1) документографический (хотелось бы)
> то есть классический поиск по не-Веб коллекции?
> Обсуждавшиеся варианты:
> 1) нормативные документы
> (предлагались варианты с получением коллекций,
> сложнее с запросами и проверка ответов требует профессиональных
> знаний в этой прикладной области)
Я могу тоже попытаться связаться с юридической академией.
Еще вариант.
Пусть есть конкретная практикующая контора/юрист/юр. отдел
организации. Документировать вопросы/задачи/проблемы за день/неделю и
результаты поиска по ним профессионалов в Гаранте/Кодексе. Вопросы
перевести в запросы (можно два варианта - профи и простой
пользователь) - это задания + засорить их запросами из логов.
> 2) новостная коллекция
> можем ли мы получить коллекцию разумного образаца?
> откуда брать запросы?
> 3) художественная литература
это имеет какую-нибудь практическую ценность?
> 4) газеты
М.б., обратиться к изд-ву "Открытые системы" и попросить их архив?
>>1.2) web
>>1.2.1) страницы (стоит повторить)
> интересная подзадача - определение лучшей страницы с сайта
в каком смысле - лучшей?
>>1.2.2) сайты
> хотим ли мы новую коллекцию документов или можно переиспользовать коллекцию
> от РОМИП2003 с новыми запросами?
> (лично мне нравится идея переиспользовать коллекцию - кажется она
> получилась не очень простая или хочется чище?)
я думаю, можно переиспользовать.
Кстати, в прошлом году была идея home page task.
(это ведь не равно "лучшей странице с сайта"? )
>>1.3) пассажей/фрагментов текста
>>1.4) фактографический
>>1.3.1) ответ-документ
>>1.3.2) ответ-строка
>>2) классификация
>>2.1) тематическая
>>2.1.2) сайтов (стоит повторить)
> мы можем использвать уточненную обучающую выборку для той же коллекции
> - переиспользовав результат РОМИП2003
> интересно попробовать и классическую задачу классификации документов
> - откуда взять обучающую выборку?
Кстати, в корпусе "Известий" сохраняется информация о рубрике?
>>2.2) оценочная
>>3) кластер-анализ
>>3.1) новости
> интересно попробовать emerging topic detection
>>4) аннотирование/реферирование/выделение ключевых слов (тем)
>>4.1) по контексту (думаю, нужно разок провести на небольшой коллекции и
>>успокоиться)
>>4.2) общее (аналогично 4.1)
>>...
> аннотирование не совсем понятно как оценивать и нет возможности
> переиспользовать результат, это понижает реализуемость
> Хотя выделение ключевых слов - кажется вполне реализуемо
> 5) , то есть
> улучшение характеристик стандартной ПМ за счет учета различного
> рода дополнительных факторов;
> это несколько академичная задача, но например для аннотирования по запросу
> она очень хорошо подходит
> В качестве основы можно взять что-то стандартное и свободно-доступное
> 6) Итеративное уточнение запросов
> Можно сделать на основе запросов РОМИП2003 (одну итерацию),
> но почти без защиты от фальсификации.
> 7) Анализ коллекции
> 7.1) Выявление дубликатов (частично схожих и версий)
> 7.2) Выявление логических документов
Что такое логический документ?
> 7.3) Выявление документов заданного жанра
> (например, научных текстов в narod.ru)
Это мне очень нравится! ;)
Query answering (ЕЯ вопросы)?
Двуязычный поиск (запросы на английском, док-ты на русском)?
Поиск по библиографическим описаниям?
(может быть, поможет расширить список участников за счет библиотечных
систем? или там простое совпадение по полям?)
ПБ
Re: [romip] дорожки для РОМИП2004
Posted:
Mon Feb 09, 2004 5:12 pm
by neigor
> > то есть классический поиск по не-Веб коллекции?
> > Обсуждавшиеся варианты:
> > 1) нормативные документы
> > (предлагались варианты с получением коллекций,
> > сложнее с запросами и проверка ответов требует профессиональных
> > знаний в этой прикладной области)
> Я могу тоже попытаться связаться с юридической академией.
> Еще вариант.
> Пусть есть конкретная практикующая контора/юрист/юр. отдел
> организации. Документировать вопросы/задачи/проблемы за день/неделю и
> результаты поиска по ним профессионалов в Гаранте/Кодексе. Вопросы
> перевести в запросы (можно два варианта - профи и простой
> пользователь) - это задания + засорить их запросами из логов.
но как проверять ответы?
Ведь участники могут найти что-торелевантное, чего не находит
Гарант/Кодекс (не говоря уже о том что поиск идет по другой коллекции)
> > 2) новостная коллекция
> > можем ли мы получить коллекцию разумного образаца?
> > откуда брать запросы?
>
> > 3) художественная литература
> это имеет какую-нибудь практическую ценность?
>
> > 4) газеты
>
> М.б., обратиться к изд-ву "Открытые системы" и попросить их архив?
нам нужна лицензия на его использование и надо понимать какие требования
будут предъявляться к участникам
Как несколько раз рассказывал Борис здесь основные грабли в том что
правообладатели не осбо заинтересованы в РОМИП
(в принципе они могут быть не против, но это для них лишняяя работа и ....)
> >>1.2) web
> >>1.2.1) страницы (стоит повторить)
>
> > интересная подзадача - определение лучшей страницы с сайта
> в каком смысле - лучшей?
Больше всего соответствующей запросу с этого сайта или
наилучшим образом характеризующая этот сайт в контексте конкретного запроса.
То есть участников можно просить возвращать не более 1-й страницы с сайта
(или упорядоченный набор из 3-5 страниц)
Хотя, действительно, надо еще понять как будут выглядеть инструкции
оценщикам.
> Кстати, в прошлом году была идея home page task.
> (это ведь не равно "лучшей странице с сайта"? )
нет, это скорее выделение логических документов
> > 7.2) Выявление логических документов
> Что такое логический документ?
например howto, faq, научная статья -
это логически единый документ, в но разбитый на несколько физически разных
html страниц.
homepage - это тоже в некоторой степени логический документ, но он может
содержать поддокументы
> Query answering (ЕЯ вопросы)?
это уже есть в списке - "фактографический поиск"
> Двуязычный поиск (запросы на английском, док-ты на русском)?
это, вероятно, может быть интересно инностранным участникам
(но я сомневаюсь что мы их получим в этом году - LREC поздновато)
> Поиск по библиографическим описаниям?
> (может быть, поможет расширить список участников за счет библиотечных
> систем? или там простое совпадение по полям?)
Я это не совсем отчетливо понимаю. Имеется ввиду запросы вида
"найди ресурс с названием X изданный в течении 90-х?". Или что-то менее
структурированное?
-igor
Re[2]: [romip] дорожки для РОМИП2004
Posted:
Mon Feb 09, 2004 5:43 pm
by pb
>> > то есть классический поиск по не-Веб коллекции?
>> > Обсуждавшиеся варианты:
>> > 1) нормативные документы
>> > (предлагались варианты с получением коллекций,
>> > сложнее с запросами и проверка ответов требует профессиональных
>> > знаний в этой прикладной области)
>> Я могу тоже попытаться связаться с юридической академией.
>> Еще вариант.
>> Пусть есть конкретная практикующая контора/юрист/юр. отдел
>> организации. Документировать вопросы/задачи/проблемы за день/неделю и
>> результаты поиска по ним профессионалов в Гаранте/Кодексе. Вопросы
>> перевести в запросы (можно два варианта - профи и простой
>> пользователь) - это задания + засорить их запросами из логов.
> но как проверять ответы? Ведь участники могут найти
> что-торелевантное, чего не находит Гарант/Кодекс
модификация pooling, только у нас есть ручной "базовый пул".
т.е. допроверять руками надо будет намного меньше
> (не говоря уже о том что поиск идет по другой коллекции)
если мы берем федеральные док-ты - то их фиксированное кол-во (они
обязаны быть и там, и там, другое дело - как будет составлена/
прорежена коллекция)
>> > 2) новостная коллекция
>> > можем ли мы получить коллекцию разумного образаца?
>> > откуда брать запросы?
>>
>> > 3) художественная литература
>> это имеет какую-нибудь практическую ценность?
>>
>> > 4) газеты
>>
>> М.б., обратиться к изд-ву "Открытые системы" и попросить их архив?
> нам нужна лицензия на его использование и надо понимать какие требования
> будут предъявляться к участникам
> Как несколько раз рассказывал Борис здесь основные грабли в том что
> правообладатели не осбо заинтересованы в РОМИП
> (в принципе они могут быть не против, но это для них лишняяя работа и ....)
Обо всем можно договориться, тем более близкий профиль.
>> >>1.2) web
>> >>1.2.1) страницы (стоит повторить)
>>
>> > интересная подзадача - определение лучшей страницы с сайта
>> в каком смысле - лучшей?
> Больше всего соответствующей запросу с этого сайта или
> наилучшим образом характеризующая этот сайт в контексте конкретного запроса.
> То есть участников можно просить возвращать не более 1-й страницы с сайта
> (или упорядоченный набор из 3-5 страниц)
> Хотя, действительно, надо еще понять как будут выглядеть инструкции
> оценщикам.
>> Кстати, в прошлом году была идея home page task.
>> (это ведь не равно "лучшей странице с сайта"? )
> нет, это скорее выделение логических документов
>> > 7.2) Выявление логических документов
>> Что такое логический документ?
> например howto, faq, научная статья -
> это логически единый документ, в но разбитый на несколько физически разных
> html страниц.
imho faq обычно выглядит наоборот - много вопросов/ответов в одном
документе
> homepage - это тоже в некоторой степени логический документ, но он может
> содержать поддокументы
>> Query answering (ЕЯ вопросы)?
> это уже есть в списке - "фактографический поиск"
>> Двуязычный поиск (запросы на английском, док-ты на русском)?
> это, вероятно, может быть интересно инностранным участникам
> (но я сомневаюсь что мы их получим в этом году - LREC поздновато)
>> Поиск по библиографическим описаниям?
>> (может быть, поможет расширить список участников за счет библиотечных
>> систем? или там простое совпадение по полям?)
> Я это не совсем отчетливо понимаю. Имеется ввиду запросы вида
> "найди ресурс с названием X изданный в течении 90-х?". Или что-то менее
> структурированное?
Есть, например, библиографическая БД (записи в МАРК, поля: автор,
название, год изд. и т.д.). Я задаю запрос: "оценка методов
информационного поиска", мне возвращаются ссылки на книги/статьи.
Есть, конечно, сложность с оценкой (оценивать по описанию или по самому док-ту?)
Сможет ли это заинтересовать разработчиков библ. систем???
ПБ
RE: [romip] дорожки для РОМИП2004
Posted:
Mon Feb 09, 2004 8:00 pm
by maxgubin
Всем добрый день!
....
> Я могу тоже попытаться связаться с юридической академией.
> Еще вариант.
> Пусть есть конкретная практикующая контора/юрист/юр. отдел
> организации. Документировать вопросы/задачи/проблемы за день/неделю и
> результаты поиска по ним профессионалов в Гаранте/Кодексе. Вопросы
> перевести в запросы (можно два варианта - профи и простой
> пользователь) - это задания + засорить их запросами из логов.
Действительно, мое личное глубокое убеждение, что пул для специализированных
коллекций плохо. Я несколько раз описывал, как я настраиваю, но использовать
мои данные было-бы нечестно. И набрать запросы из "юридической конторы"
вряд-ли получится, реально у них всего единицы запросов в день, которые нам
подойдут, т.е. "смысловые".
Ну и разница коллекций, конечно имеется.
Зато я могу еще добавить тематики для автоматизированной рубрикации, совсем
про них забыл в прошлый раз. Прелесть в том, что они у всех размечены и
проверены уже вручную, так что даже ассесоров не надо.
> > 7.2) Выявление логических документов
> Что такое логический документ?
>например howto, faq, научная статья -
> это логически единый документ, в но разбитый на несколько физически
>разных html страниц.
Не знаю, мне это все как-то не интересно. Тем более, что я с трудом вижу
практическое применение.
> Query answering (ЕЯ вопросы)?
>это уже есть в списке - "фактографический поиск"
А у нас есть подходящая коллекция? Я уже не говорю про вопросы... Это же не
"кубок Яндекса" :).
> Поиск по библиографическим описаниям?
> (может быть, поможет расширить список участников за счет библиотечных
> систем? или там простое совпадение по полям?)
>Я это не совсем отчетливо понимаю. Имеется ввиду запросы вида
>"найди ресурс с названием X изданный в течении 90-х?". Или что-то менее
>структурированное?
Если имеется в виду тема, растущая из MARC (RusMARC) и все от нее, то там
информационного поиска как такового нет. По ключевым словам и аннотациям
искать?
Что хочу (могу я)
1. ad hoc Опять Web+Зак-во+Новости
2. Я могу дать данные для классификации (рубрикации) законодательства.
3. Контекстно зависимое аннотирование (хотя система еще разрабатывается,
просто могу не успеть в заявленные сроки).
Остальное просто не успеваю в сроки и ресурсы.
Максим