romip.ru

Posted: **Sun Feb 08, 2004 9:40 pm**

Добрый день,

нам необходимо подготовить список дорожек, которые мы
можем реализовать в рамках РОМИП'2004.

Вот список дорожек-кандидатов собранный из проекта Владимира Плешко и
заметок Бориса Доброва о круглом столе РОМИП'2003.

Реально реализовываться будут конечно не все дорожки, а только те
из них, которые:
- вызовут наибольший интерес (ресурсы ограничены)
- будут "реализуемы"
(определены правила и созданы коллекции данных)

Поэтому я призываю всех заинтересованных в участии в какой-либо из дорожек
активно включаться в обсуждение ее организации.

>1) поиск
>1.1) документографический (хотелось бы)

то есть классический поиск по не-Веб коллекции?
Обсуждавшиеся варианты:
1) нормативные документы
(предлагались варианты с получением коллекций,
сложнее с запросами и проверка ответов требует профессиональных
знаний в этой прикладной области)
2) новостная коллекция
можем ли мы получить коллекцию разумного образаца?
откуда брать запросы?
3) художественная литература
4) газеты

>1.2) web
>1.2.1) страницы (стоит повторить)

интересная подзадача - определение лучшей страницы с сайта

>1.2.2) сайты

хотим ли мы новую коллекцию документов или можно переиспользовать коллекцию
от РОМИП2003 с новыми запросами?
(лично мне нравится идея переиспользовать коллекцию - кажется она
получилась не очень простая или хочется чище?)

>1.3) пассажей/фрагментов текста
>1.4) фактографический
>1.3.1) ответ-документ
>1.3.2) ответ-строка
>2) классификация
>2.1) тематическая
>2.1.2) сайтов (стоит повторить)

мы можем использвать уточненную обучающую выборку для той же коллекции
- переиспользовав результат РОМИП2003

интересно попробовать и классическую задачу классификации документов
- откуда взять обучающую выборку?

>2.2) оценочная
>3) кластер-анализ
>3.1) новости
интересно попробовать emerging topic detection
>4) аннотирование/реферирование/выделение ключевых слов (тем)
>4.1) по контексту (думаю, нужно разок провести на небольшой коллекции и
>успокоиться)
>4.2) общее (аналогично 4.1)
>...

аннотирование не совсем понятно как оценивать и нет возможности
переиспользовать результат, это понижает реализуемость

Хотя выделение ключевых слов - кажется вполне реализуемо

5) , то есть
улучшение характеристик стандартной ПМ за счет учета различного
рода дополнительных факторов;

это несколько академичная задача, но например для аннотирования по запросу
она очень хорошо подходит

В качестве основы можно взять что-то стандартное и свободно-доступное

6) Итеративное уточнение запросов
Можно сделать на основе запросов РОМИП2003 (одну итерацию),
но почти без защиты от фальсификации.

7) Анализ коллекции
7.1) Выявление дубликатов (частично схожих и версий)
7.2) Выявление логических документов
7.3) Выявление документов заданного жанра
(например, научных текстов в narod.ru)

-igor

Posted: **Mon Feb 09, 2004 4:50 pm**

Мои небольшие комментарии.

ПБ

>>1) поиск
>>1.1) документографический (хотелось бы)

> то есть классический поиск по не-Веб коллекции?
> Обсуждавшиеся варианты:
> 1) нормативные документы
> (предлагались варианты с получением коллекций,
> сложнее с запросами и проверка ответов требует профессиональных
> знаний в этой прикладной области)
Я могу тоже попытаться связаться с юридической академией.
Еще вариант.
Пусть есть конкретная практикующая контора/юрист/юр. отдел
организации. Документировать вопросы/задачи/проблемы за день/неделю и
результаты поиска по ним профессионалов в Гаранте/Кодексе. Вопросы
перевести в запросы (можно два варианта - профи и простой
пользователь) - это задания + засорить их запросами из логов.

> 2) новостная коллекция
> можем ли мы получить коллекцию разумного образаца?
> откуда брать запросы?

> 3) художественная литература
это имеет какую-нибудь практическую ценность?

> 4) газеты

М.б., обратиться к изд-ву "Открытые системы" и попросить их архив?

>>1.2) web
>>1.2.1) страницы (стоит повторить)

> интересная подзадача - определение лучшей страницы с сайта
в каком смысле - лучшей?

>>1.2.2) сайты

> хотим ли мы новую коллекцию документов или можно переиспользовать коллекцию
> от РОМИП2003 с новыми запросами?
> (лично мне нравится идея переиспользовать коллекцию - кажется она
> получилась не очень простая или хочется чище?)
я думаю, можно переиспользовать.

Кстати, в прошлом году была идея home page task.
(это ведь не равно "лучшей странице с сайта"? )

>>1.3) пассажей/фрагментов текста
>>1.4) фактографический
>>1.3.1) ответ-документ
>>1.3.2) ответ-строка
>>2) классификация
>>2.1) тематическая
>>2.1.2) сайтов (стоит повторить)

> мы можем использвать уточненную обучающую выборку для той же коллекции
> - переиспользовав результат РОМИП2003

> интересно попробовать и классическую задачу классификации документов
> - откуда взять обучающую выборку?
Кстати, в корпусе "Известий" сохраняется информация о рубрике?

>>2.2) оценочная
>>3) кластер-анализ
>>3.1) новости
> интересно попробовать emerging topic detection
>>4) аннотирование/реферирование/выделение ключевых слов (тем)
>>4.1) по контексту (думаю, нужно разок провести на небольшой коллекции и
>>успокоиться)
>>4.2) общее (аналогично 4.1)
>>...

> аннотирование не совсем понятно как оценивать и нет возможности
> переиспользовать результат, это понижает реализуемость

> Хотя выделение ключевых слов - кажется вполне реализуемо

> 5) , то есть
> улучшение характеристик стандартной ПМ за счет учета различного
> рода дополнительных факторов;

> это несколько академичная задача, но например для аннотирования по запросу
> она очень хорошо подходит

> В качестве основы можно взять что-то стандартное и свободно-доступное

> 6) Итеративное уточнение запросов
> Можно сделать на основе запросов РОМИП2003 (одну итерацию),
> но почти без защиты от фальсификации.

> 7) Анализ коллекции
> 7.1) Выявление дубликатов (частично схожих и версий)

> 7.2) Выявление логических документов
Что такое логический документ?

> 7.3) Выявление документов заданного жанра
> (например, научных текстов в narod.ru)
Это мне очень нравится! ;)

Query answering (ЕЯ вопросы)?
Двуязычный поиск (запросы на английском, док-ты на русском)?

Поиск по библиографическим описаниям?
(может быть, поможет расширить список участников за счет библиотечных
систем? или там простое совпадение по полям?)

ПБ

Posted: **Mon Feb 09, 2004 5:12 pm**

> > то есть классический поиск по не-Веб коллекции?
> > Обсуждавшиеся варианты:
> > 1) нормативные документы
> > (предлагались варианты с получением коллекций,
> > сложнее с запросами и проверка ответов требует профессиональных
> > знаний в этой прикладной области)
> Я могу тоже попытаться связаться с юридической академией.
> Еще вариант.
> Пусть есть конкретная практикующая контора/юрист/юр. отдел
> организации. Документировать вопросы/задачи/проблемы за день/неделю и
> результаты поиска по ним профессионалов в Гаранте/Кодексе. Вопросы
> перевести в запросы (можно два варианта - профи и простой
> пользователь) - это задания + засорить их запросами из логов.

но как проверять ответы?
Ведь участники могут найти что-торелевантное, чего не находит
Гарант/Кодекс (не говоря уже о том что поиск идет по другой коллекции)

> > 2) новостная коллекция
> > можем ли мы получить коллекцию разумного образаца?
> > откуда брать запросы?
>
> > 3) художественная литература
> это имеет какую-нибудь практическую ценность?
>
> > 4) газеты
>
> М.б., обратиться к изд-ву "Открытые системы" и попросить их архив?

нам нужна лицензия на его использование и надо понимать какие требования
будут предъявляться к участникам
Как несколько раз рассказывал Борис здесь основные грабли в том что
правообладатели не осбо заинтересованы в РОМИП
(в принципе они могут быть не против, но это для них лишняяя работа и ....)

> >>1.2) web
> >>1.2.1) страницы (стоит повторить)
>
> > интересная подзадача - определение лучшей страницы с сайта
> в каком смысле - лучшей?

Больше всего соответствующей запросу с этого сайта или
наилучшим образом характеризующая этот сайт в контексте конкретного запроса.

То есть участников можно просить возвращать не более 1-й страницы с сайта
(или упорядоченный набор из 3-5 страниц)

Хотя, действительно, надо еще понять как будут выглядеть инструкции
оценщикам.

> Кстати, в прошлом году была идея home page task.
> (это ведь не равно "лучшей странице с сайта"? )

нет, это скорее выделение логических документов

> > 7.2) Выявление логических документов
> Что такое логический документ?

например howto, faq, научная статья -
это логически единый документ, в но разбитый на несколько физически разных
html страниц.

homepage - это тоже в некоторой степени логический документ, но он может
содержать поддокументы

> Query answering (ЕЯ вопросы)?

это уже есть в списке - "фактографический поиск"

> Двуязычный поиск (запросы на английском, док-ты на русском)?

это, вероятно, может быть интересно инностранным участникам
(но я сомневаюсь что мы их получим в этом году - LREC поздновато)

> Поиск по библиографическим описаниям?
> (может быть, поможет расширить список участников за счет библиотечных
> систем? или там простое совпадение по полям?)

Я это не совсем отчетливо понимаю. Имеется ввиду запросы вида
"найди ресурс с названием X изданный в течении 90-х?". Или что-то менее
структурированное?

-igor

Posted: **Mon Feb 09, 2004 5:43 pm**

>> > то есть классический поиск по не-Веб коллекции?
>> > Обсуждавшиеся варианты:
>> > 1) нормативные документы
>> > (предлагались варианты с получением коллекций,
>> > сложнее с запросами и проверка ответов требует профессиональных
>> > знаний в этой прикладной области)
>> Я могу тоже попытаться связаться с юридической академией.
>> Еще вариант.
>> Пусть есть конкретная практикующая контора/юрист/юр. отдел
>> организации. Документировать вопросы/задачи/проблемы за день/неделю и
>> результаты поиска по ним профессионалов в Гаранте/Кодексе. Вопросы
>> перевести в запросы (можно два варианта - профи и простой
>> пользователь) - это задания + засорить их запросами из логов.

> но как проверять ответы? Ведь участники могут найти
> что-торелевантное, чего не находит Гарант/Кодекс
модификация pooling, только у нас есть ручной "базовый пул".
т.е. допроверять руками надо будет намного меньше

> (не говоря уже о том что поиск идет по другой коллекции)
если мы берем федеральные док-ты - то их фиксированное кол-во (они
обязаны быть и там, и там, другое дело - как будет составлена/
прорежена коллекция)

>> > 2) новостная коллекция
>> > можем ли мы получить коллекцию разумного образаца?
>> > откуда брать запросы?
>>
>> > 3) художественная литература
>> это имеет какую-нибудь практическую ценность?
>>
>> > 4) газеты
>>
>> М.б., обратиться к изд-ву "Открытые системы" и попросить их архив?

> нам нужна лицензия на его использование и надо понимать какие требования
> будут предъявляться к участникам
> Как несколько раз рассказывал Борис здесь основные грабли в том что
> правообладатели не осбо заинтересованы в РОМИП
> (в принципе они могут быть не против, но это для них лишняяя работа и ....)
Обо всем можно договориться, тем более близкий профиль.

>> >>1.2) web
>> >>1.2.1) страницы (стоит повторить)
>>
>> > интересная подзадача - определение лучшей страницы с сайта
>> в каком смысле - лучшей?

> Больше всего соответствующей запросу с этого сайта или
> наилучшим образом характеризующая этот сайт в контексте конкретного запроса.

> То есть участников можно просить возвращать не более 1-й страницы с сайта
> (или упорядоченный набор из 3-5 страниц)

> Хотя, действительно, надо еще понять как будут выглядеть инструкции
> оценщикам.

>> Кстати, в прошлом году была идея home page task.
>> (это ведь не равно "лучшей странице с сайта"? )

> нет, это скорее выделение логических документов

>> > 7.2) Выявление логических документов
>> Что такое логический документ?

> например howto, faq, научная статья -
> это логически единый документ, в но разбитый на несколько физически разных
> html страниц.
imho faq обычно выглядит наоборот - много вопросов/ответов в одном
документе

> homepage - это тоже в некоторой степени логический документ, но он может
> содержать поддокументы

>> Query answering (ЕЯ вопросы)?

> это уже есть в списке - "фактографический поиск"

>> Двуязычный поиск (запросы на английском, док-ты на русском)?

> это, вероятно, может быть интересно инностранным участникам
> (но я сомневаюсь что мы их получим в этом году - LREC поздновато)

>> Поиск по библиографическим описаниям?
>> (может быть, поможет расширить список участников за счет библиотечных
>> систем? или там простое совпадение по полям?)

> Я это не совсем отчетливо понимаю. Имеется ввиду запросы вида
> "найди ресурс с названием X изданный в течении 90-х?". Или что-то менее
> структурированное?
Есть, например, библиографическая БД (записи в МАРК, поля: автор,
название, год изд. и т.д.). Я задаю запрос: "оценка методов
информационного поиска", мне возвращаются ссылки на книги/статьи.
Есть, конечно, сложность с оценкой (оценивать по описанию или по самому док-ту?)
Сможет ли это заинтересовать разработчиков библ. систем???

ПБ

Posted: **Mon Feb 09, 2004 8:00 pm**

Всем добрый день!
....
> Я могу тоже попытаться связаться с юридической академией.
> Еще вариант.
> Пусть есть конкретная практикующая контора/юрист/юр. отдел
> организации. Документировать вопросы/задачи/проблемы за день/неделю и
> результаты поиска по ним профессионалов в Гаранте/Кодексе. Вопросы
> перевести в запросы (можно два варианта - профи и простой
> пользователь) - это задания + засорить их запросами из логов.

Действительно, мое личное глубокое убеждение, что пул для специализированных
коллекций плохо. Я несколько раз описывал, как я настраиваю, но использовать
мои данные было-бы нечестно. И набрать запросы из "юридической конторы"
вряд-ли получится, реально у них всего единицы запросов в день, которые нам
подойдут, т.е. "смысловые".

Ну и разница коллекций, конечно имеется.
Зато я могу еще добавить тематики для автоматизированной рубрикации, совсем
про них забыл в прошлый раз. Прелесть в том, что они у всех размечены и
проверены уже вручную, так что даже ассесоров не надо.

> > 7.2) Выявление логических документов
> Что такое логический документ?

>например howto, faq, научная статья -
> это логически единый документ, в но разбитый на несколько физически
>разных html страниц.

Не знаю, мне это все как-то не интересно. Тем более, что я с трудом вижу
практическое применение.

> Query answering (ЕЯ вопросы)?

>это уже есть в списке - "фактографический поиск"

А у нас есть подходящая коллекция? Я уже не говорю про вопросы... Это же не
"кубок Яндекса" :).

> Поиск по библиографическим описаниям?
> (может быть, поможет расширить список участников за счет библиотечных
> систем? или там простое совпадение по полям?)

>Я это не совсем отчетливо понимаю. Имеется ввиду запросы вида
>"найди ресурс с названием X изданный в течении 90-х?". Или что-то менее
>структурированное?

Если имеется в виду тема, растущая из MARC (RusMARC) и все от нее, то там
информационного поиска как такового нет. По ключевым словам и аннотациям
искать?

Что хочу (могу я)
1. ad hoc Опять Web+Зак-во+Новости
2. Я могу дать данные для классификации (рубрикации) законодательства.
3. Контекстно зависимое аннотирование (хотя система еще разрабатывается,
просто могу не успеть в заявленные сроки).

Остальное просто не успеваю в сроки и ресурсы.

Максим

romip.ru

дорожки для РОМИП2004

Re: [romip] дорожки для РОМИП2004

Re: [romip] дорожки для РОМИП2004

Re[2]: [romip] дорожки для РОМИП2004

RE: [romip] дорожки для РОМИП2004