Выбираем дорожки

(read only)

Postby neigor » Sat Mar 05, 2005 2:08 pm

Добрый день,

предпраздничный день не самый лучший момент для оживления обсуждения :)
но время то бежит :(

мое видение ситуации на сегодняшний день следующее.

У нас есть коллекции 2004 года:
- Веб коллекцуия Narod
- нормативных документов
- DMOZ хотя бы для обучения классификаторов

По-видимому у нас будет и (относительно небольшая)
новостная коллекция предоставленная Яндекс.

Есть некоторое число потенциальных дорожек, которые хочется/можно
организовать. Все сделать получится вряд ли из-за нехватки ресурсов
и участников тогда в каждой дорожке будет немного.

По срокам - по видимому график будет похож на прошлогодний,
запуск дорожек хочется сделать до конца марта, а
результаты получать с конца мая до середины июня.

Но до сих пор непонятно что мы реально запускаем.
Хочется понять какой интерес к каждой из потенциальных дорожек
(провести блиц-опрос). Итак:

Есть критическая масса для

1. дорожки поиска фактов
(видимо в первую очередь в варианте "извлечение объектов/именованных
сущностей" как более популярном в масcах)

2. дорожки классификации Веб страниц

Варианты про которые наджо принять решение
и хочется знать какие задачи кому интересны в плане участия в этом году:

3. по видимому надо иметь хотя бы одну традиционную поисковую дорожку
Базовые варианты:
a. по Веб коллекции
b. по коллекции нормативных документов
Возможные расширеные варианты:
c. "по документу образцу"
(например, как предложил Максим по абзацу образцу)
d. с уточнением запроса пользователя
(вариант который я себе пока представляю:
система будет выполнять лишь старые
запросы прошлых циклов РОМИП и знать релевантные им документы,
на основе пересечения множества релевантных и первой выдачи системы
иммитируется обратная связь
Такой подход не требует отдельной дорожки и вполне может
быть сделан в рамках 1a или 1b).

4. Другие виды классификации
a. сайтов
b. нормативных документов
(заманчиво поскольку проверять можно сравнивая с эталоном Кодекс)
c. структуризация множества документов

5. Новостные задачи
a. организация новостного потока?
весной эту тему развивал Миша Маслов и новостная коллекция
во многмо делалась под специализированные задачи.
Однако, я смутно представляю кому что в этой области интересно.

6. Аннотирование - несмотря на сложности с переиспользованием
хочется попробовать сделать пилотный вариант. Вроде бы интересно это
многим. Но какой вид аннотирования/реферирования наиболее интересен?
a. сайтов
b. документов
c. контекстно-зависимому (по запросу)

Если у вас есть интерес к участию в РОМИП'2005 - пожалуйста, выскажитесь о
том что вам из этого списка интересно и есть ли что-то важное пропущенное.
Это пока еще не формальная заявка, а как бы
декларация о намерениях :) Не хотите отвечать в список - пишите мне лично :)

По итогам опроса мы составим табличку желающих для каждой дорожки и
анонсируем старт семинара. Буду признателен, если вы найдете время на ответ
до 12 марта.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

RE: [romip] Выбираем дорожки

Postby alexant03 » Sat Mar 05, 2005 3:06 pm

Приветствую, господа.
Нас интересуют классификация:
- нормативных документов;
- веб-сайтов;
- веб-страниц.
С уважением,
Антонов Александр.

[romip] Выбираем дорожки
alexant03
Оргкомитет
 
Posts: 7
Joined: Fri Apr 23, 2004 5:03 am

RE: [romip] Выбираем дорожки

Postby maxgubin » Sat Mar 05, 2005 4:52 pm

Всем добрый день!

"Кодекс" интересует:

3. традиционная поисковая дорожка. Предлагаемые варианты:
- просто поменять запросы и опять сделать по старым коллекциям
(честно говоря, не очень интересно, но если наберуться люди, то сделаем).
- смешанный вариант (нормативно-вебовский). Объединяем коллекции и
запросы. Идея состоит в том, чтобы посмотреть, насколько устойчива система к
смешанным коллекциям и насколько "непрофильная" коллекция ухудшает поиск по
"профильной". Оценивать придется только документы, которые не были оценены
для данного запроса в прошлый раз. Это интересно для меня практически и
теоретически.
- документ "по образцу" - относительно интересно. Просто не пробовал и не
смотрел.
- с уточнением запроса. Честно говоря, я ни разу в жизни не видел, чтобы
пользователь использовал relevance feedback. Поэтому мне не очень интересно.

6. Аннотирование, причем только контекстно-зависимое.

Максим
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

RE: [romip] Выбираем дорожки

Postby vladimir_pleshko » Sat Mar 05, 2005 6:05 pm

1. Извлечение объектов
Выявление в тексте упоминаний о всех объектах заданного типа.
Интересно также оценить выявление референтных упоминаний.
Мне кажется, что нормальный корпус можно построить только по новостной
коллекции.

2. Классификация
Сайты, страницы, правовые документы

3. Новостные задачи
Очень интересно, но, по-моему, мы так и не смогли выработать постановку задачи.

4. Аннотирование
По контексту, документа.
Могу поддержать, если будет мало участников.

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

Re: [romip] Выбираем дорожки

Postby pb » Sun Mar 06, 2005 12:13 pm

Мне интересно аннотирование
- документов
- по запросу
IMHO в варианте "по запросу" легче организовать проверку.

ПБ
pb
Оргкомитет
 
Posts: 72
Joined: Mon Feb 10, 2003 11:52 am

Postby dobroff2003 » Wed Mar 09, 2005 11:27 am

Добрый день,

во-первых, кое-какие деньги на РОМИП2005 уже обещаны РФФИ (75000 - это
половина от прошлогоднего,
= 51,7 на руки); на 2005 год я запросил 300000, но сколько дадут
неизвестно

во-вторых, нам интересны:

1) традиционные дорожки по поиску (исследование разных факторов),
в частности, для legal любопытно исследовать другую функцию оценки,
о которой говорил в 2004 году Максим - наиболее значимые документы
вперед
(сначала конституция, затем ее упоминания и т.п.)

2) к традиционной дорожке по поиску, как мне кажется, можно легко
подготовить
дорожку для исследования аналога Yahoo Y!Q - когда есть как запрос
(короткий),
так и окрестность текста (например, абзац или весь текст).

Такие окрестности можно нагенерить из документов, присланных сразу
несколькими
системами по прошлым годам.

При этом любопытно, например, контекст любого ли абзаца улучшает
результаты

3) готовы участвовать в классификационных задачах, только нет
уверенности в качестве коллекций,
хорошо бы проводить дополнительное оценивание асессорами

4) интересно участие в выделении объектов человек-должность-организация,
здесь известен интерфейс
оценки типа Gate, предположительно будет легко асессорам, хотя есть
вопрос что мерять - каждое ли
вхождение или извлечение на уровне документа, или даже корпуса

Насчет аннотаций.
В SUMMAC была такая методика. Сначала оценщики относили документ к
нескольким "толстым" рубрикам, по достаточно жестким критериям.
Затем другие оценщики относили к тем же темам аннотацию. Если аннотация
хорошая, то и список темы (или их отсутствие) в аннотации и документе
должны совпадать.
Такая процедура представляется вестма разумной.

Насчет большой коллекции:
смысла не вижу. Текущие коллекции, наборы запросов и процедуры оценки
вроде бы не позволяют осуществлять ручной подгонки. Какое новое качество
будет в большей коллекции?

Борис
dobroff2003
Оргкомитет
 
Posts: 83
Joined: Fri May 23, 2003 9:52 am


Return to Объявления Оргкомитета

Who is online

Users browsing this forum: No registered users and 8 guests

cron