Добрый день,
предпраздничный день не самый лучший момент для оживления обсуждения :)
но время то бежит :(
мое видение ситуации на сегодняшний день следующее.
У нас есть коллекции 2004 года:
- Веб коллекцуия Narod
- нормативных документов
- DMOZ хотя бы для обучения классификаторов
По-видимому у нас будет и (относительно небольшая)
новостная коллекция предоставленная Яндекс.
Есть некоторое число потенциальных дорожек, которые хочется/можно
организовать. Все сделать получится вряд ли из-за нехватки ресурсов
и участников тогда в каждой дорожке будет немного.
По срокам - по видимому график будет похож на прошлогодний,
запуск дорожек хочется сделать до конца марта, а
результаты получать с конца мая до середины июня.
Но до сих пор непонятно что мы реально запускаем.
Хочется понять какой интерес к каждой из потенциальных дорожек
(провести блиц-опрос). Итак:
Есть критическая масса для
1. дорожки поиска фактов
(видимо в первую очередь в варианте "извлечение объектов/именованных
сущностей" как более популярном в масcах)
2. дорожки классификации Веб страниц
Варианты про которые наджо принять решение
и хочется знать какие задачи кому интересны в плане участия в этом году:
3. по видимому надо иметь хотя бы одну традиционную поисковую дорожку
Базовые варианты:
a. по Веб коллекции
b. по коллекции нормативных документов
Возможные расширеные варианты:
c. "по документу образцу"
(например, как предложил Максим по абзацу образцу)
d. с уточнением запроса пользователя
(вариант который я себе пока представляю:
система будет выполнять лишь старые
запросы прошлых циклов РОМИП и знать релевантные им документы,
на основе пересечения множества релевантных и первой выдачи системы
иммитируется обратная связь
Такой подход не требует отдельной дорожки и вполне может
быть сделан в рамках 1a или 1b).
4. Другие виды классификации
a. сайтов
b. нормативных документов
(заманчиво поскольку проверять можно сравнивая с эталоном Кодекс)
c. структуризация множества документов
5. Новостные задачи
a. организация новостного потока?
весной эту тему развивал Миша Маслов и новостная коллекция
во многмо делалась под специализированные задачи.
Однако, я смутно представляю кому что в этой области интересно.
6. Аннотирование - несмотря на сложности с переиспользованием
хочется попробовать сделать пилотный вариант. Вроде бы интересно это
многим. Но какой вид аннотирования/реферирования наиболее интересен?
a. сайтов
b. документов
c. контекстно-зависимому (по запросу)
Если у вас есть интерес к участию в РОМИП'2005 - пожалуйста, выскажитесь о
том что вам из этого списка интересно и есть ли что-то важное пропущенное.
Это пока еще не формальная заявка, а как бы
декларация о намерениях :) Не хотите отвечать в список - пишите мне лично :)
По итогам опроса мы составим табличку желающих для каждой дорожки и
анонсируем старт семинара. Буду признателен, если вы найдете время на ответ
до 12 марта.
-igor