РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 2003 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Семинар РОМИП'2003

Несмотря на все сложности, возникшие при организации семинара, первый РОМИП состоялся! Здесь собрана подробная информация о прошедшем в 2003 году семинаре: Все результаты и отчеты участников РОМИП'2003 доступны на странице публикаций.

Хроника событий

17 октября 2002
В кулуарах RCDL'02 сформирована инициативная группа для организации семинара РОМИП.
10 января 2003
Опубликован манифест РОМИП.
20 января 2003
Открыт официальный сайт на narod.ru.
30 января 2003
Для обсуждения вопросов, связанных с семинаром, открыт форум.
28 февраля 2003
Зафиксирован набор дорожек и определены основные правила их проведения.
5 марта 2003
Началось распространение приглашений к участию.
2 апреля 2003
Регистрация участников завершена. Опубликованы списки участников, начинается распространение тестовых наборов данных.
18 апреля 2003
Завершена отправка наборов данных участникам.
14 июня 2003
Состоялся посвященный РОМИП доклад на конференции Диалог'2003 (текст в формате Microsoft Word | слайды).
4 ноября 2003
31 октября состоялась очная встреча участников семинара РОМИП'2003, на которой были представлены доклады шести из 7 участвовавших команд и организаторов, а также проведен круглый стол, посвященный РОМИП'2004.
8 ноября 2003
Труды РОМИП'2003 стали доступны онлайн.
31 января 2004
Статья о РОМИП была принята к участию в конференции LREC'2004.

Оргкомитет

  • Павел Браславский (ИМаш УрО РАН, Екатеринбург)
  • Максим Губин (Кодекс, Санкт-Петербург)
  • Борис Добров (УИС РОССИЯ, Москва)
  • Владимир Добрынин (ПМПУ СПбГУ, Санкт-Петербург)
  • Игорь Кураленок (ПМПУ СПбГУ, Санкт-Петербург)
  • Игорь Некрестьянов (мат.мех. СПбГУ, Санкт-Петербург)
  • Екатерина Павлова (НИИИТ. СПбГУ, Санкт-Петербург)
  • Илья Сегалович (Яндекс, Москва)

Участники

  • ML Классификатор 2.0
    ML Классификатор - система с обучением на образцах, использует метод различительных сил и полнотекстовый поиск. При выделении признаков применяется выделение словосочетаний статистическим методом, или при помощи поверхностного синтаксического анализа. Полнотекстовый поиск таких словочетаний в процессе классификации позволяет соблюсти баланс между полнотой, характерной для систем классификации, использующих однословные термины, и точностью, которой отличаются системы со словосочетаниями.

  • RCO Classifier
    Система основана на использовании двух библиотек:
    Средства библиотеки RCO Semantic Network позволяют автоматически анализировать содержание текстовых документов, представляя его в форме ассоциативной семантической сети. В частности, позволяют построить тематический профиль как одного документа, так и коллекции.
    В библиотеке RCO TopTree реализованы два независимых комплекса функций, которые предназначены для автоматического построения иерархического рубрикатора по набору заданных объектов и для автоматической классификации объектов по заданному рубрикатору.

  • Russian Context Server
    ИПС, обладающая возможностями как контекстного, так и реляционного поиска. Позволяет искать документы с учетом морфологии и стоп-слов русского и английского языков, используя SQL-подобный язык запросов и комбинируя поисковые ограничения на контекст с ограничениями на заданные атрибуты документов. Поддерживает упорядочение результатов как по соответствию запросу, так и по реляционным атрибутам.

  • Алхимик
    Система Алхимик работает на основе семантического словаря проф. В. А. Тузова и производит универсальный поиск. Соответственно, она похожа на обычную поисковую систему с некоторыми семантическими добавлениями.

  • Золушка
    Исследовательский прототип системы классификации ресурсов Веб "Золушка" основан на использовании стандартных алгоритмов классификации и расширенных профилей классифицируемых ресурсов. Для расширения профилей используется разнообразная информация о внутренней структуре Веб-страниц, а также об окрестностях ресурсов в графе Веб (гипертекстовые ссылки, содержимое соседних документов, "логические" документы).

  • ИС "Кодекс"
    Полнотекстовая база данных, предназначенная для создания информационных систем и хранилищ документов. На базе нее созданы информационно-правовый системы "Кодекс" и "Стройэксперт", электронные системы документооборота "Кодекс", ряд заказных систем.

  • Ключи к Тексту
    Технология Ключи к Тексту (К2Т) базируется на вычислительной процедуре семиотического (знакового) индексирования и построения для произвольного текста списка слов с весами (оценивающими значимость слова в тексте), в своем сочетании являющихся наиболее характерными для конкретного текста.
    Механизм формирования осмысленного списка слов основан на отыскании пар слов (точнее, пар лемм слов), наиболее сильно связанных по определенному критерию, зависящему от частоты совместной встречаемости слов в тексте, предложенному М.Г.Крейнесом.

  • Поисково-аналитическая система "Галактика-Zoom"
    Выделение ключевых языковых конструкций в текстах (информационный портрет текста).

  • УИС РОССИЯ (НИВЦ МГУ + АНО ЦИИ)
    Планируется использовать технологии, работающие в Университетской информационной системе РОССИЯ, которая поддерживается лабораторией анализа информационных ресурсов Научно-исследовательского вычислительного центра МГУ им.М.В.Ломоносова и АНО Центр информационных исследований.
    В РОМИП будут использованы разные компоненты программного комплекса Автоматизированной лмнгвистической обработки текстов (АЛОТ) и информационно-поисковая машина УИС РОССИЯ на базе Oracle 8i. АЛОТ включает в себя компоненты морфологического анализа русскоязычных и англоязычных текстов, терминологического и тематического анализа, автоматического аннотирования и рубрицирования. Основа тематического анализа - двуязычный Тезаурус по общественно-политической тематике для автоматического индексирования (АНО ЦИИ, 28 тыс. понятий, 70 тыс. рус.синонимов, 60 тыс. английских).
    Возможно для заданий РОМИП будут использованы и разработки, не используемые в промышленной технологии текущей версии УИС РОССИЯ, в частности, тезаурус русского языка (43 тыс. понятий, 110 тыс. синонимов), а также индексы терминоподобных словосочетаний и т.п.

  • Яндекс.Software 3.0
    Полнотекстовое индексирование и поискс с учетом русской морфологии