Тестовые коллекции

Таблицы релевантности

Участники 2012

Дорожки 2012

Архив

2003

Семинар РОМИП'2003

Несмотря на все сложности, возникшие при организации семинара, первый РОМИП состоялся! Здесь собрана подробная информация о прошедшем в 2003 году семинаре:

Все результаты и отчеты участников РОМИП'2003 доступны на странице публикаций.

Хроника событий

17 октября 2002: В кулуарах RCDL'02 сформирована инициативная группа для организации семинара РОМИП.
10 января 2003: Опубликован манифест РОМИП.
20 января 2003: Открыт официальный сайт на narod.ru.
30 января 2003: Для обсуждения вопросов, связанных с семинаром, открыт форум.
28 февраля 2003: Зафиксирован набор дорожек и определены основные правила их проведения.
5 марта 2003: Началось распространение приглашений к участию.
2 апреля 2003: Регистрация участников завершена. Опубликованы списки участников, начинается распространение тестовых наборов данных.
18 апреля 2003: Завершена отправка наборов данных участникам.
14 июня 2003: Состоялся посвященный РОМИП доклад на конференции Диалог'2003 (текст в формате Microsoft Word | слайды).
4 ноября 2003: 31 октября состоялась очная встреча участников семинара РОМИП'2003, на которой были представлены доклады шести из 7 участвовавших команд и организаторов, а также проведен круглый стол, посвященный РОМИП'2004.
8 ноября 2003: Труды РОМИП'2003 стали доступны онлайн.
31 января 2004: Статья о РОМИП была принята к участию в конференции LREC'2004.

Оргкомитет

Павел Браславский (ИМаш УрО РАН, Екатеринбург)
Максим Губин (Кодекс, Санкт-Петербург)
Борис Добров (УИС РОССИЯ, Москва)
Владимир Добрынин (ПМПУ СПбГУ, Санкт-Петербург)
Игорь Кураленок (ПМПУ СПбГУ, Санкт-Петербург)
Игорь Некрестьянов (мат.мех. СПбГУ, Санкт-Петербург)
Екатерина Павлова (НИИИТ. СПбГУ, Санкт-Петербург)
Илья Сегалович (Яндекс, Москва)

Участники

ML Классификатор 2.0
ML Классификатор - система с обучением на образцах, использует метод различительных сил и полнотекстовый поиск. При выделении признаков применяется выделение словосочетаний статистическим методом, или при помощи поверхностного синтаксического анализа. Полнотекстовый поиск таких словочетаний в процессе классификации позволяет соблюсти баланс между полнотой, характерной для систем классификации, использующих однословные термины, и точностью, которой отличаются системы со словосочетаниями.
RCO Classifier
Система основана на использовании двух библиотек:
Средства библиотеки RCO Semantic Network позволяют автоматически анализировать содержание текстовых документов, представляя его в форме ассоциативной семантической сети. В частности, позволяют построить тематический профиль как одного документа, так и коллекции.
В библиотеке RCO TopTree реализованы два независимых комплекса функций, которые предназначены для автоматического построения иерархического рубрикатора по набору заданных объектов и для автоматической классификации объектов по заданному рубрикатору.
Russian Context Server
ИПС, обладающая возможностями как контекстного, так и реляционного поиска. Позволяет искать документы с учетом морфологии и стоп-слов русского и английского языков, используя SQL-подобный язык запросов и комбинируя поисковые ограничения на контекст с ограничениями на заданные атрибуты документов. Поддерживает упорядочение результатов как по соответствию запросу, так и по реляционным атрибутам.
Алхимик
Система Алхимик работает на основе семантического словаря проф. В. А. Тузова и производит универсальный поиск. Соответственно, она похожа на обычную поисковую систему с некоторыми семантическими добавлениями.
Золушка
Исследовательский прототип системы классификации ресурсов Веб "Золушка" основан на использовании стандартных алгоритмов классификации и расширенных профилей классифицируемых ресурсов. Для расширения профилей используется разнообразная информация о внутренней структуре Веб-страниц, а также об окрестностях ресурсов в графе Веб (гипертекстовые ссылки, содержимое соседних документов, "логические" документы).
ИС "Кодекс"
Полнотекстовая база данных, предназначенная для создания информационных систем и хранилищ документов. На базе нее созданы информационно-правовый системы "Кодекс" и "Стройэксперт", электронные системы документооборота "Кодекс", ряд заказных систем.
Ключи к Тексту
Технология Ключи к Тексту (К2Т) базируется на вычислительной процедуре семиотического (знакового) индексирования и построения для произвольного текста списка слов с весами (оценивающими значимость слова в тексте), в своем сочетании являющихся наиболее характерными для конкретного текста.
Механизм формирования осмысленного списка слов основан на отыскании пар слов (точнее, пар лемм слов), наиболее сильно связанных по определенному критерию, зависящему от частоты совместной встречаемости слов в тексте, предложенному М.Г.Крейнесом.
Поисково-аналитическая система "Галактика-Zoom"
Выделение ключевых языковых конструкций в текстах (информационный портрет текста).
УИС РОССИЯ (НИВЦ МГУ + АНО ЦИИ)
Планируется использовать технологии, работающие в Университетской информационной системе РОССИЯ, которая поддерживается лабораторией анализа информационных ресурсов Научно-исследовательского вычислительного центра МГУ им.М.В.Ломоносова и АНО Центр информационных исследований.
В РОМИП будут использованы разные компоненты программного комплекса Автоматизированной лмнгвистической обработки текстов (АЛОТ) и информационно-поисковая машина УИС РОССИЯ на базе Oracle 8i. АЛОТ включает в себя компоненты морфологического анализа русскоязычных и англоязычных текстов, терминологического и тематического анализа, автоматического аннотирования и рубрицирования. Основа тематического анализа - двуязычный Тезаурус по общественно-политической тематике для автоматического индексирования (АНО ЦИИ, 28 тыс. понятий, 70 тыс. рус.синонимов, 60 тыс. английских).
Возможно для заданий РОМИП будут использованы и разработки, не используемые в промышленной технологии текущей версии УИС РОССИЯ, в частности, тезаурус русского языка (43 тыс. понятий, 110 тыс. синонимов), а также индексы терминоподобных словосочетаний и т.п.
Яндекс.Software 3.0
Полнотекстовое индексирование и поискс с учетом русской морфологии