Опубликованы правила проведения дорожек классификации, поиска по нормативно-правовой коллекции, поиска нечетких дубликатов в коллекции изображений, включая форматы данных и результатов. Задания по этим дорожкам разосланы участникам.

26 марта 2009

Опубликованы правила проведения, задания и сроки сдачи результатов для дорожек поиска по Веб коллекции, поиска по смешанной коллекции, контекстно-зависимого аннотирования текстовых документов и поиска изображений по визуальному подобию.

27 апреля 2009

Опубликованы правила проведения дорожки вопросно-ответного поиска. Срок сдачи результатов 1 июня. Задание по этой дорожки разосланы участникам.

17 июля 2009

Разосланы предварительные результаты по дорожке поиска по коллекции By.web и по дорожке классификации Веб-страниц.

30 июля 2009

Разосланы окончательные результаты по дорожке классификации Веб-страниц.

3 августа 2009

Разосланы результаты по дорожке классификации Веб-сайтов.

5 августа 2009

Разосланы предварительные результаты по дорожке поиска по коллекции KM.ru и обновление по дорожке поиска по коллекции By.web.

10 августа 2009

Разосланы результаты по дорожке классификации нормативно-правовых документов.

19 августа 2009

Разосланы результаты по дорожке поиска изображений по визуальному подобию.

21 августа 2009

Разосланы предварительные результаты по дорожке поиска по коллекции нормативно-правовых документов и окончательные результаты для дорожке поиска по коллекции By.web.

26 августа 2009

Разосланы результаты по дорожке поиска нечетких дубликатов в коллекции изображений.

9 сентября 2009

Очная встреча РОМИП'2009 пройдет 16 сентября в Петрозаводском государственном университете (ПетрГУ), Петрозаводск, республика Карелия.
Приглашаем принять участие всех желающих!

Опубликована предварительная программа очной встречи.

Место проведения: в здание медицинского корпуса ПетрГУ (на карте центра города в левом нижнем углу). Он находится в центре города в 5 минутах ходьбы от главного здания и ж/д вокзала.
Cеминар будет проходить в аудитории 228 (конференц/актовый зал). Пройти в него можно, войдя в корпус, повернуть направо, на второй этаж и снова направо. Зал будет с левой стороны. Проходной нет.

14 сентября 2009

Обновлена программа очной встречи.

21 сентября 2009

16 сентября в Петрозаводске состоялась очная встреча седьмого цикла РОМИП. Во встрече приняло участие более 70 человек. Были проведены 15 докладов и круглый стол.

Опубликованы труды РОМИП'2009.

Оргкомитет

Михаил Агеев (МГУ, Москва)
Александр Антонов (Галактика, Москва)
Павел Браславский (Яндекс, УГТУ-УПИ, Екатеринбург)
Наталья Васильева (HP Labs, Санкт-Петербург)
Максим Губин (Facebook, USA)
Борис Добров (УИС РОССИЯ, Москва)
Михаил Костин (Mail.Ru, Москва)
Игорь Кураленок (Яндекс, ПМПУ СПбГУ, Санкт-Петербург)
Игорь Некрестьянов (Oracle Corporation, USA)
Марина Некрестьянова (RedAril, Санкт-Петербург)
Владимир Плешко (RCO, Москва)
Илья Сегалович (Яндекс, Москва)
Влад Шабанов (Вертикальный поиск, Москва)
Сергей Татевосян (КМ онлайн, Москва)

Участники

ARE
Система ARE (Anchors and Relations) извлекает информацию из текстов на основе извлечения ключевых фраз (якорей) и анализа отношений между якорями.
EventSupervisor
Система EventSupervisor является экспериментальной системой структурирования новостного web-потока. Основная идея системы заключается в статистической кластеризации документов с использованием особенностей присущих новостным web-потокам и собственно новостям.
Exactus

Exactus - система семантического поиска и анализа текстовой информации. Exactus - это научно-исследовательский проект, который развивается в Институте системного анализа РАН в течении последних 5 лет командой опытных лингвистов, программистов, математиков и психологов.

Новая версия Exactus успешно сочетает в себе статистические и лингвистические методы анализа текстов и функицонирует на высокопроизводительной кластерной установке под управлением операционной системы Unix. Exactus представляет поисковый сервисы естественно-языкового поиска, вопросно-ответного поиска, расширения запроса близкими по смыслу словами из Тезауруса, персональной онтологии пользователя и много другое.
hbc-S
В основе системы лежит идея выделения из изображения точечных особенностей, инвариантных относительно преобразований, которые впоследствии объединяются в кластеры, индивидуальные для каждого изображения. Предполагается, что структура кластеров для картинок-дубликатов будет примерно одинакова, что и позволит их выявить.
HeadHunter
Экспериментальная поисковая система, в которой используются классические алгоритмы и собственные разработки. На семинаре планируется опробовать новую версию ранжирующей формулы.
HSVISE
Система позволяет искать дубликаты изображений по образцу, а так же искать изображения содержащие данные образец в своей композиции. При первичной обработке в системе используется представление изображения как вектора метрического пространства основанного на цветовой модели HSV(Hue, Saturation, Value). Во-первых, такое представление позволяет ввести ряд удобных методов сравнения изображений, позволяющих повысить вычислительную эффективность. Во-вторых, компоненты цвета в HSV лучше отвечают субъективным ощущениям челвовека при визуальном анализе изображения. Система предназначена для работы в реальном времени на современном персональном компьютере при объеме коллекции изображений порядка 50-100 тыс.
IFM2
Система поиска нечетких дубликатов - IFM2 сочетает методики управления вниманием, основанные на моделях управления вниманием живых организмов и методики поиска точечных особенностей изображений interest point detection. Основная идея состоит в определении небольшого числа участков изображений, являющихся наиболее заметными в терминах модели управления вниманием. Для описания таких участков используются стандартные дескрипторы точечных особенностей: SIFT, PCA-SIFT, SURF. Изображение характеризуется набором векторов - дескрипторов наиболее заметных участков изображения. Задача сравнения двух изображений сводится к сравнению локальных свойств этих изображений.
JKX

Экспериментальный метод, основанный на классических алгоритмах с нестандартным подходом к моделированию Web.
KGCDA
KGCDA - это система контекстно-зависимого аннотирования, основанная на использовании многофакторной модели оценивания фрагментов текста и оптимизации ее параметров при помощи обучающей выборки документов.
LISA
В рамках дорожки поиска изображений по визуальному подобию предлагается решение модифицированной задачи: построить и сохранить текстовые аннотации для всех предлагаемых изображений, а затем производить поиск по полученным аннотациям. Для аннотирования предлагается использовать вероятностные методы. В задаче поиска нечетких дубликатов планируется усовершенствовать метод, основанный на многомасштабном знаковом представлении изображения. Идея метода состоит в анализе знаков градиента изображения для нескольких масштабов. Подробнее...
mnoGoSearch
MnoGoSearch - свободно распространяемое поисковое программное обеспечение, работающее в операционных системах семейства Unix и предназначенное для организации поиска на одном или многих Web-серверах. mnoGoSearch использует технологию инвертированного индекса. Расчет релевантности в mnoGoSearch использует формулу TF*IDF с учетом дополнительных параметров, таких как расстояние между словами, распределение слов по секциям документа, наличие словоформ и синонимов и др.
RCO
Компания RCO специализируется на исследованиях в области компьютерной лингвистики и создании компонентов интеллектуального анализа текста для информационно-поисковых и информационно-аналитических систем. На семинаре планируется провести апробацию ряда алгоритмов тематической классификации документов и поиска документов по запросу.
SEUS
SEUS - проект поисковой системы, основанный на автоматическом построении семантического представления текста. Для ранжирования документов используются классические мехаизмы ранжирования для векторной модели, Но вместо термов используются семантические признаки, а в качестве их весов - показатели достоверности.
Система реализуется на базе:
- Синтаксического анализатора Dictum
- Лексико-синтаксических шаблонов
- Поискового движка Lucene
Subject Search Sleuth (SSS)
Subject Search Sleuth (SSS) - это система поиска и построения резюме, в основе которой лежит оригинальный быстрый непереборный алгорифм приближённого поиска строки запроса, котрый допускает перестановку терминов, присутствующих в образце, а также присутствие других терминов или отсутствие некоторых из них. Благодаря использованию в качестве элементов поиска Q-Термов вместо слов, канонических словоформ или корневых морфем, алгорифм SSS легко применим к поиску по текстам на многих языках. Текущая реализация поддерживает 40 языков, а именно, большинство европейских, а также азиатские (японский, китайский, корейский), и ряд других, включая иврит, индонезийский и арабский.
Yandex.Server
Галактика-Zoom
Галактика-Zoom представляет собой систему обработки больших объемов неструктурированных данных. Система является инструментом для создания хранилища текстовой информации, обладает возможностями полнотекстового поиска и аналитических исследований. При проведении поиска возможно использование контекстного или тематического поиска, поиска с учетом морфологии языка, развитого языка поисковых запросов. Система предоставляет возможность построения информационного образа объекта исследования (Информационного портрета) на основе языковых конструкций - слов и словосочетаний.
Поиск@Mail.ru
Поиск KM.ru
Версия алгоритма mod 2.5. Поисковая система KM.RU - это традиционные поисковые алгоритмы и собственные разработки.
СКАТ
Система основана на комбинированном использование статистических и лингвистических методов классификации для решения следующих задач: полнотекстовый поиск, классификация, кластерный анализ, формирование сводных документов. Описание основных используемых методов приведено в монографии: Васильев В.Г., Кривенко М.П. Методы автоматизированной обработки текстов.
УИС РОССИЯ

Университетская информационная система РОССИЯ (УИС РОССИЯ) - проект, нацеленный на интеграцию информационных ресурсов для гуманитарных исследований. Поддерживается Научно-исследовательским вычислительным центром МГУ имени М.В.Ломоносова (НИВЦ МГУ имени М.В.Ломоносова) и АНО Центр информационных исследований (АНО ЦИИ).

Решения на основе технологий УИС РОССИЯ - тематический анализ текстов, классификация по большим рубрикаторам, интерактивный поиск документов, агрегирование новостного потока - используются в некоторых органах государственной власти и управления, коммерческих организациях.