
|  |
Семинар РОМИП'2009
Здесь собрана подробная информация о прошедшем в 2009 году шестом цикле
семинара РОМИП:
Результаты и отчеты участников РОМИП'2009 доступны в разделе "Публикации".
Хроника событий
- 5 февраля 2009
-
Официальный старт седьмого цикла семинара РОМИП!
(см. график проведения этапов РОМИП'2009).
Опубликовано специальное предложение для участия
студентов или аспирантов.
- 8 февраля 2009
-
Опубликованы таблицы релевантности для большинства
дорожек РОМИП'2008.
- 11 марта 2009
-
Опубликован предварительный список
участников.
- 13 марта 2009
-
Опубликованы правила проведения дорожек
классификации, поиска по нормативно-правовой коллекции, поиска нечетких
дубликатов в коллекции изображений, включая форматы данных и результатов.
Задания по этим дорожкам разосланы участникам.
- 26 марта 2009
-
Опубликованы правила проведения, задания и сроки сдачи результатов
для дорожек поиска по Веб коллекции, поиска по смешанной коллекции,
контекстно-зависимого аннотирования текстовых документов и поиска
изображений по визуальному подобию.
- 27 апреля 2009
-
Опубликованы правила проведения дорожки вопросно-ответного
поиска. Срок
сдачи результатов 1 июня. Задание по этой дорожки разосланы участникам.
- 17 июля 2009
-
Разосланы предварительные результаты по дорожке
поиска по коллекции By.web и
по дорожке классификации
Веб-страниц.
- 30 июля 2009
-
Разосланы окончательные результаты по дорожке классификации
Веб-страниц.
- 3 августа 2009
-
Разосланы результаты по дорожке
классификации
Веб-сайтов.
- 5 августа 2009
-
Разосланы предварительные результаты по дорожке
поиска по коллекции KM.ru и обновление по
дорожке поиска по коллекции By.web.
- 10 августа 2009
-
Разосланы результаты по дорожке
классификации нормативно-правовых
документов.
- 19 августа 2009
-
Разосланы результаты по дорожке поиска
изображений по визуальному подобию.
- 21 августа 2009
-
Разосланы предварительные результаты по дорожке
поиска по коллекции нормативно-правовых
документов и окончательные результаты для дорожке поиска по коллекции By.web.
- 26 августа 2009
-
Разосланы результаты по дорожке поиска
нечетких дубликатов в
коллекции изображений.
- 9 сентября 2009
-
Очная встреча РОМИП'2009 пройдет 16 сентября в Петрозаводском
государственном университете (ПетрГУ), Петрозаводск, республика
Карелия.
Приглашаем принять участие всех желающих!
Опубликована предварительная программа
очной встречи.
Место проведения: в здание медицинского корпуса ПетрГУ
(на карте центра
города в левом нижнем углу). Он находится в центре города в 5
минутах ходьбы от главного здания и ж/д вокзала.
Cеминар будет проходить в аудитории 228 (конференц/актовый зал).
Пройти в него
можно, войдя в корпус, повернуть направо, на второй этаж и снова
направо. Зал будет с левой стороны. Проходной нет.
- 14 сентября 2009
-
Обновлена программа очной встречи.
- 21 сентября 2009
-
16 сентября в Петрозаводске состоялась очная встреча седьмого цикла
РОМИП. Во встрече приняло участие более 70 человек. Были проведены 15 докладов и
круглый стол.
Опубликованы труды РОМИП'2009.
Оргкомитет
- Михаил Агеев (МГУ, Москва)
- Александр Антонов (Галактика, Москва)
- Павел Браславский (Яндекс, УГТУ-УПИ, Екатеринбург)
- Наталья Васильева (HP Labs, Санкт-Петербург)
- Максим Губин (Facebook, USA)
- Борис Добров (УИС РОССИЯ, Москва)
- Михаил Костин (Mail.Ru, Москва)
- Игорь Кураленок (Яндекс, ПМПУ СПбГУ, Санкт-Петербург)
- Игорь Некрестьянов (Oracle Corporation, USA)
- Марина Некрестьянова (RedAril, Санкт-Петербург)
- Владимир Плешко (RCO, Москва)
- Илья Сегалович (Яндекс, Москва)
- Влад Шабанов (Вертикальный поиск, Москва)
- Сергей Татевосян (КМ онлайн, Москва)
Участники
-
ARE
Система ARE (Anchors and Relations) извлекает информацию из текстов на основе
извлечения ключевых фраз (якорей) и анализа отношений между якорями.
-
EventSupervisor
Система EventSupervisor является экспериментальной системой
структурирования новостного web-потока. Основная идея системы заключается в
статистической кластеризации документов с использованием особенностей
присущих новостным web-потокам и собственно новостям.
-
Exactus
Exactus - система семантического поиска и анализа текстовой
информации. Exactus - это научно-исследовательский проект, который
развивается в Институте системного анализа РАН в течении последних 5
лет командой опытных лингвистов, программистов, математиков и
психологов.
Новая версия Exactus успешно сочетает в себе статистические и
лингвистические методы анализа текстов и функицонирует на
высокопроизводительной кластерной установке под управлением
операционной системы Unix. Exactus представляет поисковый сервисы
естественно-языкового поиска, вопросно-ответного поиска, расширения
запроса близкими по смыслу словами из Тезауруса, персональной
онтологии пользователя и много другое.
-
hbc-S
В основе системы лежит идея выделения из изображения точечных особенностей,
инвариантных относительно преобразований, которые впоследствии объединяются
в
кластеры, индивидуальные для каждого изображения. Предполагается, что
структура кластеров для
картинок-дубликатов будет примерно одинакова, что и позволит их выявить.
-
HeadHunter
Экспериментальная поисковая система, в которой используются классические
алгоритмы и собственные разработки. На семинаре планируется опробовать новую
версию ранжирующей формулы.
-
HSVISE
Система позволяет искать дубликаты изображений по образцу, а так же искать
изображения содержащие данные образец в своей композиции. При первичной
обработке в системе используется представление изображения как вектора
метрического пространства основанного на цветовой модели HSV(Hue,
Saturation, Value). Во-первых, такое представление позволяет ввести ряд
удобных методов сравнения изображений, позволяющих повысить вычислительную
эффективность. Во-вторых, компоненты цвета в HSV лучше отвечают субъективным
ощущениям челвовека при визуальном анализе изображения.
Система предназначена для работы в реальном времени на современном
персональном компьютере при объеме коллекции изображений порядка 50-100 тыс.
-
IFM2
Система поиска нечетких дубликатов - IFM2 сочетает методики управления
вниманием, основанные на моделях управления вниманием живых организмов и
методики поиска точечных особенностей
изображений interest point
detection. Основная идея состоит в определении небольшого числа
участков изображений,
являющихся наиболее заметными в терминах модели управления вниманием. Для
описания таких участков используются стандартные
дескрипторы точечных особенностей: SIFT, PCA-SIFT, SURF.
Изображение характеризуется набором векторов - дескрипторов наиболее
заметных участков изображения. Задача сравнения двух изображений сводится к
сравнению локальных свойств
этих изображений.
-
JKX
Экспериментальный метод, основанный на
классических алгоритмах с нестандартным подходом к моделированию Web.
-
KGCDA
KGCDA - это система контекстно-зависимого аннотирования, основанная на
использовании многофакторной модели оценивания фрагментов текста и
оптимизации ее
параметров при помощи обучающей выборки документов.
-
LISA
В рамках дорожки поиска изображений по визуальному подобию
предлагается решение модифицированной задачи: построить и сохранить
текстовые аннотации для всех предлагаемых изображений, а затем
производить поиск по полученным аннотациям. Для аннотирования
предлагается использовать вероятностные методы. В задаче поиска
нечетких дубликатов планируется усовершенствовать метод, основанный
на многомасштабном знаковом представлении изображения. Идея метода
состоит в анализе знаков градиента изображения для нескольких
масштабов. Подробнее...
-
mnoGoSearch
MnoGoSearch - свободно распространяемое поисковое программное обеспечение,
работающее в операционных системах семейства Unix и
предназначенное для организации поиска на одном или многих Web-серверах.
mnoGoSearch использует технологию инвертированного индекса.
Расчет релевантности в mnoGoSearch использует формулу TF*IDF
с учетом дополнительных параметров, таких как
расстояние между словами, распределение слов по секциям
документа, наличие словоформ и синонимов и др.
-
RCO
Компания RCO специализируется на исследованиях в области компьютерной
лингвистики и создании компонентов интеллектуального анализа текста
для информационно-поисковых и информационно-аналитических систем. На
семинаре планируется провести апробацию ряда алгоритмов тематической
классификации документов и поиска документов по запросу.
-
SEUS
SEUS - проект поисковой системы, основанный на автоматическом построении
семантического представления текста. Для ранжирования документов
используются классические мехаизмы ранжирования для векторной модели, Но
вместо термов используются семантические признаки, а в качестве их весов -
показатели достоверности.
Система реализуется на базе:
- Синтаксического анализатора Dictum
- Лексико-синтаксических шаблонов
- Поискового движка Lucene
-
Subject Search Sleuth (SSS)
Subject Search Sleuth (SSS) - это система поиска и построения резюме, в
основе которой лежит оригинальный быстрый непереборный алгорифм
приближённого поиска строки запроса, котрый допускает перестановку терминов,
присутствующих в образце, а также присутствие других терминов или отсутствие
некоторых из них. Благодаря использованию в качестве элементов поиска
Q-Термов вместо слов, канонических словоформ или корневых морфем, алгорифм
SSS легко применим к поиску по текстам на многих языках. Текущая реализация
поддерживает 40 языков, а именно, большинство европейских, а также азиатские
(японский, китайский, корейский), и ряд других, включая иврит, индонезийский
и арабский.
-
Yandex.Server
-
Галактика-Zoom
Галактика-Zoom представляет собой систему обработки больших объемов
неструктурированных данных. Система является инструментом для
создания хранилища текстовой информации, обладает возможностями
полнотекстового поиска и аналитических исследований. При проведении
поиска возможно использование контекстного или тематического поиска,
поиска с учетом морфологии языка, развитого языка поисковых запросов.
Система предоставляет возможность построения информационного образа
объекта исследования (Информационного портрета) на основе языковых
конструкций - слов и словосочетаний.
-
Поиск@Mail.ru
-
Поиск KM.ru
Версия алгоритма mod 2.5. Поисковая система KM.RU - это традиционные
поисковые алгоритмы и собственные разработки.
-
СКАТ
Система основана на комбинированном использование статистических и
лингвистических методов классификации для решения следующих задач:
полнотекстовый поиск, классификация,
кластерный анализ, формирование сводных документов. Описание основных
используемых методов приведено в монографии: Васильев В.Г., Кривенко М.П.
Методы
автоматизированной обработки текстов.
-
УИС РОССИЯ
Университетская информационная система РОССИЯ (УИС РОССИЯ) - проект,
нацеленный на интеграцию информационных ресурсов для гуманитарных
исследований. Поддерживается Научно-исследовательским вычислительным
центром МГУ имени М.В.Ломоносова (НИВЦ МГУ имени М.В.Ломоносова) и АНО
Центр информационных исследований (АНО ЦИИ).
Решения на основе технологий УИС РОССИЯ - тематический анализ текстов,
классификация по большим рубрикаторам, интерактивный поиск документов,
агрегирование новостного потока - используются в некоторых органах
государственной власти и управления, коммерческих организациях.
|