Тестовые коллекции

Дорожки 2012

Архив

2003

2004

2008

Семинар РОМИП'2008

Здесь собрана подробная информация о прошедшем в 2008 году шестом цикле семинара РОМИП:

Хроника событий
Оргкомитет
Участники (подробная таблица)
Дорожки:
- классическая задача поиска по запросу (ad-hoc track)
- тематическая классификация
- кластеризация новостного потока
- контекстно-зависимое аннотирование текстовых документов
- поиск похожих документов по документу образцу или фрагменту текста
- поиск по изображениям
  - поиск нечетких дубликатов в коллекции изображений
  - поиск изображений по визуальному подобию

Результаты и отчеты участников РОМИП'2008 доступны в разделе "Публикации".

Хроника событий

22 апреля 2008

Начало распространения официальных приглашений к участию в семинаре РОМИП'2008.

16 мая 2008

Опубликован список участников РОМИП'2008.

2 июня 2008

Опубликованы правила проведения дорожек классификации кластеризации новостного потока, включая форматы данных и результатов. Начало распространения заданий для них.

3 июня 2008

Опубликованы правила проведения дорожки поиска по нормативно-правовой коллекции.

9 июня 2008

Разосланы задания по дорожке поиска изображений по визуальному подобию.

12 июня 2008

Дан официальный старт для дорожек поиска по Веб коллекции, поиска похожих документов,аннотирования.
Отменено проведение дорожки вопросно-ответного поиска в связи с малым числом заявок на участие.

17 июня 2008

Дан официальный старт для дорожки поиска в смешанной коллекции.

5 сентября 2008

Завершена оценка дорожки поиска по коллекции нормативно-правовых документов.
Разосланы предварительные результаты по оценке дорожки Веб поиска по коллекции BY.web и поиска изображений по визуальному подобию.

11 сентября 2008

Разосланы результаты о оценке дорожки классификации нормативно-правовых документов.

12 сентября 2008

Завершена оценка дорожки поиска изображений по визуальному подобию.
Разосланы предварительные результаты по оценке дорожки Веб поиска по коллекции KM.ru.

17 сентября 2008

Разосланы результаты оценки для дорожки поиска нечетких дубликатов изображений.

18 сентября 2008

Разосланы результаты оценки для дорожки классификации Веб-страниц.

25 сентября 2008

Разосланы результаты оценки для новостной дорожки всем участникам этой дорожки в период с 2006 по 2008 гг.
Завершена оценка дорожки классификации Веб-сайтов.

29 сентября 2008

Завершена оценка дорожки контекстно-зависимого аннотирования текстовых документов.

3 октября 2008

Опубликована программа семинара.

9 октября 2008

Опубликованы труды РОМИП'2008.

13 октября 2008

Очный семинар РОМИП'2008 состоялся 9 октября 2008 года в Дубне. Он был совмещен с конференцией RCDL'2008. Всего на семинаре присутствовало около 70 человек, представителей систем-участников и просто слушателей.

В программе семинара было 14 докладов и круглый стол.

Оргкомитет

Михаил Агеев (МГУ, Москва)
Александр Антонов (Галактика, Москва)
Павел Браславский (Яндекс, УГТУ-УПИ, Екатеринбург)
Наталья Васильева (HP Labs, Санкт-Петербург)
Максим Губин (IAC Search & Media, USA)
Борис Добров (УИС РОССИЯ, Москва)
Михаил Костин (Mail.Ru, Москва)
Игорь Кураленок (Яндекс, ПМПУ СПбГУ, Санкт-Петербург)
Игорь Некрестьянов (мат-мех СПбГУ, Санкт-Петербург)
Марина Некрестьянова (NebuAd, Санкт-Петербург)
Владимир Плешко (RCO, Москва)
Илья Сегалович (Яндекс, Москва)
Влад Шабанов (Вертикальный поиск, Москва)

Участники

Branch Image
Система поиска изображений по подобию и классификации в реальном времени. В основе системы лежит кластеризация в многомерном пространстве признаков изображений. Основной объем исследований заключается в выявлении и формализации различных высокоуровневых и низкоуровневых признаков изображений (цвета, формы, текстуры, наличия объектов определенных классов и пр.), а также определения их важности (весовых коэффициентов, которые используются, в частности, при кластеризации). Одной из особенностей системы является ее ориентация на эффективную работу с пиктограммами изображений (уменьшенными копиями изображений, хранящимися в базе данных поисковой системы), что облегчает процесс внедрения системы и ее модификацию.
EventSupervisor
Система отбора линеек новостей посвященных одному событию, основанная на модифицированной версии алгоритма CMU TDT. Особенностью алгоритма является определение направленности текста новости (предсказательной, оповещающей или обсуждающей) и использование ее для выявления первых упоминаний события.
Exactus
Exactus - система семантического поиска и анализа текстовой информации в гетерогенных информационных ресурсах и сервисах. Exactus - это научно-исследовательский проект, который развивается в Институте Системного Анализа РАН в течении последних 5 лет командой опытных лингвистов, программистов, математиков и психологов.
Новая версия Exactus успешно сочетает в себе статистические и лингвистические методы анализа текстов и функицонирует на высокопроизводительной кластерной установке под управлением операционной системы Unix. Exactus представляет поисковый сервисы естественно-языкового поиска, вопросно-ответного поиска, расширения запроса близкими по смыслу словами из Тезауруса, персональной онтологии пользователя и много другое.
HeadHunter
Экспериментальная поисковая система, в которой используются классические алгоритмы и собственные разработки. На семинаре планируется опробовать ряд алгоритмов оценки релевантности, основанных на более глубоком анализе содержания индексируемых документов.
IFM
Предлагаемая система поиска нечетких дубликатов - IFM, основана на методах interest point detection , таких как Difference of Gaussians (DoG), Laplasian of Gaussian (LoG) и др. Основная идея состоит в определении ярких (salient) локальных участков в изображении, которые инвариантны по отношению к преобразованиям различного рода, и описании их в удобном для поиска виде. Таким образом, изображение характеризуется не единственным сложным и сильно многомерным вектором параметров, а набором относительно простых векторов, соответствующих локальным участкам (local interest points). При этом задача сравнения двух изображений сводится к сравнению локальных свойств этих изображений. Для решения этой задачи необходимы методы индексирования описаний локальных свойств изображения и масштабируемые методы поиска. Задачей предлагаемой системы является сравнение и обобщение существующих методов. Кроме задачи поиска дубликатов, рассматривается задача идентификации - бинарного сравнения двух изображений.
ImSim
LISA
В основе подхода лежит идея перехода от исходного изображения к специальному представлению - так называемой матрице изменения яркостей. В качестве меры близости для сравнения изображений используется взвешенная псевдометрика, которая оперирует со знаками частных производных от функций яркостей компонент цветового пространства.
mnoGoSearch
mnoGoSearch - программное обеспечение для организации поиска по сайту или группе сайтов. Из особенностей системы можно отметить использование SQL базы данных в качестве хранилища.
NNCS
Система контекстно-зависимой классификации и поиска документов по запросу, основанная на представлении документов с использованием рекуррентных нейронных сетей.
PhotoFinder
Исследовательский проект в области поиска изображений по содержанию. В рамках проекта реализованы методы поиска, основанные на различных цветовых и текстурных признаках изображений. Особое внимание уделяется вопросу синтеза различных методов поиска при формировании общего результата. Разработаны три алгоритма для комбинирования промежуточных результатов:
В рамках РОМИП 2008 мы хотим протестировать перечисленные выше механизмы синтеза для одних и тех же методов поиска. В качестве методов поиска будет использован поиск по статистическим параметрам распределения цвета (моменты первого и второго порядков), поиск по цветовым гистограммам и поиск по текстуре с использованием фильтров ICA.
RCO
Компания RCO специализируется на исследованиях в области компьютерной лингвистики и создании компонентов интеллектуального анализа текста для информационно-поисковых и информационно-аналитических систем. На семинаре планируется провести апробацию ряда алгоритмов тематической классификации документов и структуризации новостного потока.
RMaxg
Библиотека и набор тестовых утилит для проведения экспериментов в области сжатия данных, эффективного индексирования, статистических моделей и методов машинного обучения.
SPECS
Исследовательский проект, посвященный созданию системы периодического тематического поиска в Web. В рамках РОМИП будет проведена оценка влияние на качество решения задач поиска и классификации использования различных методов сегментации Web-страниц.
Subject Search Sleuth (SSS)
Subject Search Sleuth (SSS) - это система поиска и построения резюме, в основе которой лежит оригинальный быстрый непереборный алгорифм приближённого поиска строки запроса, котрый допускает перестановку терминов, присутствующих в образце, а также присутствие других терминов или отсутствие некоторых из них. Благодаря использованию в качестве элементов поиска Q-Термов (а не слов, канонических словоформ или корневых морфем) алгорифм SSS легко применим к поиску по текстам на разных языках. Текущая реализация поддерживает 40 языков, а именно, большинство европейских, а также азиатские (японский, китайский, корейский), и ряд других, включая иврит, индонезийский и арабский.
Yandex
Версия поисковой системы stable-9-5
Галактика-Zoom
Галактика-Zoom представляет собой систему обработки больших объемов неструктурированных данных. Система является инструментом для создания хранилища текстовой информации, обладает возможностями полнотекстового поиска и аналитических исследований. При проведении поиска возможно использование контекстного или тематического поиска, поиска с учетом морфологии языка, развитого языка поисковых запросов. Система предоставляет возможность построения информационного образа объекта исследования (Информационного портрета) на основе языковых конструкций - слов и словосочетаний.
Поиск@Mail.ru
Поиск KM.ru
Версия поисковой системы mod.2. В основе системы - традиционные алгоритмы и собственные разработки.
УИС РОССИЯ

Университетская информационная система РОССИЯ (УИС РОССИЯ) - проект, нацеленный на интеграцию информационных ресурсов для гуманитарных исследований. Поддерживается Научно-исследовательским вычислительным центром МГУ им.М.В.Ломоносова (НИВЦ МГУ) и АНО Центр информационных исследований (АНО ЦИИ).

Решения на основе технологий УИС РОССИЯ - тематический анализ текстов, классификация по большим рубрикаторам, интерактивный поиск документов - используются в некоторых органах государственной власти и управления, коммерческих организациях.