| |
Семинар РОМИП'2008
Здесь собрана подробная информация о прошедшем в 2008 году шестом цикле
семинара РОМИП:
Результаты и отчеты участников РОМИП'2008 доступны в разделе "Публикации".
Хроника событий
- 22 апреля 2008
-
Начало распространения официальных приглашений к
участию в семинаре РОМИП'2008.
- 16 мая 2008
-
Опубликован список участников РОМИП'2008.
- 2 июня 2008
-
Опубликованы правила проведения дорожек
классификации кластеризации новостного потока, включая форматы данных и результатов. Начало
распространения заданий для них.
- 3 июня 2008
-
Опубликованы правила проведения дорожки поиска по
нормативно-правовой коллекции.
- 9 июня 2008
-
Разосланы задания по дорожке поиска изображений по визуальному подобию.
- 12 июня 2008
-
Дан официальный старт для дорожек поиска по Веб
коллекции, поиска похожих документов,аннотирования.
Отменено проведение дорожки вопросно-ответного поиска в связи с малым числом заявок на участие.
- 17 июня 2008
-
Дан официальный старт для дорожки поиска в смешанной коллекции.
- 5 сентября 2008
-
Завершена оценка дорожки поиска по коллекции нормативно-правовых документов.
Разосланы предварительные результаты по оценке дорожки Веб поиска по
коллекции BY.web и поиска изображений по визуальному подобию.
- 11 сентября 2008
-
Разосланы результаты о оценке дорожки классификации нормативно-правовых
документов.
- 12 сентября 2008
-
Завершена оценка дорожки поиска изображений по визуальному
подобию.
Разосланы предварительные результаты по оценке дорожки Веб поиска по коллекции KM.ru.
- 17 сентября 2008
-
Разосланы результаты оценки для дорожки поиска нечетких дубликатов изображений.
- 18 сентября 2008
-
Разосланы результаты оценки для дорожки классификации Веб-страниц.
- 25 сентября 2008
-
Разосланы результаты оценки для новостной
дорожки всем участникам этой дорожки в период с 2006 по 2008 гг.
Завершена оценка дорожки классификации
Веб-сайтов.
- 29 сентября 2008
-
Завершена оценка дорожки контекстно-зависимого
аннотирования текстовых документов.
- 3 октября 2008
-
Опубликована программа семинара.
- 9 октября 2008
-
Опубликованы труды РОМИП'2008.
- 13 октября 2008
-
Очный семинар РОМИП'2008 состоялся 9 октября 2008 года в Дубне. Он был
совмещен с конференцией RCDL'2008.
Всего на семинаре присутствовало около 70 человек, представителей систем-участников и просто слушателей.
В программе семинара было 14 докладов и круглый стол.
Оргкомитет
- Михаил Агеев (МГУ, Москва)
- Александр Антонов (Галактика, Москва)
- Павел Браславский (Яндекс, УГТУ-УПИ, Екатеринбург)
- Наталья Васильева (HP Labs, Санкт-Петербург)
- Максим Губин (IAC Search & Media, USA)
- Борис Добров (УИС РОССИЯ, Москва)
- Михаил Костин (Mail.Ru, Москва)
- Игорь Кураленок (Яндекс, ПМПУ СПбГУ, Санкт-Петербург)
- Игорь Некрестьянов (мат-мех СПбГУ, Санкт-Петербург)
- Марина Некрестьянова (NebuAd, Санкт-Петербург)
- Владимир Плешко (RCO, Москва)
- Илья Сегалович (Яндекс, Москва)
- Влад Шабанов (Вертикальный поиск, Москва)
Участники
-
Branch Image
Система поиска изображений по подобию и классификации в реальном времени. В
основе системы лежит
кластеризация в многомерном
пространстве признаков изображений. Основной объем исследований
заключается в выявлении и формализации различных высокоуровневых и
низкоуровневых признаков изображений (цвета, формы, текстуры, наличия
объектов определенных классов и пр.), а также определения их важности
(весовых коэффициентов, которые используются, в частности, при
кластеризации). Одной из особенностей системы является ее
ориентация на эффективную работу с пиктограммами изображений (уменьшенными
копиями изображений, хранящимися в базе данных поисковой системы), что
облегчает процесс внедрения системы и ее модификацию.
-
EventSupervisor
Система отбора линеек новостей посвященных одному событию, основанная на
модифицированной версии алгоритма CMU TDT. Особенностью алгоритма является
определение направленности текста новости (предсказательной, оповещающей или
обсуждающей) и использование ее для выявления первых упоминаний события.
-
Exactus
Exactus - система семантического поиска и анализа текстовой информации
в гетерогенных информационных ресурсах и сервисах. Exactus - это
научно-исследовательский проект, который развивается в Институте
Системного Анализа РАН в течении последних 5 лет командой опытных
лингвистов, программистов, математиков и психологов.
Новая версия Exactus успешно сочетает в себе статистические и
лингвистические методы анализа текстов и функицонирует на
высокопроизводительной кластерной установке под управлением
операционной системы Unix. Exactus представляет поисковый сервисы
естественно-языкового поиска, вопросно-ответного поиска, расширения
запроса близкими по смыслу словами из Тезауруса, персональной
онтологии пользователя и много другое.
-
HeadHunter
Экспериментальная поисковая система, в которой используются классические
алгоритмы и собственные
разработки. На семинаре планируется опробовать ряд алгоритмов оценки
релевантности, основанных на
более глубоком анализе содержания индексируемых документов.
-
IFM
Предлагаемая система поиска нечетких дубликатов - IFM, основана на
методах interest
point detection ,
таких как Difference of Gaussians (DoG), Laplasian of Gaussian (LoG)
и др. Основная идея состоит в определении ярких (salient) локальных участков
в изображении, которые инвариантны по отношению к преобразованиям
различного рода, и описании их в удобном для поиска виде.
Таким образом, изображение характеризуется не единственным сложным и сильно
многомерным вектором параметров, а набором относительно простых
векторов, соответствующих локальным участкам (local interest points). При
этом задача сравнения двух изображений сводится к сравнению локальных
свойств этих изображений. Для решения этой задачи необходимы методы
индексирования описаний локальных свойств изображения и масштабируемые
методы поиска.
Задачей предлагаемой системы является сравнение и обобщение существующих
методов.
Кроме задачи поиска дубликатов, рассматривается задача идентификации -
бинарного сравнения двух изображений.
-
ImSim
-
LISA
В основе подхода лежит идея перехода от исходного изображения к специальному
представлению - так называемой матрице изменения яркостей. В качестве меры
близости для сравнения изображений используется взвешенная псевдометрика,
которая оперирует со знаками частных производных от функций яркостей
компонент цветового пространства.
-
mnoGoSearch
mnoGoSearch - программное обеспечение для организации
поиска по сайту или группе сайтов. Из особенностей
системы можно отметить использование SQL базы данных
в качестве хранилища.
-
NNCS
Система контекстно-зависимой классификации и поиска документов по запросу,
основанная на представлении документов с использованием рекуррентных
нейронных сетей.
-
PhotoFinder
Исследовательский проект в области поиска изображений по содержанию. В
рамках проекта реализованы
методы поиска, основанные на различных цветовых и текстурных признаках
изображений. Особое
внимание уделяется вопросу синтеза различных методов поиска при формировании
общего результата.
Разработаны три алгоритма для комбинирования промежуточных результатов:
с использованием функции синтеза WTGF (Weighted Total with
Gravitation Function),
отличительной чертой которой является возможность учитывать разные веса для
входных источников
(неадаптивный подход);
"смешанные метрики": адаптивный алгоритм синтеза без использования
механизма обратной
связи;
синтез с использованием механизма обратной связи.
В рамках РОМИП 2008 мы хотим протестировать перечисленные выше механизмы
синтеза для одних и тех
же методов поиска. В качестве методов поиска будет использован поиск по
статистическим параметрам
распределения цвета (моменты первого и второго порядков), поиск по цветовым
гистограммам и поиск
по текстуре с использованием фильтров ICA.
-
RCO
Компания RCO специализируется на исследованиях в области компьютерной
лингвистики и создании компонентов интеллектуального анализа текста
для информационно-поисковых и информационно-аналитических систем. На
семинаре планируется провести апробацию ряда алгоритмов тематической
классификации документов и структуризации новостного потока.
-
RMaxg
Библиотека и набор тестовых утилит для проведения экспериментов в области
сжатия данных, эффективного индексирования, статистических моделей и
методов машинного обучения.
-
SPECS
Исследовательский проект, посвященный созданию системы периодического
тематического поиска в
Web. В рамках РОМИП будет проведена оценка влияние на качество решения задач
поиска и
классификации использования различных методов сегментации Web-страниц.
-
Subject Search Sleuth (SSS)
Subject Search Sleuth (SSS) - это система поиска и построения резюме, в
основе которой лежит оригинальный быстрый непереборный алгорифм
приближённого поиска строки запроса, котрый допускает перестановку
терминов,
присутствующих в образце, а также присутствие других терминов или
отсутствие
некоторых из них. Благодаря использованию в качестве элементов поиска
Q-Термов (а не слов, канонических словоформ или корневых морфем) алгорифм
SSS легко применим к поиску по текстам на разных языках. Текущая
реализация
поддерживает 40 языков, а именно, большинство европейских, а также
азиатские
(японский, китайский, корейский), и ряд других, включая иврит,
индонезийский
и арабский.
-
Yandex
Версия поисковой системы stable-9-5
-
Галактика-Zoom
Галактика-Zoom представляет собой систему обработки больших объемов
неструктурированных данных.
Система является инструментом для создания хранилища текстовой информации,
обладает возможностями
полнотекстового поиска и аналитических исследований. При проведении поиска
возможно использование
контекстного или тематического поиска, поиска с учетом морфологии языка,
развитого языка поисковых
запросов. Система предоставляет возможность построения информационного
образа объекта исследования
(Информационного портрета) на основе языковых конструкций - слов и
словосочетаний.
-
Поиск@Mail.ru
-
Поиск KM.ru
Версия поисковой системы mod.2. В основе системы - традиционные алгоритмы
и собственные разработки.
-
УИС РОССИЯ
Университетская информационная система РОССИЯ (УИС РОССИЯ) - проект, нацеленный на
интеграцию информационных ресурсов для гуманитарных исследований.
Поддерживается Научно-исследовательским вычислительным центром МГУ
им.М.В.Ломоносова (НИВЦ МГУ) и АНО Центр информационных исследований (АНО
ЦИИ).
Решения на основе технологий УИС РОССИЯ - тематический анализ текстов,
классификация по большим рубрикаторам, интерактивный поиск документов -
используются в некоторых органах государственной власти и управления,
коммерческих организациях.
|