РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 2010 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Семинар РОМИП'2010

Здесь собрана подробная информация о прошедшем в 2010 году шестом цикле семинара РОМИП: Результаты и отчеты участников РОМИП'2010 доступны в разделе "Публикации".

Хроника событий

19 апреля 2010

Официальный старт восьмого цикла семинара РОМИП!. Форма для регистрации участников

12 мая 2010
Опубликован список участников.
24 мая 2010
Заведена группа romip в facebook - присоединяйтесь!
25 мая 2010
Разосланы задания и определены сроки сдачи результатов по следующим дорожкам:
25 мая 2010
Разосланы задания и определены сроки сдачи результатов по следующим дорожкам:

В связи с отсутствием достаточного числа заявок принято решение отменить в этом году проведение следующих дорожек:

  • поиск по нормативной коллекции
  • поиск по смешанной коллекции
  • фактографический поиск по новостной коллекции

29 мая 2010
Выложены таблицы релевантности для ряда дорожек РОМИП'2009.
1 июня 2010
Разосланы задания и определены сроки сдачи результатов по следующим дорожкам:
1 июня 2010
Разосланы задания по дорожке поиска по документу-образцу. Срок сдачи результатов - 9 июля.
23 июня 2010
Разосланы ID для систем участников. Начало приема результатов от участников в соответствии со сроками сдачи результатов.
27 августа 2010
Разосланы предварительнеы результаты по дорожкам:
28 августа 2010
Разосланы окончательные результаты по дорожке поиска изображений по визуальному подобию.
30 августа 2010
Определен срок сдачи статей - 20 сентября. Опубликован формат предоставления статей.
8 сентября 2010
Разосланы результаты по дорожкам:
9 сентября 2010
Разосланы окончательные результаты по дорожкам:
12 сентября 2010
Разосланы результаты по дорожке поиск нечетких дубликатов в коллекции изображений.
20 сентября 2010
Разосланы окончательные результаты по дорожкам:
21 сентября 2010
Павел Браславский представил доклад о РОМИП на конференции CLEF2010 (Слайды)
2 октября 2010
Разосланы результаты по дорожке вопросно-ответного поиска.
15 октября 2010

15 октября 2010 г. в Казани состоялась очная встреча восьмого цикла РОМИП. Во встрече приняло участие более 60 человек. Были проведены 10 докладов и круглый стол.

Опубликованы труды РОМИП'2010.
6 ноября 2010
Выложены слайды участников очной встречи РОМИП'2010.
19 ноября 2010
Официальный форум РОМИП переехал с yahoogroups на http://romip.ru/forum. Все материалы и подписчики перенесены. Для получения доступа к вашей учетной записи вам необходимо воспользоваться функцией востановления пароля. Как и семинар, форум открыт для всех заинтересованных в тематике информационного поиска.

Оргкомитет

  • Михаил Агеев (МГУ, Москва)
  • Александр Антонов (Галактика, Москва)
  • Павел Браславский (Яндекс, УГТУ-УПИ, Екатеринбург)
  • Наталья Васильева (HP Labs, Санкт-Петербург)
  • Максим Губин (Facebook, USA)
  • Борис Добров (УИС РОССИЯ, Москва)
  • Михаил Костин (Mail.Ru, Москва)
  • Игорь Кураленок (Яндекс, ПМПУ СПбГУ, Санкт-Петербург)
  • Игорь Некрестьянов (Oracle Corporation, USA)
  • Марина Некрестьянова (Red Aril, Санкт-Петербург)
  • Владимир Плешко (RCO, Москва)
  • Илья Сегалович (Яндекс, Москва)
  • Влад Шабанов (Вертикальный поиск, Москва)
  • Сергей Татевосян (КМ онлайн, Москва)

Участники

  • ATSearch-2010
    ATSearch-2010 система информационного поиска, основанная на решениях полученных в рамках проекта АТ.Поиск.

  • Dislexer
    Экспериментальная система поиска, использующая алгоритмы синтаксического анализа для снятия омонимии в запросах и коллекции документов.

  • Exactus
    Exactus - система семантического поиска и анализа текстовой информации. Exactus - это научно-исследовательский проект, который развивается в Институте системного анализа РАН в течении последних 5 лет командой опытных лингвистов, программистов, математиков и психологов. Основной целью участия в Ромип является независимая экспериментальная проверка разработанных методов и моделей на больших объемах данных.

  • Extractor
    Экспериментальная система извлечения фактов.

  • IFM3
    Система поиска изображений по содержанию IFM3 основана на текстовом подходе к задачам анализа изображений. На основе словаря признаков изображения характеризуются в терминах векторной модели типа tf/idf. Для построения словаря используется кластеризация дескрипторов типа SURF, вычисленных в точках интереса на основе обучения метрики в пространстве хеш-дескрипторов.

  • MPP
    Система кластеризации, использующая для построения метрик хорошо изученные задачи машинного обучения.

  • PhotoFinder
    Исследовательский проект в области поиска изображений по содержанию. В рамках проекта реализованы методы поиска, основанные на различных цветовых и текстурных признаках изображения. Особое внимание уделяется вопросу синтеза различных методов поиска при формировании общего результата. В рамках РОМИП 2010 мы хотим протестировать адаптивный метод синтеза двух цветовых признаков (цветовые гистограммы и цветовые моменты).

  • PIRS
    PIRS - учебная система, разрабатывающаяся в рамках исследовательской работы. Методы поиска изображений по содержанию основаны на выявлении и комбинировании особенностей изображений разных уровней. При разработке методов поиска предпочтение отдавалось точности/полноте, нежели вычислительной эффективности.

  • PTCS
    Система параллельной тематической текстовой классификации, работающая на многопроцессорных/многопроцессорных компьютерах или на вычислительном кластере. Система разработана в Вятском государственном гуманитарном университете (г. Киров) и основана на методе опорных векторов. Особенностью системы является использование параллельных вычислений на всех этапах работы, что позволяет в процессе обучения и дообучения проводить максимально подробную оценку эффективности и точную настройку параметров.

  • RCO
    Компания RCO специализируется на исследованиях в области компьютерной лингвистики и создании компонентов интеллектуального анализа текста для информационно-поисковых и информационно-аналитических систем. На семинаре планируется провести апробацию ряда алгоритмов кластеризации новостного потока.

  • ROOKEE
    Исследовательский проект, в рамках которого изучаются несколько задач информационного поиска:

    1. разработка и оценка методологий контекстно-зависимого аннотирования
    2. разработка и оценка алгоритмов тематической классификации веб сайтов и веб страниц.

  • Sophia
    Система поиска, основанная на предварительной кластеризации коллекции. Алгоритм кластеризации собственный. Ранее система тестировалась на больших англоязычных коллекциях (газетные публикации, рефераты патентов, рефераты статей по медицинской тематике -- medline). Целью участия в РОМИП является тестирование системы на русскоязычной коллекции.

  • SSS

  • Yandex.Server

  • Галактика-Zoom
    Галактика-Zoom - это система обработки больших объемов неструктурированных данных, инструмент для создания хранилища текстовой информации с возможностями полнотекстового поиска и аналитических исследований. В системе реализованы различные режимы поиска: контекстный, тематический, с учетом морфологии языка, с использованием языка запросов. Система предоставляет возможность построения информационного образа результатов поиска (информационного портрета) на основе языковых конструкций - слов и словосочетаний.

  • КС классификатор
    Классификатор классификацирует документы по ключевым словам. Был представлен на конференции RCDL (статья). Используется для классификации хостов в поисковой системе Яндекс.

  • Поиск KM.ru
    Поисковая система KM.RU - это традиционные поисковые алгоритмы и собственные разработки.

  • СКАТ
    СКАТ Система классификации и анализа тектов. Предназначена для выполнения вытоматической классификации текстов как путем обучения на примерах, так и путем задания правил классификации на специальном языке. Целью участия в РОМИП является оценка новых подходов и методов к классификации текстовых данных.

  • УИС РОССИЯ

    Университетская информационная система РОССИЯ (УИС РОССИЯ) - проект, нацеленный на интеграцию информационных ресурсов для гуманитарных исследований. Поддерживается Научно-исследовательским вычислительным центром МГУ имени М.В.Ломоносова (НИВЦ МГУ имени М.В.Ломоносова) и АНО Центр информационных исследований (АНО ЦИИ).

    Решения на основе технологий УИС РОССИЯ - тематический анализ текстов, классификация по большим рубрикаторам, интерактивный поиск документов, агрегирование новостного потока - используются в некоторых органах государственной власти и управления, коммерческих организациях.

  • Умба
    Вопросно-ответная система Умба - метапоисковая система общего назначения, извлекающая из коллекции документов точные фактографические ответы на вопросы, сформулированные на русском языке.

    Система следует типовой архитектуре QA систем, участвующих в TREC и CLEF. Задача разделена на подзадачи, каждая из которых решена неким наивным способом. Одна из подзадач - проверка соответствия ответа вопросу - решена ещё и авторским методом с использованием выделения семантических связей между словами. Сейчас система отвечает на вопросы "кто" (о персонах) и "где" (о топонимах).

    Цель участия в семинаре - оценить улучшение в общей выдаче системы за счёт предложенной авторской реализации модуля по сравнению с исходной наивной реализацией. Планируется сделать несколько прогонов метода с разными параметрами.

    Результаты автор планирует использовать в экспериментальной части кандидатской диссертации.

  • Яндекс.Картинки
    Алгоритмы, используемые в поиске изображений.