RuSSIR'2007: I Российская летняя школа по информационному поиску

Программа школы

Школа проводится на базе Уральского государственного университета, в аудиториях математико-механического факультета (Тургенева, 4). Лекции проводятся в ауд. 513, практические занятия — в ауд. 514, кофе-брейки — в ауд. 507, обеды — в столовой на первом этаже. Регистрация будет проходить в фойе здания на Тургенева, 4.

	5 сен, ср	6 сен, чт	7 сен, пт	8 сен, сб	9 сен, вс	10 сен, пн	11 сен, вт	12 сен, ср
9.00-10.30		MLA	MLA	АГВ	АПБС	МАКТ	МАКТ	ОСТП
10.30-11.00		перерыв	перерыв	перерыв	перерыв	перерыв	перерыв	перерыв
11.00-12.30		MLA	MLA	АГВ	АПБС	МАКТ	МАКТ	ОСТП
12.30-13.30		обед	обед	обед		обед	обед	обед
13.30-14.30		MSWS	КМУ	КМУ	экскурсия	КМУ	кубок	отъезд
15.00-16.30	регистрация	MIR	MIR	АГВ	экскурсия	АПБС	ОСТП
16.30-17.00		перерыв	перерыв	перерыв		перерыв	перерыв
17.00-18.30		MIR	MIR	АГВ		АПБС	ОСТП
после 19.00	welcome party	MRT	MAIR	футбол		RuSSIR party

Machine Learning Algorithms for Web-related problems (MLA)

Mikhail Bilenko (Microsoft Research) and Pavel Dmitriev (Cornell University)

Machine learning algorithms are widely used in web-related tasks, where due to the large scale and varying quality of data, adaptive techniques provide significant advantages over manual approaches. Examples of applications where learning methods have been very successful include learning ranking functions for search engines, detecting spam, clustering news articles, and learning hierarchies in online tagging systems. This course will provide a brief introduction into the general area of machine learning, show how important problems in web search and mining can be solved using machine learning techniques, and discuss problems and tradeoffs involved in applying machine learning approaches to web-scale datasets.

Слайды (3 Mb)

Видео: часть 1 (134 Mb), часть 2 (106 Mb), часть 3 (110 Mb), часть 4 (182 Mb).

Язык: английский.

Music Information Retrieval (MIR)

Andreas Rauber (Vienna University of Technology)

In this course we will take a closer look at the various areas, tasks, and methods that together form the field of music information retrieval (MIR).

We will start by considering the various types of data that are relevant for MIR activities, ranging from both symbolic as well as acoustic music data, via textual, up to image and video data. This will be followed by a brief overview of the overwhelming number of tasks and challenges in MIR to provide a thorough understanding of the problem domain and the interdisciplinary nature of this domain.

The core part of the course will then address a number of selected topics. Specifically, we will focus on various techniques for feature extraction from music, and their utilization for tasks such as retrieval, genre classification, chord detection, and others. We will also analyze and discuss the benefits of combining different modalities, such as textual and acoustic information, as well as the utilization of web information for these tasks. Last, but not least, we will take a closer look at a few applications, such as the PlaySOM and PocketSOM, that assist users in organizing their music collections, creating playlists on desktop computers as well as mobile phones. We will also review current music web portals and discuss future directions in music consumption and distribution.

The course will be acompanied by a range of practical exercises, allowing participants to analyze their own music collections and test the proposed mehods.

Язык: английский.

Анализ гиперссылок в сети Веб: подходы, алгоритмы и приложения (АГВ)

Александр Сычев (Воронежский государственный университет)

В рамках курса рассматриваются особенности информационного поиска в сети Worl Wide Web (WWW или просто Веб), показывается каким образом появление гиперссылок в тексте документов изменяет представление документов и методы их поиска. Дается формализованное представление сети Веб в виде ориентированного графа, рассматриваются основные модели и закономерности Веб. Показано как на основе анализа гиперссылок рассчитываются оценки релевантности веб-ресурсов и каким образом оптимизируется процедура обхода веб-графа сетевым роботом. Также рассматриваются процессы самоорганизации и их динамика в гиперссылочной сети Веб. Для предварительного ознакомления можно порекомендовать учебные материалы.

Слайды (1.6 Mb)

Язык: русский.

Алгоритмы поиска ближайших соседей (АПБС)

Юрий Лифшиц (Санкт-Петербургское отделение математического института им. В.А. Стеклова РАН)

Абстрактно, задачу о ближайших соседях можно сформулировать следующим образом. Есть некоторое пространство с метрикой близости. Нам дана большая коллекция элементов этого пространства. Требуется провести такие предварительные вычисления, чтобы при получении нового элемента как можно быстрее определить его ближайшего соседа в нашей коллекции. Алгоритмы поиска ближайших соседей играют важнейшую роль в классификации текстов, персонализированной агрегации новостей, рекомендующих системах и системах размещения интернет-рекламы.

Страница курса (вкл. слайды и ссылки)

Видео: часть 1 (214 Mb), часть 2 (251 Mb), часть 3 (351 Mb), часть 4 (237 Mb).

Язык: английский.

Методы автоматической классификации текстов (МАКТ)

Михаил Агеев (НИВЦ МГУ)

В курсе будут представлены классические и современные задачи классификации текстов, методы решения, основанные на инженерном подходе, методы машинного обучения. Особое внимание будет уделено анализу проблем классификации, вызывающих низкое качество классификации.

Слайды (2.6 Mb)

Видео: часть 1 (99 Mb), часть 2 (196 Mb), часть 3 (117 Mb), часть 4 (286 Mb).

Язык: русский.

Оценка эффективности систем текстового поиска (ОСТП)

Игорь Кураленок (СПбГУ, Яндекс)

Курс посвящен оценке эффективности в информационном поиске. Целью курса является знакомство слушателей с проблемной областью, разъяснение базовых понятий и принципов оценки, обзор наиболее ярких исследований, связанной с оценкой. Основным ожидаемым результатом курса является способность слушателей провести эксперимент по оценке эффективности того или иного метода и обосновать полученные результаты. Курс рассчитан на студентов старших курсов технических вузов.

Слайды (2 Mb)

Видео: часть 1 (411 Mb), часть 2 (547 Mb), часть 3 (585 Mb).

Язык: русский.

Конференция молодых ученых по информационному поиску (КМУ)

Подробная информация - на сайте конференции.

Технологии Microsoft для поиска в интернете (MSWS)

Марат Бакиров (Microsoft)

В докладе будeт сделан обзор новых технологий представления и использования результатов поиска на платформе Microsoft Live. Мы рассмотрим возможности для продвинутых пользователей, позволяющие гибко настраивать поисковую систему под себя, создавать макросы поиска и делиться ими с сообществом. Будет представлен проект tafiti, реализуюший совершенно новый интерфейс поиска, а также проект popfly, позволяющий пользователям создавать веб-сайты с помошью технологий silverlight и live search. Кроме того, будет рассмотрен механизм интеграции поиска в веб-сайты, а также общий обзор платформы Microsoft Live.

Язык: русский.

Техника MapReduce и ее применение к задачам информационного поиска (MRT)

Иван Красин (Google)

Лекция посвящена одному из подходов к решению задач информационного поиска в условиях огромных объемов данных - MapReduce. Эта техника широко используется различными подсистемами поисковой системы Google, позволяя быстро создавать программы, извлекающие информацию из проиндексированных страниц. На примерах показано, в каких случаях удобно применение MapReduce, описываются сторонние реализации библиотек MapReduce. Лекция завершается кратким рассказом о работе российского отделения Google.

Слайды (4 Mb)

Видео (47 Mb).

Язык: русский.

Морфологический анализ в задачах информационного поиска (MAIR)

Илья Сегалович (Яндекс)

1. Зачем нужна морфология в поиске?
2. Механика, стоящая за морологическим анализом.
3. Несловарная морфология: обзор методов.
4. Приложения: спелл-чекер, веб-поиск и т.д.

Видео (111 Mb).

Язык: русский.

Контакты

По всем вопросам, связанным со школой, обращайтесь по электронной почте school[at]romip[dot]ru.

I Российская летняя школа по информационному поиску
5-12 сентября 2007, Екатеринбург

Организаторы и спонсоры

Генеральный спонсор

Серебряный спонсор

Бронзовые спонсоры

Программа школы

Machine Learning Algorithms for Web-related problems (MLA)

Music Information Retrieval (MIR)

Анализ гиперссылок в сети Веб: подходы, алгоритмы и приложения (АГВ)

Алгоритмы поиска ближайших соседей (АПБС)

Методы автоматической классификации текстов (МАКТ)

Оценка эффективности систем текстового поиска (ОСТП)

Конференция молодых ученых по информационному поиску (КМУ)

Технологии Microsoft для поиска в интернете (MSWS)

Техника MapReduce и ее применение к задачам информационного поиска (MRT)

Морфологический анализ в задачах информационного поиска (MAIR)

Контакты

I Российская летняя школа по информационному поиску5-12 сентября 2007, Екатеринбург

Организаторы и спонсоры

Генеральный спонсор

Серебряный спонсор

Бронзовые спонсоры

Программа школы

Machine Learning Algorithms for Web-related problems (MLA)

Music Information Retrieval (MIR)

Анализ гиперссылок в сети Веб: подходы, алгоритмы и приложения (АГВ)

Алгоритмы поиска ближайших соседей (АПБС)

Методы автоматической классификации текстов (МАКТ)

Оценка эффективности систем текстового поиска (ОСТП)

Конференция молодых ученых по информационному поиску (КМУ)

Технологии Microsoft для поиска в интернете (MSWS)

Техника MapReduce и ее применение к задачам информационного поиска (MRT)

Морфологический анализ в задачах информационного поиска (MAIR)

Контакты

I Российская летняя школа по информационному поиску
5-12 сентября 2007, Екатеринбург