Page 1 of 1

Новая дорожка - поиск научных публикаций

PostPosted: Mon Nov 29, 2010 2:13 pm
by nzhiltsov
Добрый день, уважаемые коллеги,

хотелось бы поддержать одну из идей, высказанных Борисом Викторовичем на пленарном заседании семинара РОМИП'10. Текущее конкретное предложение содержит следующие аспекты:
1. Информация об имеющейся коллекции.
2. Специфика задачи поиска математических научных публикаций.
3. Получение статистики запросов.
4. Ассесоры.

1. В нашем распоряжении есть коллекция журнала "Известия вузов. Математика" 1997-2009 гг. - 1355 статей, каждая в формате LaTeX и PDF.
Это статьи профессионалов-математиков, примерно 88% статей имеют темы из разных разделов математики, остальные имеют отношение к физике и информатике.

2. Помимо, собственно, актуальности, хотелось бы выделить следующие особенности исходных текстов, которые никак не используются современными средствами для такого рода поиска:
а) Высокая структурированность.
От поиска документов можно (но не обязательно!) перейти к так называемому "семантическому поиску", в котором объектом поиска являются отдельные структурные элементы (формулировки теорем, определений, следствий, тексты доказательств). Получается немного другая парадигма как организации поиска, так и оценки результатов.

б) Наличие элементов математической нотации.
Где-то 80% исходных текстов составляют формулы и математические выражения. Возможно, тем, кто занимается распознаванием изображений будет интересна задача распознавания формул (в PDF хранятся как картинки). В частности, этим активно занимается японский проект Intfy:http://www.inftyproject.org/.

в) Естественная категоризация.
Каждая статья снабжена кодом или набором кодов УДК. Здесь возникают задачи пополнения терминологии или исследования методов кластеризации.

Кроме того, связность данной коллекции, поддержанная механизмом ссылок в списке литературы, низка. Очевидно, это влияет на успешность применения известных алгоритмов ранжирования, не зависимых от запроса.

3. Тема исследования информационных нужд математиков затрагивалась в немногочисленных академических работах, но, ясно, что для более точного формулирования поисковых задач необходима статистика запросов. Со слов Игоря Кураленка, такая статистика может быть получена на основе логов Яндекса. Я готов решать задачу классификации поисковых запросов, имеющих отношение к математической предметной области, для получения репрезентативной выборки.

4. Опять-таки из личных бесед, организаторы РОМИП упоминали про возможность подключения преподавателй из СпбГУ.


Кому-нибудь интересно данное предложение?

----------------
Никита Жильцов
-----------------------------------------------------------------------
Лаборатория математической и компьютерной
лингвистики НИИММ им. Н.Г. Чеботарева КФУ -
http://cll.niimm.ksu.ru/cms/lang/ru/main/people/zhiltsov
-----------------------------------------------------------------------

Re: Новая дорожка - поиск научных публикаций

PostPosted: Sun Jan 30, 2011 3:21 am
by G00DMAN
Добрый день, Никита.

Раз никто не желает Вам отвечать, то отвечу я. :)

Все ниже написанное - мое личное мнение, которое может быть и не верным.
nzhiltsov wrote:1. В нашем распоряжении есть коллекция журнала "Известия вузов. Математика" 1997-2009 гг. - 1355 статей, каждая в формате LaTeX и PDF.
Это статьи профессионалов-математиков, примерно 88% статей имеют темы из разных разделов математики, остальные имеют отношение к физике и информатике.
Коллекция маленькая, нужно делать максимально полную по рунету, иначе смысла нет. Т.е. для начала выковыривать все, что получится из всей научной периодики и библиотек, а дальше - по спискам литературы доковырять остатки. Можно достаточно полную коллекцию собрать, разве что кроме дисеров, но они в большинстве своем беспонтовые, все, что в них написано, есть обычно и в других статьях автора. Коллекцию нужно разбивать по отраслям, как на Academic Search от Microsoft, только там у них полнота хреновенькая.
nzhiltsov wrote:2. Помимо, собственно, актуальности, хотелось бы выделить следующие особенности исходных текстов, которые никак не используются современными средствами для такого рода поиска:
а) Высокая структурированность.
Да, это гуд, поэтому в научных статьях можно многое найти с очень хорошим качеством.
nzhiltsov wrote:От поиска документов можно (но не обязательно!) перейти к так называемому "семантическому поиску", в котором объектом поиска являются отдельные структурные элементы (формулировки теорем, определений, следствий, тексты доказательств). Получается немного другая парадигма как организации поиска, так и оценки результатов.
С формулировками скорее всего не получится красиво, с доказательствами - вообще не реально, т.к. многие доказательства занимают десятки и сотни страниц.
nzhiltsov wrote:б) Наличие элементов математической нотации.
Где-то 80% исходных текстов составляют формулы и математические выражения. Возможно, тем, кто занимается распознаванием изображений будет интересна задача распознавания формул (в PDF хранятся как картинки). В частности, этим активно занимается японский проект Intfy:http://www.inftyproject.org/.
Було бы круто искать по формулам. Из pdf, латеха и картинок. Но это вторичная задача. Для начала - тематические коллекции и поиск текста нужны, причем это вполне реально.
nzhiltsov wrote:в) Естественная категоризация.
Каждая статья снабжена кодом или набором кодов УДК. Здесь возникают задачи пополнения терминологии или исследования методов кластеризации.
В целом по научным статьям коды УДК есть далеко не везде. Но по тематикам разбивать нужно, да.
nzhiltsov wrote:Кроме того, связность данной коллекции, поддержанная механизмом ссылок в списке литературы, низка. Очевидно, это влияет на успешность применения известных алгоритмов ранжирования, не зависимых от запроса.
На большой коллекции связность будет лучше, и к тому же можно применять не только стандартные метрики типа пэйджранка, но и более "новаторские". Например можно учитывать пэйджранки(ИЦы) всех соавторов или обратные связи, чтобы выдавать первыми самые сильные работы из свежих (ранжируя не тупо по дате, а хитрее).
nzhiltsov wrote:3. Тема исследования информационных нужд математиков затрагивалась в немногочисленных академических работах, но, ясно, что для более точного формулирования поисковых задач необходима статистика запросов. Со слов Игоря Кураленка, такая статистика может быть получена на основе логов Яндекса. Я готов решать задачу классификации поисковых запросов, имеющих отношение к математической предметной области, для получения репрезентативной выборки.
А зачем такая статистика? Нужно на любые запросы отвечать в пределах коллекции.
nzhiltsov wrote:Кому-нибудь интересно данное предложение?
Мне интересно. :)

На самом деле это должно быть интересно Яндексу, т.к. сегодня ученый мир ищет в основном в гугле и это нужно исправлять. Но гугл ищет если и лучше, то все равно хреновенько, в выдаче слишком много мусора. Который можно отсеять только поиском по спец. коллекции.

Re: Новая дорожка - поиск научных публикаций

PostPosted: Sun Jan 30, 2011 12:30 pm
by nzhiltsov
Илья,
спасибо за мнение. Далее несколько комментариев.

Коллекция маленькая, нужно делать максимально полную по рунету, иначе смысла нет. Т.е. для начала выковыривать все, что получится из всей научной периодики и библиотек, а дальше - по спискам литературы доковырять остатки.

Согласен с тем, что коллекция на основе Веба или открытых доступных коллекций интереснее. Хотя в общем случае возможны некоторые лицензионные проблемы с доступом и обработкой. Конечно, есть очень популярный ресурс среди математиков - это arXiv.org, но он содержит в подавляющем большинстве англоязычные статьи. Впрочем, есть подозрение, что Яндекс индексирует приличное число научных публикаций в формате PDF из Рунета (в частности, видел ссылки с крупного ресурса Math-Net.Ru в результатах поиска). Более того, возможно, есть уже готовые кластеры специально под эту тематику. Можем ли мы здесь расчитывать на них?

А зачем такая статистика? Нужно на любые запросы отвечать в пределах коллекции.

Это сделало бы задачу более практичной: понятны были бы нужды потенциальных пользователей (математиков) специализированных систем поиска. Кроме того, адекватные запросы полезны были бы для дальнейшего оценивания и работы ассессоров.
Мне интересно.

Здорово! Давайте кооперироваться.

С уважением,
Жильцов Никита.

Re: Новая дорожка - поиск научных публикаций

PostPosted: Mon Jan 31, 2011 5:09 pm
by G00DMAN
nzhiltsov wrote:
Коллекция маленькая, нужно делать максимально полную по рунету, иначе смысла нет. Т.е. для начала выковыривать все, что получится из всей научной периодики и библиотек, а дальше - по спискам литературы доковырять остатки.
Согласен с тем, что коллекция на основе Веба или открытых доступных коллекций интереснее. Хотя в общем случае возможны некоторые лицензионные проблемы с доступом и обработкой. Конечно, есть очень популярный ресурс среди математиков - это arXiv.org, но он содержит в подавляющем большинстве англоязычные статьи. Впрочем, есть подозрение, что Яндекс индексирует приличное число научных публикаций в формате PDF из Рунета (в частности, видел ссылки с крупного ресурса Math-Net.Ru в результатах поиска). Более того, возможно, есть уже готовые кластеры специально под эту тематику. Можем ли мы здесь расчитывать на них?
Можем ли мы рассчитывать или нет - мне не известно, со мной сотрудники Яндекса общаются неохотно, ввиду того, что я в недавнем прошлом активно занимался SEO и реинжинирил их алгоритмы. :)

У любого большого поиска есть приличная научная коллекция в индексе, с хорошей полнотой, только они пока не хотят ее извлекать почему-то. Почему - мне не понятно.
nzhiltsov wrote:
А зачем такая статистика? Нужно на любые запросы отвечать в пределах коллекции.
Это сделало бы задачу более практичной: понятны были бы нужды потенциальных пользователей (математиков) специализированных систем поиска. Кроме того, адекватные запросы полезны были бы для дальнейшего оценивания и работы ассессоров.
У меня есть уверенность в том, что большинство существующих алгоритмов ранжирования получат красивые оценки качества поиска на такой коллекции без дополнительного обучения. Т.к. научная коллекция слишком хороша, чтобы на ней ошибаться. :)
nzhiltsov wrote:
Мне интересно.

Здорово! Давайте кооперироваться.
Давайте, а как? Я не уверен, что готов сегодня собирать научную коллекцию рунета. К тому же с ней не все так просто - придется активно парсить поисковики, а они этого делать не дают, т.е. нужно сознательно заниматься нарушением поисковых лицензий. Это не есть гуд. :)