Новая дорожка - поиск научных публикаций
Posted: Mon Nov 29, 2010 2:13 pm
Добрый день, уважаемые коллеги,
хотелось бы поддержать одну из идей, высказанных Борисом Викторовичем на пленарном заседании семинара РОМИП'10. Текущее конкретное предложение содержит следующие аспекты:
1. Информация об имеющейся коллекции.
2. Специфика задачи поиска математических научных публикаций.
3. Получение статистики запросов.
4. Ассесоры.
1. В нашем распоряжении есть коллекция журнала "Известия вузов. Математика" 1997-2009 гг. - 1355 статей, каждая в формате LaTeX и PDF.
Это статьи профессионалов-математиков, примерно 88% статей имеют темы из разных разделов математики, остальные имеют отношение к физике и информатике.
2. Помимо, собственно, актуальности, хотелось бы выделить следующие особенности исходных текстов, которые никак не используются современными средствами для такого рода поиска:
а) Высокая структурированность.
От поиска документов можно (но не обязательно!) перейти к так называемому "семантическому поиску", в котором объектом поиска являются отдельные структурные элементы (формулировки теорем, определений, следствий, тексты доказательств). Получается немного другая парадигма как организации поиска, так и оценки результатов.
б) Наличие элементов математической нотации.
Где-то 80% исходных текстов составляют формулы и математические выражения. Возможно, тем, кто занимается распознаванием изображений будет интересна задача распознавания формул (в PDF хранятся как картинки). В частности, этим активно занимается японский проект Intfy:http://www.inftyproject.org/.
в) Естественная категоризация.
Каждая статья снабжена кодом или набором кодов УДК. Здесь возникают задачи пополнения терминологии или исследования методов кластеризации.
Кроме того, связность данной коллекции, поддержанная механизмом ссылок в списке литературы, низка. Очевидно, это влияет на успешность применения известных алгоритмов ранжирования, не зависимых от запроса.
3. Тема исследования информационных нужд математиков затрагивалась в немногочисленных академических работах, но, ясно, что для более точного формулирования поисковых задач необходима статистика запросов. Со слов Игоря Кураленка, такая статистика может быть получена на основе логов Яндекса. Я готов решать задачу классификации поисковых запросов, имеющих отношение к математической предметной области, для получения репрезентативной выборки.
4. Опять-таки из личных бесед, организаторы РОМИП упоминали про возможность подключения преподавателй из СпбГУ.
Кому-нибудь интересно данное предложение?
----------------
Никита Жильцов
-----------------------------------------------------------------------
Лаборатория математической и компьютерной
лингвистики НИИММ им. Н.Г. Чеботарева КФУ -
http://cll.niimm.ksu.ru/cms/lang/ru/main/people/zhiltsov
-----------------------------------------------------------------------
хотелось бы поддержать одну из идей, высказанных Борисом Викторовичем на пленарном заседании семинара РОМИП'10. Текущее конкретное предложение содержит следующие аспекты:
1. Информация об имеющейся коллекции.
2. Специфика задачи поиска математических научных публикаций.
3. Получение статистики запросов.
4. Ассесоры.
1. В нашем распоряжении есть коллекция журнала "Известия вузов. Математика" 1997-2009 гг. - 1355 статей, каждая в формате LaTeX и PDF.
Это статьи профессионалов-математиков, примерно 88% статей имеют темы из разных разделов математики, остальные имеют отношение к физике и информатике.
2. Помимо, собственно, актуальности, хотелось бы выделить следующие особенности исходных текстов, которые никак не используются современными средствами для такого рода поиска:
а) Высокая структурированность.
От поиска документов можно (но не обязательно!) перейти к так называемому "семантическому поиску", в котором объектом поиска являются отдельные структурные элементы (формулировки теорем, определений, следствий, тексты доказательств). Получается немного другая парадигма как организации поиска, так и оценки результатов.
б) Наличие элементов математической нотации.
Где-то 80% исходных текстов составляют формулы и математические выражения. Возможно, тем, кто занимается распознаванием изображений будет интересна задача распознавания формул (в PDF хранятся как картинки). В частности, этим активно занимается японский проект Intfy:http://www.inftyproject.org/.
в) Естественная категоризация.
Каждая статья снабжена кодом или набором кодов УДК. Здесь возникают задачи пополнения терминологии или исследования методов кластеризации.
Кроме того, связность данной коллекции, поддержанная механизмом ссылок в списке литературы, низка. Очевидно, это влияет на успешность применения известных алгоритмов ранжирования, не зависимых от запроса.
3. Тема исследования информационных нужд математиков затрагивалась в немногочисленных академических работах, но, ясно, что для более точного формулирования поисковых задач необходима статистика запросов. Со слов Игоря Кураленка, такая статистика может быть получена на основе логов Яндекса. Я готов решать задачу классификации поисковых запросов, имеющих отношение к математической предметной области, для получения репрезентативной выборки.
4. Опять-таки из личных бесед, организаторы РОМИП упоминали про возможность подключения преподавателй из СпбГУ.
Кому-нибудь интересно данное предложение?
----------------
Никита Жильцов
-----------------------------------------------------------------------
Лаборатория математической и компьютерной
лингвистики НИИММ им. Н.Г. Чеботарева КФУ -
http://cll.niimm.ksu.ru/cms/lang/ru/main/people/zhiltsov
-----------------------------------------------------------------------