
|  |
Тестовые коллекции РОМИП
Нами были подготовлены следующие тестовые коллекции:
-
Веб коллекция Narod.ru 2003
Псевдослучайная выборка сайтов из домена narod.ru объемом 728 000
документов.
-
Веб коллекция KM.ru 2007
Копия мультипортала www.km.ru объемом 3 000 000 документов.
-
Веб коллекция BY.web 2007
Коллекция представляет собой выборку из страниц домена .by,
присутствовавших в индексе поисковой системы Яндекс по состоянию на май 2007 года
-
Веб коллекция DMOZ 2003
Колекция, созданная на основе русскоязычной части
каталоа dmoz.org с целью получения разумного
обучающего множества для задачи классификации Веб-сайтов и Веб-страниц.
-
Коллекция нормативных документов 2004
Коллекция нормативно-правовых документов законодательства
Российской Федерации, сформированная в 2004 году.
-
Коллекция нормативных документов 2007
Коллекция нормативно-правовых документов законодательства
Российской Федерации, сформированная в 2007 году.
-
Новостная коллекция 2006
Набор, содержащий новостные сообщения из 25 источников и охватывающий 3 временных
интервала (около 31 500 документов).
-
Коллекция изображений Flickr 2008
Коллекция сформированна в 2008 году и представляет собой подмножество коллекции
Flickr.
-
Коллекция нечетких дубликатов изображений 2008
Коллекция сформирована в 2008 году и содержит довольно много
естественных дублей, а также изображений низкого качества.
-
Коллекция отзывов о фильмах с оценками пользователей 2011
Коллекция предоставлена рекомендательным порталом Имхонет в 2011 году и содержит отзывы о фильмах
различного жанра.
-
Коллекция отзывов о книгах с оценками пользователей 2011
Коллекция предоставлена рекомендательным порталом Имхонет в 2011 году и содержит отзывы о книгах
различного жанра.
-
Коллекция отзывов о цифровых фотокамерах с оценками пользователей 2011
Коллекция сформирована в 2011 году и содержит отзывы о цифровых фотокамерах, оставленных пользователями на Яндекс.Маркете.
-
Коллекция цитат из новостного потока с разметкой по оценочной тональности 2012 (NEW)
Коллекция сформирована в 2012 году и содержит фрагменты новостных документов, состоящих из прямой или косвенной речи. Каждый фрагмент оценен по тональности высказывания.
-
Коллекция представляет собой набор текстов из блогов с разметкой по оценочной тональности 2012 (NEW)
Каждый текст относится к одной из трех тематик: книги, фильмы или цифровые фотокамеры. Дополнительно для каждого текста выделены объекты, о которых идет речь (главные и второстепенные).
-
Словарь оценочной лексики для области товаров (NEW)
Данный словарь содержит список оценочных слов, извлеченных из коллекций отзывов в нескольких предметных областях (фильмы, книги, игры, телефоны, камеры).
При использовании словаря просьба ссылаться на работу:
[Chetviorkin I. and Loukachevitch N. Extraction of Russian Sentiment Lexicon for Product Meta-Domain; In Proceedings of COLING 2012: Technical Papers, pages 593-610].
Словарь находится в свободном доступе для некоммерческого применения.
|