Добрый день,
этот текст является первой рабочей версией обсуждавшихся ранее возможностей
по организации дорожки классификации.
Описываемый подход обусловлен доступностью набора данных и обучающей выборки.
Безусловно этот подход не лишен недостатков и не является единственно
возможным - мы будем рады узнать ваше мнение и обсудить альтернативы.
-igor
======================================
Дорожка по классификации текстовой информации
Задан список категорий, обучающая выборка и множество сайтов (не
документов!). Надо присвоить каждому из сайтов коллекции категорию из
этого списка с учетом обучающей выборки.
Условия игры
Основой является та же коллекция narod.ru, что и для дорожки поиска
по запросу.
Множество классов формируется на основе каталога narod.ru
(http://narod.yandex.ru/rubrics/). Там 16 категорий 1-го уровня и
примерно 60-70 категорий второго уровня.
Обучающая выборка - сайты уже входящие в каталог narod.ru, которые
попали в колекцию narod.ru используемую РОМИП.
Оценка
Варианты оценки результатов классификации:
1. в наборе спрятаны заранее классифицированне ресурсы, проверяем
правильность их классификации (аппроксимируем точность).
проблемы: откуда их брать? если отбирать случайно и
классифицировать вручную, то как обеспечить разумность выборки (и
какой у нее должен быть размер?) Сложная постановка задачи для
эксперта (выбрать наилучшую категорию).
2. Выбирается (случайным образом) несколько (заранее неизвестных)
категорий и проверяются все сайты, которым хотя бы отдна из систем
присвоила одну из этих категорий. Количество проверяемых категорий
(2-3-4-5-10) зависит от объема доступных ресурсов.
При 50 категориях и 5000 сайтов ожидаемый размер "общей кучи" для
категории примерно 5000/50*sqrt(число участников), то есть
200-300.
Комментарии:
* Это задача классификации сайтов, не документов.
* Можно ли присваивать сайту 0 или >1 категории?
* Каков размер обучающей выборки? Порядка 200 примеров на 70
классов??
* Часть сайтов будет вне используемого рубрикатора - классическая
задача классификации не подразумевает наличие мусора. (это может
смазать не только абсолютные цифры, но и относительные - разные
системы могут присваивать мусору разные категории, и если
проверяется только часть категорий, то у соответствующей части
систем будут заниженные результаты.
* Подход к оценке с использованием общих куч для категорий позволяет
аппроксимировать не только точность, но и полноту (но насколько
хорошо??).
Ссылки
1. http://yahoogroups.com/group/romip
2. http://romip.narod.ru/adhoc-narod.html