Page 1 of 1

Дорожка по классификации

PostPosted: Sat Feb 08, 2003 5:00 pm
by neigor
Добрый день,

этот текст является первой рабочей версией обсуждавшихся ранее возможностей
по организации дорожки классификации.

Описываемый подход обусловлен доступностью набора данных и обучающей выборки.
Безусловно этот подход не лишен недостатков и не является единственно
возможным - мы будем рады узнать ваше мнение и обсудить альтернативы.

-igor

======================================
Дорожка по классификации текстовой информации

Задан список категорий, обучающая выборка и множество сайтов (не
документов!). Надо присвоить каждому из сайтов коллекции категорию из
этого списка с учетом обучающей выборки.

Условия игры

Основой является та же коллекция narod.ru, что и для дорожки поиска
по запросу.

Множество классов формируется на основе каталога narod.ru
(http://narod.yandex.ru/rubrics/). Там 16 категорий 1-го уровня и
примерно 60-70 категорий второго уровня.

Обучающая выборка - сайты уже входящие в каталог narod.ru, которые
попали в колекцию narod.ru используемую РОМИП.

Оценка

Варианты оценки результатов классификации:
1. в наборе спрятаны заранее классифицированне ресурсы, проверяем
правильность их классификации (аппроксимируем точность).
проблемы: откуда их брать? если отбирать случайно и
классифицировать вручную, то как обеспечить разумность выборки (и
какой у нее должен быть размер?) Сложная постановка задачи для
эксперта (выбрать наилучшую категорию).
2. Выбирается (случайным образом) несколько (заранее неизвестных)
категорий и проверяются все сайты, которым хотя бы отдна из систем
присвоила одну из этих категорий. Количество проверяемых категорий
(2-3-4-5-10) зависит от объема доступных ресурсов.
При 50 категориях и 5000 сайтов ожидаемый размер "общей кучи" для
категории примерно 5000/50*sqrt(число участников), то есть
200-300.

Комментарии:

* Это задача классификации сайтов, не документов.
* Можно ли присваивать сайту 0 или >1 категории?
* Каков размер обучающей выборки? Порядка 200 примеров на 70
классов??
* Часть сайтов будет вне используемого рубрикатора - классическая
задача классификации не подразумевает наличие мусора. (это может
смазать не только абсолютные цифры, но и относительные - разные
системы могут присваивать мусору разные категории, и если
проверяется только часть категорий, то у соответствующей части
систем будут заниженные результаты.
* Подход к оценке с использованием общих куч для категорий позволяет
аппроксимировать не только точность, но и полноту (но насколько
хорошо??).

Ссылки

1. http://yahoogroups.com/group/romip
2. http://romip.narod.ru/adhoc-narod.html

Дорожка по классификации

PostPosted: Fri May 23, 2003 8:26 am
by vladimir_pleshko
Уважаемые коллеги, может ли кто дать пояснения
по subj.

1. Какое количество категорий допускается присваивать
сайту? В тренировочном наборе есть много сайтов
с тремя категориями.

2. Нигде не нашел формата представления результатов
прогона на
тестовом наборе.

Re: [romip] Дорожка по классификации

PostPosted: Fri May 23, 2003 8:43 am
by neigor
> 1. Какое количество категорий допускается присваивать
> сайту? В тренировочном наборе есть много сайтов
> с тремя категориями.

это на самом деле немного туманное место.
Исходно преполагалось что 1 документу будт соответствовать 1 категория,
но потом оказалось, что в реальности тестовый набор не такой
(что на самом деле хорошо :)

поэтому, я предлагаю присваивать ранжированный список категорий
(до 3-5)

А на этапе вычисления оценок рассматривать несколько метрик,
характеризующих разное количество первых кандидатур

Это вряд ли раздует сильно объем оцениваемого набора документов

Есть ли альтернативные предложения?

> 2. Нигде не нашел формата представления результатов
> прогона на
> тестовом наборе.

ой, забыли опубликовать
сделаем за выходные и выложим

-igor