обучающая выборка для дорожки классификации

Классификация нормативно-правовых документов, веб-сайтов и веб-страниц

обучающая выборка для дорожки классификации

Postby neigor » Sun Mar 16, 2003 11:20 pm

Добрый день всем,

Категорий второго уровня в каталоге narod - 164, но не все они одинаково
хорошо представлены в базовой коллекции.
Статистика распределения количества доступных примеров приведена в конце
письма.

Собственно вопрос - что мы можен/должны сделать чтобы довести выборку до ума.

что такое хорошая выборка? на наш взгляд это
1) достаточное для обучения классификатора представление каждой из
категорий
2) реалистичная с точки зрения практических ситуаций

есть еще вопрос качества примеров, но поскольку мы моделируем реальную
задачу, то примеры берем те которые есть в реальной ситуации
со всеми их недостатками и достоинствами.

механизмов вносить исправления у нас два:
- добавить примеров в категории
(если они есть в исходном каталоге)
- выкидывать категории
(не только экономя место, но также и делая таксономию менее
расплывчатой (довольно много категорий многообещающе назвается "другое")

понятно что 0 примеров явно недостаточно для обучения, но сколько минимально
необходимо?

Должно ли быть число обучающих примеров одинаковым для всех
категорий, отражать распределение по полному каталогу (в категории A
примеров должно быть в 2 раза меньше B) или надо брать все что есть?

какие есть соображения?

-igor

p.s.
Обещанная выше статистика (первое число - это число примеров, второе - число
категорий для которых есть такое число примеров).
Более подробная информация -
http://groups.yahoo.com/group/romip/files/training_set.txt

0: 6
1: 11
2: 17
3: 14
4: 13
5: 9
6: 10
7: 11
8: 6
9: 4
10: 9
11: 5
12: 6
14: 5
15: 4
16: 1
17: 3
18: 5
19: 2
20: 2
21: 2
23: 1
24: 2
26: 2
28: 1
29: 1
30: 1
31: 1
32: 2
34: 2
39: 1
40: 1
42: 1
44: 1
75: 1
80: 1
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Return to Тематическая классификация

Who is online

Users browsing this forum: No registered users and 14 guests

cron