> Если из сильно несбалансированной коллекции для каждой рубрики═ выбрано одинаковое количество примеров, то полученная задача классификации, на мой взгляд, будет далека от реальной жизни.
Если я правильно понял, то мотивация:
правильно отнесенные документы маленького класса не должны быть задавлены ошибочно отнесенными документами здоровых классов.
Перефразировка. Пусть A- любой, напр, мелкий, класс, а все остальные -- {1,2,══ k} Хочется чтобы число правильно опознанных в классе A -- N(A)P(A|A) было “не меньше” (не много меньше, гораздо больше) числа отнесенных к A по ошибке -- ═N(1)P(A|1))+ N(2)P(A|2) + ... + N(k)P(A|k), где N(i) – объем класса в реальности. И так для каждого класса A=1, … k.
Это пожелание -- про СОГЛАСОВАННЫЕ ВЕРОЯТНОСТИ ОТНЕСЕНИЯ, которые, да, должны подбираться с учетом (кстати, меняющегося) объема классов в реальности.
Но из него никак не следует необходимость пропорционального представительства классов в обучающей выборке.
═
2. Про штрафы за ошибочное отнесение “вовне” и отнесение “к”
>1) Возникает естественный вопрос: а что является отрицательными примерами?> 2) Можно ли утверждать, что если документ приписан рубрике А, но не приписан рубрике Б, то он не принадлежит рубрике Б?
═
Да, было бы хорошо, если бы хотя бы часть документов была помечена в несколько-значной шкале типа “точно, что документ относится к классам A и B, допустимо к C, ни в коем случае к D. Даже, если мы пока в действительности не умеем (хорошо) работать с такими маркировками.
----- Original Message -----
From: Mikhail Ageev
To: romip@yahoogroups.com
Sent: Monday, June 09, 2008 8:58 PM
Subject: [romip] классификация нормативных документов: обучающая коллекция
Добрый день!При изучении задания для дорожки классификации нормативных документоввозникли некоторые вопросы.Как мы видим, задание состоит из файла legal2008_training.xml, вкотором для каждой категории перечислены документы - положительныепримеры для классификации.При этом для каждой категории перечислены ровно 49 или 50 положительныхпримеров.1) Возникает естественный вопрос: а что является отрицательными══ примерами?2) Можно ли утверждать, что если документ приписан рубрике А, но не══ приписан рубрике Б, то он не принадлежит рубрике Б?3) В среднем мы получаем 1.2 рубрики на документ. IMHO, это сильно══ отличается от характерных значений для коллекции нормативных актов.══ Почему?Если из сильно несбалансированной коллекции для каждой рубрикивыбрано одинаковое количество примеров, то полученная задачаклассификации, на мой взгляд, будет далека от реальной жизни.Возможно, для других дорожек могут возникнуть аналогичные вопросы,поэтому хотелось бы получить комментарии - как формировалась обучающаявыборка для каждой из дорожек?С уважением,Михаил Агеев.------------------------------------Yahoo! Groups Links To visit your group on the web, go to:═══ http://groups.yahoo.com/group/romip/ Your email settings:═══ Individual Email | Traditional To change settings online go to:═══ http://groups.yahoo.com/group/romip/join═══ (Yahoo! ID required) To change settings via email:═══ mailto:romip-digest@yahoogroups.com ═══ mailto:romip-fullfeatured@yahoogroups.com To unsubscribe from this group, send an email to:═══ romip-unsubscribe@yahoogroups.com Your use of Yahoo! Groups is subject to:═══ http://docs.yahoo.com/info/terms/