Вопрос
Posted: Tue Jun 22, 2010 3:34 pm
Добрый день,
Извините, я не совсем корректно ответил на исходный вопрос.
При оценке обычно оценивается подмножество тематик, общее для
БОЛЬШИНСТВА
систем.
Тематики выбираются независимо от количества участников отнесших к ним
документы.
Мы обычно исключаем тематики с очень маленьким обучающим множеством и
те где результаты есть только для одного-двух участников. Или оставляем
их в виде небольшой добавки.
Неоценивавшиеся тематики не влияют на расчитываюмую точность.
Если вашему классификатору легче работать с менее зашумленным
множеством - вы конечно можете сужать набор тематик
(есть риск что друние участники вернут результаты для этих категорий и
тогда у вашей системы будет нулевая точность по этим категориям)
Обратите внимание, что вы можете использовать таблицы релевантности
прошлых лет для предварительной оценки
и даже дополнительного обучения.
-igor
On 6/22/10 3:44 AM, Александр Салтыков wrote:
Вы ранее
сказали, что в оценке будут участвовать только те документы, которые
входят в пересечение всех тематик присланных участниками.
Извините, я не совсем корректно ответил на исходный вопрос.
При оценке обычно оценивается подмножество тематик, общее для
БОЛЬШИНСТВА
систем.
Тематики выбираются независимо от количества участников отнесших к ним
документы.
Мы обычно исключаем тематики с очень маленьким обучающим множеством и
те где результаты есть только для одного-двух участников. Или оставляем
их в виде небольшой добавки.
Отсюда
вопрос – получается, что можно повышать точность рубрикации выкидывая
заведомо плохо обученные тематики?
Неоценивавшиеся тематики не влияют на расчитываюмую точность.
Если вашему классификатору легче работать с менее зашумленным
множеством - вы конечно можете сужать набор тематик
(есть риск что друние участники вернут результаты для этих категорий и
тогда у вашей системы будет нулевая точность по этим категориям)
Обратите внимание, что вы можете использовать таблицы релевантности
прошлых лет для предварительной оценки
и даже дополнительного обучения.
-igor
On 6/22/10 3:44 AM, Александр Салтыков wrote:
Добрый день!
Есть
вопрос по классификации страниц:
Вы ранее
сказали, что в оценке будут участвовать только те документы, которые
входят в пересечение всех тематик присланных участниками.
Отсюда
вопрос – получается, что можно повышать точность рубрикации выкидывая
заведомо плохо обученные тематики?