by dobroff2003 » Tue Sep 09, 2003 2:38 pm
Alex Tikhonov wrote:
>
> Коллеги!
>
> В ходе оценки принадлежности сайтов к тематическим категориям
> мы выявили, что значительный процент (до 40-50%) документов из обучающей
> выборки
> реально не принадлежит к той тематической рубрике, образцами которой они
> должны были являться.
>
> Это особенно бросается в глаза в тех случаях, когда содержание рубрики
> разъяснено дополнительным текстом,
> например, рубрика 106 "Реклама и маркетинг".
>
> Планируется ли (если да, то каким образом) учитывать наличие некачественных
> образцов в обучающей выборке при окончательной оценке результатов?
>
> С уважением,
> Тихонов Алексей.
>
Проблема "неправильности" обучающей коллекции носит фундаментальный
характер,
то есть в жизни для больших рубрикаторов и приличного размера коллекций
результаты работы экспертов ВСЕГДА противоречивы в той или иной мере
(обычно, в очень значительной).
---------
На мой взгляд, последние обсуждения свидетельствуют, что есть точка
зрения -
"победить" в РОМИП.
Конечно, в РОМИП сравниваются разные подходы, но ведь разные участники
решают
и разные задачи (кто-то с учетом внутренних тэгов, кто-то без).
Лучше сразу настраиваться и на разную интерпретацию результатов.
"Победа" в РОМИП не принесет (и не должна по манифесту) приносить денег
напрямую.
Выгрыш в большем понимании.
Важно именно понимать, что если для одной задачи применить действие А,
то будет хорошо на столько-то процентов, а для другой задачи то же самое
действие будет хуже на столько-то процентов.
Можно исследовать какие-то характеристики методов классификации для
"чистой" выборки,
если предполагать, что кто-то ее будет чистить, либо решать задачу в
практических условиях.
Это ДВЕ задачи.
Точнее, выгрыш РОМИП (TREC,CLEF и т.п.) в том, что часть
работы/исследования делает за вас кто-то другой. И всем вместе
становится лучше.
Сейчас, при всех проблемах первого РОМИП, наиболее важно, по-моему,
понять что же мы на самом деле делаем и получить "base line".
С уважением,
Борис Добров