Page 1 of 1

PostPosted: Tue Sep 09, 2003 1:24 pm
by tikhonov
Коллеги!

В ходе оценки принадлежности сайтов к тематическим категориям
мы выявили, что значительный процент (до 40-50%) документов из обучающей
выборки
реально не принадлежит к той тематической рубрике, образцами которой они
должны были являться.

Это особенно бросается в глаза в тех случаях, когда содержание рубрики
разъяснено дополнительным текстом,
например, рубрика 106 "Реклама и маркетинг".

Планируется ли (если да, то каким образом) учитывать наличие некачественных
образцов в обучающей выборке при окончательной оценке результатов?

С уважением,
Тихонов Алексей.

PostPosted: Tue Sep 09, 2003 2:38 pm
by dobroff2003
Alex Tikhonov wrote:
>
> Коллеги!
>
> В ходе оценки принадлежности сайтов к тематическим категориям
> мы выявили, что значительный процент (до 40-50%) документов из обучающей
> выборки
> реально не принадлежит к той тематической рубрике, образцами которой они
> должны были являться.
>
> Это особенно бросается в глаза в тех случаях, когда содержание рубрики
> разъяснено дополнительным текстом,
> например, рубрика 106 "Реклама и маркетинг".
>
> Планируется ли (если да, то каким образом) учитывать наличие некачественных
> образцов в обучающей выборке при окончательной оценке результатов?
>
> С уважением,
> Тихонов Алексей.
>

Проблема "неправильности" обучающей коллекции носит фундаментальный
характер,
то есть в жизни для больших рубрикаторов и приличного размера коллекций
результаты работы экспертов ВСЕГДА противоречивы в той или иной мере
(обычно, в очень значительной).

---------

На мой взгляд, последние обсуждения свидетельствуют, что есть точка
зрения -
"победить" в РОМИП.
Конечно, в РОМИП сравниваются разные подходы, но ведь разные участники
решают
и разные задачи (кто-то с учетом внутренних тэгов, кто-то без).
Лучше сразу настраиваться и на разную интерпретацию результатов.

"Победа" в РОМИП не принесет (и не должна по манифесту) приносить денег
напрямую.

Выгрыш в большем понимании.

Важно именно понимать, что если для одной задачи применить действие А,
то будет хорошо на столько-то процентов, а для другой задачи то же самое
действие будет хуже на столько-то процентов.

Можно исследовать какие-то характеристики методов классификации для
"чистой" выборки,
если предполагать, что кто-то ее будет чистить, либо решать задачу в
практических условиях.
Это ДВЕ задачи.

Точнее, выгрыш РОМИП (TREC,CLEF и т.п.) в том, что часть
работы/исследования делает за вас кто-то другой. И всем вместе
становится лучше.

Сейчас, при всех проблемах первого РОМИП, наиболее важно, по-моему,
понять что же мы на самом деле делаем и получить "base line".


С уважением,
Борис Добров

Re: [romip] Качество обучающей выборки

PostPosted: Wed Sep 10, 2003 11:38 am
by tikhonov
Борис,
"Точки зрения победителей" - нет и не может быть в научном исследовании.
Мы обсуждали степень научности исследования, в котором участвуем.
Нам тоже представляется, что проблема неправильности обучающей выборки имеет
фундаментальный характер.
Это связано, прежде всего, с относительно невысокой воспроизводимостью
решения человеком задач тематической или смысловой классификации документов.
Хорошо известно, что при повторном решении таких задач в рамках объемных
коллекциях текстовых документов воспроизводимость классификации составляет
максимум 80-85%.

Однако наше исходное письмо было посвящено другой проблеме:
включение в обучающую выборку документов, которые ни один эксперт не отнесет
к теме, для которой формируется соответствующая обучающая выборка. Мы не
видим здесь фундаментальной проблемы, создается впечатление, что обучающие
выборки вообще не проходили никакого экспертного контроля. В этой ситуации
хотелось бы (для того, чтобы все исследование было не бесполезно) учесть
наличие явных ошибок обучающей выборки.

С уважением,
Тихонов Алексей.

Re: [romip] Качество обучающей выборки

PostPosted: Wed Sep 10, 2003 12:20 pm
by neigor
Алексей,

мы действительно не проводили дополнительного контроля качества выборки, а
каталог narod.ru вроде бы формируется в основном самими авторами страниц.
Поэтому неудивительно, что там есть мусор и имено поэтому мы включили
ресурсы из обучающей выборки в задачи для ассесоров.

На мой взгляд, главным выходом будет не итоговая оценка (как бы ее не
считать), а списки релевантных документов/сайтов. Имея эти списки
можно будет повторить эксперимент на более чистой выборке и
оценить эффект от шума (в этом случае для оценки могут быть использованы уже
полученные таблицы).

Честно говоря я не очень хорошо представляю как правильно учитывать
степень "зашумленности" категории (которую можно оценить, как
долю документов из обучающего набора, которая не была отнесена экспертами
к этой категории при проверке) при вычислени интегральной оценки.

Если есть идеи - дайте знать. Вычислить еще одну иинтегральную оценку - это
не проблема. Какие оцени наиболее адекватны - это открытый вопрос,
его можно и нужно исследовать.

-igor

Re: [romip] Качество обучающей выборки

PostPosted: Wed Sep 10, 2003 1:36 pm
by segalovich
Здравствуйте.

Хотелось бы подать небольшую реплику.

Alex Tikhonov wrote:

> Мы не
> видим здесь фундаментальной проблемы, создается впечатление, что обучающие
> выборки вообще не проходили никакого экспертного контроля.

Это не совсем так. Экспертный контроль они проходят.
Редакторы Народного каталога в обязательном порядке
модерируют все заявки.

Кроме того на Каталог "народных" сайтов еженедельно
заходят около 35 тысяч IP. Это не очень много, но все же
хоть какая-то обратная связь. И явные ошибки обычно исправляются.

Экспертные оценки, получаемые таким образом, - "модерируемый
самоввод" - неотъемлемая часть многих (если не всех)
Интернет-Каталогов. Yahoo и Open Directory работают по очень похожей
схеме, хоть и чуть-чуть по-разному.

Безусловно Интернет - среда, не подвергаемая 100%-ному
экспертному контролю. Мы это прекрасно понимали с самого начала и
думали, что все предупреждены. Более того, эта задача возникла
в последний момент, когда остальные варианты организовать
получение "чистой" размеченной выборки сорвались.

В этой ситуации
> хотелось бы (для того, чтобы все исследование было не бесполезно) учесть
> наличие явных ошибок обучающей выборки.
>
> С уважением,
> Тихонов Алексей.

С уважением,
Илья Сегалович