romip.ru

by **tikhonov** » Fri Sep 05, 2003 12:06 pm

Добрый день!
═
При визуальной оценке сайтов возник следующий вопрос:
Есть некоторое количество сайтов, отображаемая информация которых не относится к выбранной теме,
но внутри html разметки (в источнике) есть текст, содержащий ключевые слова данной рубрики.
Значит системы классификации могут отнести данные сайты к выбранной рубрике, а оценщики сайтов никак нет.
Будет ли это как-нибудь учитываться в результатах?
═
С уважением,
Тихонов Алексей.

by **neigor** » Fri Sep 05, 2003 1:38 pm

Добрый день,

вы вероятно имеете ввиду спам, который конечно есть в данных
из-за плохо контролируемого происхождения информации.

я не думаю, что мы это как-то специально будем оценивать.
По крайней мере не в этот цикл.

Однако ничто не мешает учитывать это позже, при расширенном анализе
результатов.

Вообще (но это мое личное мнение

идеальная система классификации
должна понимать, что такие случаи на самом деле не релевантны.

Обращаю ваше внимание, что оценщик никак не должен думать о ключевых словах
(и по хорошему знать что-то о результатах какой-либо конкретной системы).
Его роль - иммитировать пользователя, которому важно сделать подборку
документов на заданную тему, а не разобраться почему система так себя ведет

-igor

by **tikhonov** » Mon Sep 08, 2003 1:03 pm

Добрый день!

Мы говорили не о спаме, а о включении в исходные тексты анализируемых сайтов
текстовых фрагментов на русском языке, которые не визуализируются браузерами
и
используемом в эксперименте инструментом.
Наличие таких фрагментов не может не учитываться автоматизированными
системами анализа документов
(поскольку наличие таких фрагментов априоре не было оговорено,
более того - документы анализировались как они есть, без предварительной
фильтрации).
Одновременно, указанные фрагменты не могут быть обнаружены человеком -
оценщиком сайтов.
Представляется, что число сайтов с такими фрагментами достаточно велико (для
некоторых из обработанных нами рубрик мы можем привести примеры). В
результате системы, участвовавшие в эксперименте вычислительные системы и
оценщики работают с разными коллекциями документов.
Возникает вопрос: оценки чего мы получим в конце эксперимента?

С уважением,
Тихонов Алексей.

by **maxgubin** » Mon Sep 08, 2003 1:23 pm

Добрый день!
Алексей, на Ваш вопрос нет правильного ответа. Пока никто на свете не
знает, какую погрешность вносят особенности разбора html вашего
инструмента и его отличия в этом от инструментария оценщиков. Можно
считать это систематической ошибкой. Когда получите результаты сравните
для разделов классификатора где, по вашему, этот эффект наблюдался с
теми, где нет, и узнаете насколько это критично. В следующем году, если
окажется критично, придумаете как компенсировать :).

Максим Губин
max@...

by **neigor** » Mon Sep 08, 2003 1:33 pm

То есть эти фрагменты настолько отличаются от показываемого текста
документа,
что оценщик может изменить свое решение о принадлежности к рассматриваемой
теме?

Авторы создавали эти фрагменты намерено, чтобы их не мог увидеть
пользователь или оценщик их не видит из-за ограничений инструмента?

Приведите, пожалуйста, хотя бы 1-2 примера.

В любом случае, это конечно внесет какой-то шум в результаты -
вопрос в том, насколько он будет велик.

-igor

by **tikhonov** » Mon Sep 08, 2003 2:57 pm

Да, более того иногда этот скрытый текст - единственный текст на сайте.
см. примеры:

рубрика 106
bugatti.narod.ru
oooooh.narod.ru

Такие фрагменты принципиально не видны для браузера или для инструмента
оценщиков
(инструмент в данном аспекте является аналогом браузера), так как они
располагаются
вне тела разметки (т.е в тэгах , либо вообще вне разметки.

Шум будет велик ровно настолько, насколько эти ситуации распространены.
Чтобы исключить этот шум нужно либо исключить из рассмотрения такие сайты
либо изменить процедуру оценки
(например, используемый всеми оценщиками инструмент должен отображать весь
текст документа).

С уважением,
Тихонов Алексей.

by **tikhonov** » Mon Sep 08, 2003 3:06 pm

Максим,
мы не обсуждаем погрешность, которую вносит наш инструмент,
никакого нашего инструмента нет - мы используем инструмент,
распространенный организаторами.
Мы пытаемся обсудить погрешности организации эксперимента.
Ваше предложение о сравнении результатов для разных разделов классификатора
очень интересно,
но мы не знаем, в каких разделах этот эффект не наблюдался.

С уважением,
Тихонов Алексей.

by **maxgubin** » Mon Sep 08, 2003 3:36 pm

Алексей,
>мы не обсуждаем погрешность, которую вносит наш инструмент,

я имел в виду инструмент - систему, которая производила классификацию.
На самом деле, не оценщики должны подстраиваться под систему, а система
под оценщиков. Ведь оценщики моделируют пользователей. Представьте себе,
что оцениваемая система реально стоит в и-нете и Вася Пупкин ей
пользуется. Если он увидит пустую страницу, то он не будет грешить на
IE, а скажет "и чего они в этот каталог наложили, сплошной мусор". И
разработчики софта, который занимается классификацией быстро научаться
снижать вес META тагов, игнорировать комментарии и даже разбирать
JavaScript. Так что IMHO эксперимент достаточно чистый.

Максим

by **neigor** » Mon Sep 08, 2003 3:37 pm

Как только будет закончена процедура оценки и мы сможем получить списки
сайтов, которые оценщики отнесли к темам, то станет ясно где
это расходится с резульатами каждой конкретной системы.

Вероятно, большинство участников будет анализировать причины этого
расхождения. Можно попробовать договориться (например, при общей очной
встрече о том, что информация о найденных проблемных классах документов
(структурно, а не семантически) накапливалась централизовано.

Кстати, (я правда не успел посмотреть примеры) похоже что привелденные вами
случаи - когда есть текст в meta или комментариях лекго можно обнаружить
модифицировав парсер html так чтобы он оставлял только такой текст или
наоборот брал все остальное. Сравнение результатов классификации этих
двух вариантов должно дать возможность _автоматически_ определить долю
документов для которых эта информация оказывает влияние.

Вообще говоря я лично не уверен, что если в документе есть ценная скрытая
информация, то это делает релевантным теме. По идее система ориентирована на
удовлетворение потребностей пользователя, а для пользователя такой документ
малополезен. Это конечно обсуждаемо

, но в любом случае сейчас уже поздно
менять процедуру на этот год, поскольку оценка уже почти завершена.

Однако, эту и другие связанные с процедурой оценки проблемы необходимо будет
обсудить (и проголосовать за решение) при подговке следующего годового цикла.

-igor

romip.ru

Классификация сайтов

Re: [romip] Классификация сайтов

Re: [romip] Классификация сайтов

RE: [romip] Классификация сайтов

Re: [romip] Классификация сайтов

Re: [romip] Классификация сайтов

Re: [romip] Классификация сайтов

RE: [romip] Классификация сайтов

Re: [romip] Классификация сайтов

Who is online