Добрый день!
Вероятно мы не поняли друг друга.
Меня интересует другая дорожка – классификация
сайтов.
Каким образом будут выбираться тематики при
оценке качества
классификации САЙТОВ? Для каждого сайта можно указать до пяти тематик.
Интересует, как будут из этих пяти выбираться тематики для оценки:
случайно,
или приоритет будет отдаваться тем, которые выше в списке. В первом
случае
будут актуальны более короткие списки из наиболее вероятных тематик, во
втором
списки всегда из пяти тематик, отсортированных в порядке убыванию
близости.
From:
Igor Nekrestyanov
[mailto:romip@...]
Sent: Thursday, July 01, 2010 7:36 PM
To: Александр Салтыков
Cc:
romip@yahoogroups.comSubject: Re: Вопрос
Добрый день,
примерный алгоритм такой:
- расчитываем пулы для всех тематик
- предварительно фильтруем список тематик
(обычно сводится к выкидыванию тематик где очень
маленькое обучающее множество, где никто не нашел документов)
-помечаем тематики которые оценивались ранее
- выбираем случайные наборы в 3-4-5 подтематик для каждой из
тематик верхнего уровня, так чтобы
- было некоторое пересечение с
прошлыми годами, но не слишком значительно
- не было слишком огромных
пулов (для дорожек где глубина ограничена это не важно)
- выбираем тематики первого уровня, тем самым фиксируя что
отобранные на предыдущем шаге
наборы тематик второго уровня
- стараясь контролировать повторение
тематик с прошлых лет (обычно ~25% повторения, но не больше)
- суммарный объем оценки должен
укладываться в планируемые трудозатраты
- всегда стараемся затронуть хотя бы
несколько плохо представленных ранее больших тем
-igor
On 6/29/10 3:37 AM, Александр Салтыков wrote:
Добрый день!
Появился вопрос по поводу оценки результатов
тематической
классификации сайтов.
Интересует, каким образом будут выбираться
тематики
относящиеся к сайту в набор для оценки асессорами?
Будет ли при этом отдаваться приоритет
тематикам, стоящим
выше, или тематики будут набираться в случайном порядке?
From:
Igor Nekrestyanov [mailto:romip@...]
Sent: Wednesday, June 23, 2010 7:46 PM
To: Александр Салтыков
Cc:
romip@yahoogroups.comSubject: Re: Вопрос
Ответы на этот и другие подобные вопросы есть в
описании
дорожки в отчетах за прошлые годы:
http://romip.ru/romip2009/01_organizers.pdfГлубина пула выбирается в зависимости от объема работ (числа прогонов и
их
пересечения) - мы вначале выбираем оцениваемые категории, потом
расчитываем
пулы на несколько разных контрольных значений и смотрим на
трудозатраты для оценки.
Для ориентира - в прошлые годы глубина была 50-75 документов.
Возращать документы дальше тоже имеет смысл - это одно из достоинств
совместной
оценки методом общего котла.
Если эти документы попадут в верхушку в другом прогоне,
то они будут оценены и вы получите приблизительную оценку для большей
глубины.
В ряде случаев покрытие "вблизи" верхушки получается довольно
плотное.
Но не надо возвращать миллион документов на категорию, достаточно
несколько сотен/тысяч.
Мы всего оцениваем сотни документов на категорию, так что для
значительно
большего числа документов
не может быть плотного покрытия,
-igor
On 6/23/10 1:49 AM, Александр Салтыков wrote:
Вы не совсем правильно меня поняли.
Вы писали 10.06:
> 4. В результатах для классификации
сайтов нужно
для каждой тематики предоставить список документов, отсортированный в
порядке
убывания близости к тематике. Правильно ли я понимаю, что в списке
должны быть
не все документы, а только те, для которых данная тематика наиболее
вероятная.
>
да не все,
идея в том чтобы сюда включались то что
классификатор
считает относящимся к тематике, но проверить все страницы невозможно
(иногда
такие списки состоят из сотен тысяч документов)
в оценке учитывается только верхушка списка
Хотелось бы узнать примерный размер этой
верхушки списка и
мотивацию того, зачем нам присылать для каждой тематики список больше
размера этой верхушки? Учтется ли это дополнительно при оценке?
Например,
если асессоры найдут документы данной тематики в коллекции других
участников и
эти документы будут за пределами верхушки, но в списке относящемся к
данной
тематике в наших результатах.
From:
Igor Nekrestyanov [mailto:romip@...]
Sent: Tuesday, June 22, 2010 7:35 PM
To: Александр Салтыков
Cc:
romip@yahoogroups.comSubject: Re: Вопрос
Добрый день,
Вы
ранее сказали, что в оценке будут участвовать только те документы,
которые
входят в пересечение всех тематик присланных участниками.
Извините, я не совсем корректно ответил на
исходный вопрос.
При оценке обычно оценивается подмножество тематик, общее для
БОЛЬШИНСТВА
систем.
Тематики выбираются независимо от количества участников отнесших к ним
документы.
Мы обычно исключаем тематики с очень маленьким обучающим множеством и
те где
результаты есть только для одного-двух участников. Или оставляем их в
виде
небольшой добавки.
Отсюда
вопрос – получается, что можно повышать точность рубрикации выкидывая
заведомо
плохо обученные тематики?
Неоценивавшиеся тематики не влияют на
расчитываюмую
точность.
Если вашему классификатору легче работать с менее зашумленным
множеством - вы
конечно можете сужать набор тематик
(есть риск что друние участники вернут результаты для этих категорий и
тогда у
вашей системы будет нулевая точность по этим категориям)
Обратите внимание, что вы можете использовать таблицы релевантности
прошлых лет
для предварительной оценки
и даже дополнительного обучения.
-igor
On 6/22/10 3:44 AM, Александр Салтыков wrote:
Добрый день!
Есть
вопрос по классификации страниц:
Вы ранее
сказали, что в оценке будут участвовать только те документы, которые
входят в пересечение всех тематик присланных участниками.
Отсюда
вопрос – получается, что можно повышать точность рубрикации выкидывая
заведомо плохо обученные тематики?