Вопрос

Классификация нормативно-правовых документов, веб-сайтов и веб-страниц

Вопрос

Postby neigor » Tue Jun 22, 2010 3:34 pm

Добрый день,
Вы ранее
сказали, что в оценке будут участвовать только те документы, которые
входят в пересечение всех тематик присланных участниками.

Извините, я не совсем корректно ответил на исходный вопрос.

При оценке обычно оценивается подмножество тематик, общее для
БОЛЬШИНСТВА
систем.

Тематики выбираются независимо от количества участников отнесших к ним
документы.
Мы обычно исключаем тематики с очень маленьким обучающим множеством и
те где результаты есть только для одного-двух участников. Или оставляем
их в виде небольшой добавки.

Отсюда
вопрос – получается, что можно повышать точность рубрикации выкидывая
заведомо плохо обученные тематики?

Неоценивавшиеся тематики не влияют на расчитываюмую точность.
Если вашему классификатору легче работать с менее зашумленным
множеством - вы конечно можете сужать набор тематик
(есть риск что друние участники вернут результаты для этих категорий и
тогда у вашей системы будет нулевая точность по этим категориям)

Обратите внимание, что вы можете использовать таблицы релевантности
прошлых лет для предварительной оценки
и даже дополнительного обучения.

-igor


On 6/22/10 3:44 AM, Александр Салтыков wrote:
 Добрый день!
Есть
вопрос по классификации страниц:
Вы ранее
сказали, что в оценке будут участвовать только те документы, которые
входят в пересечение всех тематик присланных участниками.
Отсюда
вопрос – получается, что можно повышать точность рубрикации выкидывая
заведомо плохо обученные тематики?
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: Вопрос

Postby neigor » Wed Jun 23, 2010 7:27 am

Александр, добрый день,

пожалуйста, задавайте вопросы, которые могут быть полезны и другим
участникам (все что касается правил) в форум.

Ранее Вы писали, что при оценке асессорами
используются TOP-5 документов из тематики.

Это наверное какая-то ошибка.
Вы наверное ссылаетесь на
   http://romip.ru/ru/2010/tracks/web-classification.html
где сказано, что " ответом является упорядоченный список (до 5
категорий) для каждого из классифицируемых сайтов".

Да, мы учитываем только пять первых категорий куда отнесен сайт.
Но конечно же мы не ограничиваем оценку пятью документами/сайтами на
категорию из одного прогона.

-igor


Вопрос:
Имеет ли смысл включать в результаты для
тематики более чем
5 относящихся к ней документов?



On 6/22/10 11:25 PM, Александр Салтыков wrote:







Добрый день!
Ранее Вы писали, что при оценке асессорами
используются TOP-5 документов из тематики.
Вопрос:
Имеет ли смысл включать в результаты для
тематики более чем
5 относящихся к ней документов?
 


From:
Igor Nekrestyanov
[mailto:romip@...]
Sent: Tuesday, June 22, 2010 7:35 PM
To: Александр Салтыков
Cc: romip@yahoogroups.com
Subject: Re: Вопрос


 
Добрый день,


Вы
ранее сказали, что в оценке будут участвовать только те документы,
которые
входят в пересечение всех тематик присланных участниками.
Извините, я не совсем корректно ответил на
исходный вопрос.

При оценке обычно оценивается подмножество тематик, общее для
БОЛЬШИНСТВА
систем.

Тематики выбираются независимо от количества участников отнесших к ним
документы.
Мы обычно исключаем тематики с очень маленьким обучающим множеством и
те где
результаты есть только для одного-двух участников. Или оставляем их в
виде
небольшой добавки.



Отсюда
вопрос – получается, что можно повышать точность рубрикации выкидывая
заведомо
плохо обученные тематики?
Неоценивавшиеся тематики не влияют на
расчитываюмую точность.

Если вашему классификатору легче работать с менее зашумленным
множеством - вы
конечно можете сужать набор тематик
(есть риск что друние участники вернут результаты для этих категорий и
тогда у
вашей системы будет нулевая точность по этим категориям)

Обратите внимание, что вы можете использовать таблицы релевантности
прошлых лет
для предварительной оценки
и даже дополнительного обучения.

-igor


On 6/22/10 3:44 AM, Александр Салтыков wrote:










 





 Добрый день!
Есть
вопрос по классификации страниц:
Вы ранее
сказали, что в оценке будут участвовать только те документы, которые
входят в пересечение всех тематик присланных участниками.
Отсюда
вопрос – получается, что можно повышать точность рубрикации выкидывая
заведомо плохо обученные тематики?







 










 

neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: Вопрос

Postby neigor » Wed Jun 23, 2010 3:46 pm

Ответы на этот и другие подобные вопросы есть в описании дорожки в
отчетах за прошлые годы: 
    http://romip.ru/romip2009/01_organizers.pdf

Глубина пула выбирается в зависимости от объема работ (числа прогонов и
их пересечения) - мы вначале выбираем оцениваемые категории, потом
расчитываем пулы на несколько разных контрольных значений и смотрим на
трудозатраты для оценки.

Для ориентира - в прошлые годы глубина была 50-75 документов.

Возращать документы дальше тоже имеет смысл - это одно из достоинств
совместной оценки методом общего котла.
Если эти документы попадут в верхушку в другом прогоне,
то они будут оценены и вы получите приблизительную оценку для большей
глубины.
В ряде случаев покрытие "вблизи" верхушки получается довольно плотное.

Но не надо возвращать миллион документов на категорию, достаточно
несколько сотен/тысяч.
Мы всего оцениваем сотни документов на категорию, так что для
значительно большего числа документов
не может быть плотного покрытия,

-igor

On 6/23/10 1:49 AM, Александр Салтыков wrote:







Вы не совсем правильно меня поняли.
Вы писали 10.06:
> 4. В результатах для классификации
сайтов нужно
для каждой тематики предоставить список документов, отсортированный в
порядке
убывания близости к тематике. Правильно ли я понимаю, что в списке
должны быть
не все документы, а только те, для которых данная тематика наиболее
вероятная.
>   
да не все,
идея в том чтобы сюда включались то что
классификатор
считает относящимся к тематике, но проверить все страницы невозможно
(иногда
такие списки состоят из сотен тысяч документов)
 
в оценке учитывается только верхушка списка
 
Хотелось бы узнать примерный размер этой
верхушки списка и мотивацию
того, зачем нам присылать для каждой тематики список больше размера 
этой верхушки?
Учтется ли это дополнительно при оценке? Например, если асессоры найдут
документы данной тематики в коллекции других участников и эти документы
будут
за пределами верхушки, но в списке относящемся к данной тематике в
наших
результатах.
 


From:
Igor Nekrestyanov
[mailto:romip@...]
Sent: Tuesday, June 22, 2010 7:35 PM
To: Александр Салтыков
Cc: romip@yahoogroups.com
Subject: Re: Вопрос


 
Добрый день,


Вы
ранее сказали, что в оценке будут участвовать только те документы,
которые
входят в пересечение всех тематик присланных участниками.
Извините, я не совсем корректно ответил на
исходный вопрос.

При оценке обычно оценивается подмножество тематик, общее для
БОЛЬШИНСТВА
систем.

Тематики выбираются независимо от количества участников отнесших к ним
документы.
Мы обычно исключаем тематики с очень маленьким обучающим множеством и
те где
результаты есть только для одного-двух участников. Или оставляем их в
виде
небольшой добавки.



Отсюда
вопрос – получается, что можно повышать точность рубрикации выкидывая
заведомо плохо обученные тематики?
Неоценивавшиеся тематики не влияют на
расчитываюмую точность.

Если вашему классификатору легче работать с менее зашумленным
множеством - вы
конечно можете сужать набор тематик
(есть риск что друние участники вернут результаты для этих категорий и
тогда у
вашей системы будет нулевая точность по этим категориям)

Обратите внимание, что вы можете использовать таблицы релевантности
прошлых лет
для предварительной оценки
и даже дополнительного обучения.

-igor


On 6/22/10 3:44 AM, Александр Салтыков wrote:










 





 Добрый день!
Есть
вопрос по классификации страниц:
Вы ранее
сказали, что в оценке будут участвовать только те документы, которые
входят в пересечение всех тематик присланных участниками.
Отсюда
вопрос – получается, что можно повышать точность рубрикации выкидывая
заведомо плохо обученные тематики?







 










 

neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: Вопрос

Postby neigor » Thu Jul 01, 2010 3:36 pm

Добрый день,

примерный алгоритм такой:
   - расчитываем пулы для всех тематик
   - предварительно фильтруем список тематик
     (обычно сводится к выкидыванию тематик где очень маленькое
обучающее множество, где никто не нашел документов)
   -помечаем тематики которые оценивались ранее

   - выбираем случайные наборы в 3-4-5 подтематик для каждой из тематик
верхнего уровня, так чтобы
         - было некоторое пересечение с прошлыми годами, но не слишком
значительно
         - не было слишком огромных пулов (для дорожек где глубина
ограничена это не важно)
  
   - выбираем тематики первого уровня, тем самым фиксируя что
отобранные на предыдущем шаге
      наборы тематик второго уровня
        - стараясь контролировать повторение тематик с прошлых лет
(обычно ~25% повторения, но не больше)
        - суммарный объем оценки должен укладываться в планируемые
трудозатраты
        - всегда стараемся затронуть хотя бы несколько плохо
представленных ранее больших тем

-igor

On 6/29/10 3:37 AM, Александр Салтыков wrote:







Добрый день!
Появился вопрос по поводу оценки результатов
тематической
классификации сайтов.
Интересует, каким образом будут выбираться
тематики
относящиеся к сайту в набор для оценки асессорами?
Будет ли при этом отдаваться приоритет
тематикам, стоящим
выше, или тематики будут набираться в случайном порядке?
 


From:
Igor Nekrestyanov
[mailto:romip@...]
Sent: Wednesday, June 23, 2010 7:46 PM
To: Александр Салтыков
Cc: romip@yahoogroups.com
Subject: Re: Вопрос


 
Ответы на этот и другие подобные вопросы есть в
описании
дорожки в отчетах за прошлые годы: 
    http://romip.ru/romip2009/01_organizers.pdf

Глубина пула выбирается в зависимости от объема работ (числа прогонов и
их
пересечения) - мы вначале выбираем оцениваемые категории, потом
расчитываем
пулы на несколько разных контрольных значений и смотрим на
трудозатраты для оценки.

Для ориентира - в прошлые годы глубина была 50-75 документов.

Возращать документы дальше тоже имеет смысл - это одно из достоинств
совместной
оценки методом общего котла.
Если эти документы попадут в верхушку в другом прогоне,
то они будут оценены и вы получите приблизительную оценку для большей
глубины.
В ряде случаев покрытие "вблизи" верхушки получается довольно
плотное.

Но не надо возвращать миллион документов на категорию, достаточно
несколько
сотен/тысяч.
Мы всего оцениваем сотни документов на категорию, так что для
значительно
большего числа документов
не может быть плотного покрытия,

-igor

On 6/23/10 1:49 AM, Александр Салтыков wrote:
Вы не совсем правильно меня поняли.
Вы писали 10.06:
> 4. В результатах для классификации
сайтов нужно
для каждой тематики предоставить список документов, отсортированный в
порядке
убывания близости к тематике. Правильно ли я понимаю, что в списке
должны быть
не все документы, а только те, для которых данная тематика наиболее
вероятная.
>   
да не все,
идея в том чтобы сюда включались то что
классификатор
считает относящимся к тематике, но проверить все страницы невозможно
(иногда
такие списки состоят из сотен тысяч документов)
 
в оценке учитывается только верхушка списка
 
Хотелось бы узнать примерный размер этой
верхушки списка и
мотивацию того, зачем нам присылать для каждой тематики список больше
размера  этой верхушки? Учтется ли это дополнительно при оценке?
Например,
если асессоры найдут документы данной тематики в коллекции других
участников и
эти документы будут за пределами верхушки, но в списке относящемся к
данной
тематике в наших результатах.
 


From:
Igor Nekrestyanov [mailto:romip@...]
Sent: Tuesday, June 22, 2010 7:35 PM
To: Александр Салтыков
Cc: romip@yahoogroups.com
Subject: Re: Вопрос


 
Добрый день,



Вы
ранее сказали, что в оценке будут участвовать только те документы,
которые
входят в пересечение всех тематик присланных участниками.
Извините, я не совсем корректно ответил на
исходный вопрос.

При оценке обычно оценивается подмножество тематик, общее для
БОЛЬШИНСТВА
систем.

Тематики выбираются независимо от количества участников отнесших к ним
документы.
Мы обычно исключаем тематики с очень маленьким обучающим множеством и
те где
результаты есть только для одного-двух участников. Или оставляем их в
виде небольшой
добавки.




Отсюда
вопрос – получается, что можно повышать точность рубрикации выкидывая
заведомо
плохо обученные тематики?
Неоценивавшиеся тематики не влияют на
расчитываюмую
точность.
Если вашему классификатору легче работать с менее зашумленным
множеством - вы
конечно можете сужать набор тематик
(есть риск что друние участники вернут результаты для этих категорий и
тогда у
вашей системы будет нулевая точность по этим категориям)

Обратите внимание, что вы можете использовать таблицы релевантности
прошлых лет
для предварительной оценки
и даже дополнительного обучения.

-igor


On 6/22/10 3:44 AM, Александр Салтыков wrote:










 





 Добрый день!
Есть
вопрос по классификации страниц:
Вы ранее
сказали, что в оценке будут участвовать только те документы, которые
входят в пересечение всех тематик присланных участниками.
Отсюда
вопрос – получается, что можно повышать точность рубрикации выкидывая
заведомо плохо обученные тематики?








 










 
 

neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: Вопрос

Postby neigor » Fri Jul 02, 2010 9:00 am

Процедура на самом деле та же самая.

Пулы строятся для тематик, при построении пула (множества сайтов
отнесенных к тематике)
используются все пять тематик, порядок не играет роли.

Далее смотри алгоритм в предыдущем письме,

-igor


On 7/2/10 12:05 AM, Александр Салтыков wrote:







Добрый день!
Вероятно мы не поняли друг друга.
Меня интересует другая дорожка – классификация
сайтов.
Каким образом будут выбираться тематики при
оценке качества
классификации САЙТОВ? Для каждого сайта можно указать до пяти тематик.
Интересует, как будут из этих пяти выбираться тематики для оценки:
случайно,
или приоритет будет отдаваться тем, которые выше в списке. В первом
случае
будут актуальны более короткие списки из наиболее вероятных тематик, во
втором
списки всегда из пяти тематик, отсортированных в порядке убыванию
близости.
 


From:
Igor Nekrestyanov
[mailto:romip@...]
Sent: Thursday, July 01, 2010 7:36 PM
To: Александр Салтыков
Cc: romip@yahoogroups.com
Subject: Re: Вопрос


 
Добрый день,

примерный алгоритм такой:
   - расчитываем пулы для всех тематик
   - предварительно фильтруем список тематик
     (обычно сводится к выкидыванию тематик где очень
маленькое обучающее множество, где никто не нашел документов)
   -помечаем тематики которые оценивались ранее

   - выбираем случайные наборы в 3-4-5 подтематик для каждой из
тематик верхнего уровня, так чтобы
         - было некоторое пересечение с
прошлыми годами, но не слишком значительно
         - не было слишком огромных
пулов (для дорожек где глубина ограничена это не важно)
  
   - выбираем тематики первого уровня, тем самым фиксируя что
отобранные на предыдущем шаге
      наборы тематик второго уровня
        - стараясь контролировать повторение
тематик с прошлых лет (обычно ~25% повторения, но не больше)
        - суммарный объем оценки должен
укладываться в планируемые трудозатраты
        - всегда стараемся затронуть хотя бы
несколько плохо представленных ранее больших тем

-igor

On 6/29/10 3:37 AM, Александр Салтыков wrote:
Добрый день!
Появился вопрос по поводу оценки результатов
тематической
классификации сайтов.
Интересует, каким образом будут выбираться
тематики
относящиеся к сайту в набор для оценки асессорами?
Будет ли при этом отдаваться приоритет
тематикам, стоящим
выше, или тематики будут набираться в случайном порядке?
 


From:
Igor Nekrestyanov [mailto:romip@...]
Sent: Wednesday, June 23, 2010 7:46 PM
To: Александр Салтыков
Cc: romip@yahoogroups.com
Subject: Re: Вопрос


 
Ответы на этот и другие подобные вопросы есть в
описании
дорожки в отчетах за прошлые годы: 
    http://romip.ru/romip2009/01_organizers.pdf

Глубина пула выбирается в зависимости от объема работ (числа прогонов и
их
пересечения) - мы вначале выбираем оцениваемые категории, потом
расчитываем
пулы на несколько разных контрольных значений и смотрим на
трудозатраты для оценки.

Для ориентира - в прошлые годы глубина была 50-75 документов.

Возращать документы дальше тоже имеет смысл - это одно из достоинств
совместной
оценки методом общего котла.
Если эти документы попадут в верхушку в другом прогоне,
то они будут оценены и вы получите приблизительную оценку для большей
глубины.
В ряде случаев покрытие "вблизи" верхушки получается довольно
плотное.

Но не надо возвращать миллион документов на категорию, достаточно
несколько сотен/тысяч.
Мы всего оцениваем сотни документов на категорию, так что для
значительно
большего числа документов
не может быть плотного покрытия,

-igor

On 6/23/10 1:49 AM, Александр Салтыков wrote:
Вы не совсем правильно меня поняли.
Вы писали 10.06:
> 4. В результатах для классификации
сайтов нужно
для каждой тематики предоставить список документов, отсортированный в
порядке
убывания близости к тематике. Правильно ли я понимаю, что в списке
должны быть
не все документы, а только те, для которых данная тематика наиболее
вероятная.
>   
да не все,
идея в том чтобы сюда включались то что
классификатор
считает относящимся к тематике, но проверить все страницы невозможно
(иногда
такие списки состоят из сотен тысяч документов)
 
в оценке учитывается только верхушка списка
 
Хотелось бы узнать примерный размер этой
верхушки списка и
мотивацию того, зачем нам присылать для каждой тематики список больше
размера  этой верхушки? Учтется ли это дополнительно при оценке?
Например,
если асессоры найдут документы данной тематики в коллекции других
участников и
эти документы будут за пределами верхушки, но в списке относящемся к
данной
тематике в наших результатах.
 


From:
Igor Nekrestyanov [mailto:romip@...]
Sent: Tuesday, June 22, 2010 7:35 PM
To: Александр Салтыков
Cc: romip@yahoogroups.com
Subject: Re: Вопрос


 
Добрый день,




Вы
ранее сказали, что в оценке будут участвовать только те документы,
которые
входят в пересечение всех тематик присланных участниками.
Извините, я не совсем корректно ответил на
исходный вопрос.

При оценке обычно оценивается подмножество тематик, общее для
БОЛЬШИНСТВА
систем.

Тематики выбираются независимо от количества участников отнесших к ним
документы.
Мы обычно исключаем тематики с очень маленьким обучающим множеством и
те где
результаты есть только для одного-двух участников. Или оставляем их в
виде
небольшой добавки.





Отсюда
вопрос – получается, что можно повышать точность рубрикации выкидывая
заведомо
плохо обученные тематики?
Неоценивавшиеся тематики не влияют на
расчитываюмую
точность.
Если вашему классификатору легче работать с менее зашумленным
множеством - вы
конечно можете сужать набор тематик
(есть риск что друние участники вернут результаты для этих категорий и
тогда у
вашей системы будет нулевая точность по этим категориям)

Обратите внимание, что вы можете использовать таблицы релевантности
прошлых лет
для предварительной оценки
и даже дополнительного обучения.

-igor


On 6/22/10 3:44 AM, Александр Салтыков wrote:










 





 Добрый день!
Есть
вопрос по классификации страниц:
Вы ранее
сказали, что в оценке будут участвовать только те документы, которые
входят в пересечение всех тематик присланных участниками.
Отсюда
вопрос – получается, что можно повышать точность рубрикации выкидывая
заведомо плохо обученные тематики?









 










 
 
 

neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm


Return to Тематическая классификация

Who is online

Users browsing this forum: No registered users and 3 guests