by sbaglei » Thu Apr 05, 2007 12:43 pm
Михаил, возможно, Вы и правы. Но, если мы признаем, что средняя полнота и
средняя точность - плохие метрики, может быть, стоит изменить их, а не F-меру?
Например, считать средние P и R не средним арифметическим по значениям отдельных
рубрик, а средним гармоническим этих значений. Тогда, для того же
"экстремального" примера взаимосвязь всех трех значений будет очевидна:
R F1 P
0 0 0
Вводить дисперсию в качестве отдельной меры не предлагаю. Ее можно считать
"стабильностью результата классификации", если воспринимать именно в дополнение
к F-мере.
С уважением,
Станислав.
>Добрый день, Станислав!
>
>SB> да, F-мера будет 50%. Согласен, при таких условиях плохой
>SB> результат. Но он будет настолько же плох, насколько плохи средние
>SB> полнота и точность, которые тоже будут по 50 % и при нынешнем
>SB> методе расчета.
>...
>SB> У меня есть ощущение, что F1* воспринимается более связно с R и P, чем F1.
>
>Средняя полнота и средняя точность, на мой взгляд, плохие метрики, и
>приведенный мной "экстремальный" пример это показывает.
>В том примере будет:
>R F1 P F1*
>0.5 0 0.5 0.5
>
>Зачем нужна метрика, которая "воспринимается более связно с R и P",
>если R и P - плохие метрики?
>
>SB> Насчет дисперсии. Думаю, ее можно по классической формуле считать:
>SB> d^2=1/(n-1)*sum((Xi-m)^2),
>SB> m=(x1+x2+...+xn)/n.
>
>Формула дисперсии общеизвестна :-)
>Непонятен смысл следующего:
>
>>>СБ> Чтоб не терять информацию по рубрикам, можно дополнить F-меру
>>>дисперсией средних значений F-мер по отдельным рубрикам относительно
>>>полученной общей F-меры.
>
>Может быть, Вы имеете ввиду, что нужно выводить дисперсию F-меры как
>отдельную метрику, отражающую "стабильность результата классификации"
>(чем меньше - тем стабильнее результат)?
>
>По такой метрике трудно сравнивать системы, так как, например, самый
>стабильный результат будет у системы, дающей всегда 0.
>
>В TREC для этого используется robust-метрика, измеряющая
>"стабильность _высокого_ результата классификации".
>
>С уважением,
>Михаил Агеев.
>
>
>SB> Теперь о "хороших" примерах. Привожу результаты прогонов дорожки
классификации нормативных документов разных участников последнего РОМИПа. А
именно, прогоны под номерами 4, 14, 15, 27. В третьей
>SB> колонке - нынешние значения F1, в пятой - вычисленные предлагаемым
способом.
>
>SB> Run R F1 P F1*
>SB> 4 0.07 0.008 0.3 0.11
>SB> 14 0.28 0.21 0.28 0.28
>SB> 15 0.35 0.18 0.25 0.29
>SB> 27 0.45 0.43 0.45 0.45
>
>SB> У меня есть ощущение, что F1* воспринимается более связно с R и P, чем F1.
>
>SB> Насчет дисперсии. Думаю, ее можно по классической формуле считать:
>
>SB> d^2=1/(n-1)*sum((Xi-m)^2),
>SB> m=(x1+x2+...+xn)/n.
>
>SB> С уважением,
>SB> Станислав.
>
>
>>>Добрый день, Станислав!
>>>
>>>СБ> Можно дополнить или заменить метод расчета, например, таким.
>>>СБ> По-прежнему вычислять средние арифметические полноты и точности по
>>>СБ> отдельным рубрикам, как это принято для макроусреднения. После
>>>СБ> чего рассчитывать F-меру как среднее гармоническое между
>>>СБ> полученными средними значениями полноты и точности.
>>>
>>>Можно на примерах, где это будет хорошо?
>>>
>>>Я пока могу привести пример, где это будет плохо:
>>>Возьмем две рубрики, A и Б, и запустим на них два несложных алгоритма:
>>> - на рубрике A точность ~100%, полнота 0%
>>> - на рубрике Б точность 0%, полнота 100%
>>>
>>>Я правильно понял, что Ваша метрика оценит этот алгоритм как 50%
>>>"средней" F-меры?
>>>
>>>СБ> Чтоб не терять информацию по рубрикам, можно дополнить F-меру
>>>СБ> дисперсией средних значений F-мер по отдельным рубрикам
>>>СБ> относительно полученной общей F-меры.
>>>
>>>Извините, это мне не понятно, не могли бы Вы это пояснить формулой?
>>>
>>>С уважением,
>>>Михаил Агеев.
>>>
>>>СБ> Добрый день,
>>>
>>>СБ> предлагаю обсудить возможные модификации ромиповских метрик - эта тема,
вроде бы, поднималась на "круглом столе".
>>>СБ> Предложение касается метода рассчета меры макроусреднения. Сейчас это
среднее арифметическое от средних гармонических по рубрикам (запросам). На
практике такой способ расчета занижает
>>>СБ> среднюю F-меру относительно средних полноты и точности (средних
арифметических по соответствующим значениям из отдельных рубрик).
>>>
>>>СБ> "Провисание" значения макроусредненной F-меры и ниже средней полноты, и
ниже средней точности иногда создает неудобство сравнения близких прогонов:
средние полнота и точность больше у одного,
>>>СБ> макроусредненное значение F-меры больше у другого. Возникает новая
интересная задача - определить
>>>СБ> лучший прогон :)
>>>СБ> Можно дополнить или заменить метод расчета, например, таким. По-прежнему
вычислять средние арифметические полноты и точности по отдельным рубрикам, как
это принято для макроусреднения. После
>>>чего
>>>СБ> рассчитывать F-меру как среднее гармоническое между полученными средними
значениями полноты и точности.
>>>СБ> Чтоб не терять информацию по рубрикам, можно дополнить F-меру дисперсией
средних значений F-мер по отдельным рубрикам относительно полученной общей
F-меры.
>>>
>>>СБ> Станислав Баглей.
>>>
>>>
>>>
>>>СБ> Yahoo! Groups Links
>>>
>>>
>>>
>
>
>
>
>SB> Yahoo! Groups Links
>
>
>
>
>
>
>Yahoo! Groups Links
>
>
>