romip.ru

by **neigor** » Tue Jun 22, 2004 9:13 pm

Добрый день,

это набросок описания шкалы оценки для ассесоров.
Было бы здорово услышать комментарии по улучшению.
[Пример везде: формула 1]

Шкала оценки:
-------------

1) Полезный

Документ, который позволяет составить относительно
полное представление о предмете.

Пример: описание трасс, команд, гонщиков и правил поведения.

2) Релевантный+

Документ, содержащий полезную информацию, но не дающий полноты Обзора.

Пример: краткое описание отдельной трассы или перечень названий трасс, но без
подробностей.

3) Релевантный-

Документ на грани соответствия теме (если бы этой оценки не было, то
документ можно было бы оценить как "нерелевантный").
То есть формально это корректный ответ, но бесполезный.

пример: упоминание факта проведения гонки формула один без
подробностей.

4) Нерелевантный

Даже формально это некорректный ответ.

5) Неоцениваемый

Технические проблемы не позволяют оценить документ.

-igor

by **dobroff2003** » Wed Jun 23, 2004 12:36 pm

Еще раз хотел бы повторить - не надо никаких инструкций - пусть будет
модель РЕАЛЬНОГО пользователя,
Игорь Вы же сами убедительно писали, что пользователи сами "чувствуют"
разницу между релевантностью (даже если не могут объяснить, что это
такое).

Да, оценки будут противоречивы - но это и соответствует реальной картине
- когда одному нравится, другому нет. А наша задача понять, что это
значит.

Все равно, любые инструкции будут неполны, и вызовут большое количество
вопросов.

То есть предлагается:
- расширенная шкала есть
- пояснений/инструкций нет

Борис

Igor Nekrestyanov wrote:
>
> Добрый день,
>
> это набросок описания шкалы оценки для ассесоров.
> Было бы здорово услышать комментарии по улучшению.
> [Пример везде: формула 1]
>
> Шкала оценки:
> -------------
>
> 1) Полезный
>
> Документ, который позволяет составить относительно
> полное представление о предмете.
>
> Пример: описание трасс, команд, гонщиков и правил поведения.
>
> Вероятно, не обязательно даже требовать подробного описания всех аспектов,
> а достаточно относительно полноты по какому-то критерию -
> например, информация о всех командах формулы один в конкретном году
> или даже детальное описание конкретной трассы (типа история создания,
> гонок и т.п.
> -->
>
> 2) Релевантный+
>
> Документ, содержащий полезную информацию, но не дающий полноты Обзора.
>
> Пример: краткое описание отдельной трассы или перечень названий трасс, но без
> подробностей.
>
> 3) Релевантный-
>
> Документ на грани соответствия теме (если бы этой оценки не было, то
> документ можно было бы оценить как "нерелевантный").
> То есть формально это корректный ответ, но бесполезный.
>
> пример: упоминание факта проведения гонки формула один без
> подробностей.
>
> 4) Нерелевантный
>
> Даже формально это некорректный ответ.
>
> 5) Неоцениваемый
>
> Технические проблемы не позволяют оценить документ.
>
> -igor
>
>
>
> Yahoo! Groups Links
>
>
>
>

by **neigor** » Wed Jun 23, 2004 4:49 pm

хмм, я говорил, что белое/черное - это тяжелая ситуация для принятия
решений, и что пользователь осознает что не все одинаково
(а если нет заранее определенной шкалы, то результат
будет зависеть от порядка показа документов
- допустим вначале пользователь увидит релевантный+,
но пометит как полезный, будет ли он его потом переделывать?
я почему-то сомневаюсь ...)

по оыту прошлого года расширенная шкала без пояснений работать точно не будет.
Типичный ассессор не знаком со словом "релевантный"

И надо учитывать, что у наших ассессоров может _сильно_ отличаться опыт
работы с поисковыми системами, некоторые совсем новички.

Насколько я знаю во всех подобных мероприятиях, включая например TREC и
внутреннюю оценку в google, есть инструкции для ассессоров.
При использовании бинарной шкалы, как в классическом TREC adhoc
конечно можно пологаться что плохой.хороший это понятно, а вот для более
детальной нужны объяснения

-igor

by **dobroff2003** » Wed Jun 23, 2004 6:05 pm

Зачем же использовать названия "релевантный+" "релевантный" и т.п. -
одни слова могут отпугнуть.

лучше:
"подходит" (либо "соответствует")
"скорее соответствует"
"не уверен"
"скорее не соответствует"
"не подходит"

Борис

by **segalovich** » Thu Jun 24, 2004 10:16 am

Мы экспериментировали недавно (в прошлом месяце)
со степенью детализации запроса, оптимальной
для получения качественных оценок.

Слишком короткое описание (в одну строчку, не говоря
уже о предлагаемом Борисом варианте "не надо инструкций")
приводило к большому разбросу оценок и большому количеству ОШИБОК.
Из-за НЕПРАВИЛЬНОГО понимания запроса по сути.

Эти оценки НЕВОЗМОЖНО осреднить и слить, если их не достаточно много.
Где "достаточно много" это ДЕСЯТКИ И СОТНИ ASSESSMENTS по каждому
документу.

При этом еще надо побеспокоиться о
РЕПРЕЗЕНТАТИВНОМ представлении разных групп асессоров
в общем пуле асессоров. Сотрудники Яндекса,
сотрудники НИВЦ МГУ, студенты и аспиранты матмеха - ни одна из этих
категорий не может служить модельной, более того,
если согласиться с подходом Бориса, всех нас НАДО ИСКЛЮЧИТЬ
из асессоров.

Слишком детальное описание, состоящее для каждого запроса
из отдельных пунктов для каждой оценки также работает
плохо. Наши администраторы составляли четкое описание так,
что при этом выполняли запрос на предварительной стадии,
разглядывали реальные документы и пытались сформулировать
критерии для каждого уровня оценки исходя из реальных документов.

При этом возникало слишком много точек дополнительного непонимания
и асессор вместо оценки по одной шкале вынужден был привязываться
к нескольким, по сути альтернативным, схемам оценки.

Таким образом, предлагаю вернуться к исходному предложению:
= расширенное описание (инстурукция) НЕОБХОДИМО
= оно должно быть КОРОТКИМ, не более абзаца текста,
= его нужно корректировать с учетом СВЯЗАННЫХ запросов
по Я.Директу и Р.Ассоциациям.

При всем при этом мы стараемся выбрать максимально ОДНОЗНАЧНЫЕ
запросы, с максимально однозначной интенцией пользователя.

Мне кажется мы в состоянии отобрать запросы "однозначные" настолько,
чтобы составить непротиворечивое и внятное расширенное описание.

И еще.

По нашему мнению в общей инструкции асессора необходимо дать
указания как следует интерпретировать различные неоднозначные случаи:
например,

= найденный документ не содержит прямого ответа, но
представляет из себя хороший хаб, где части ответа
достижимы одним кликом

= есть хорошая ссылка, но она одна
= она одна среди множества "плохих"
= "хороший" документ достижим через поиск на найденной странице
= есть "ссылка" на "офлайновый" ответ
= ну и т.д.

Описания таких случаев должны помогать интерпретировать
запросы и расширенные инструкции наиболее последовательным
и однообразным образом в примении к представленным для
оценки документам.

Илья

by **neigor** » Thu Jun 24, 2004 10:36 am

> По нашему мнению в общей инструкции асессора необходимо дать
> указания как следует интерпретировать различные неоднозначные случаи:
> например,
>
> = найденный документ не содержит прямого ответа, но
> представляет из себя хороший хаб, где части ответа
> достижимы одним кликом
>
> = есть хорошая ссылка, но она одна
> = она одна среди множества "плохих"
> = "хороший" документ достижим через поиск на найденной странице

вообщем идея хорошая и мы готовы включить некоторые правила в инструкцию,
но эти конкретные ситуации по идее невозможны - у нас ведь несвязный набор
данных и инструмент оценки не позволяет ходить по ссылкам.

> = есть "ссылка" на "офлайновый" ответ

а это можно.
как предлагается это трактовать? нерелевантно?

-igor

by **dobroff2003** » Thu Jun 24, 2004 10:59 am

Я остаюсь при своем мнении, хотя может быть и в меньшинстве...

Ilya Segalovich wrote:
>
> Слишком короткое описание (в одну строчку, не говоря
> уже о предлагаемом Борисом варианте "не надо инструкций")
> приводило к большому разбросу оценок и большому количеству ОШИБОК.
> Из-за НЕПРАВИЛЬНОГО понимания запроса по сути.
>

хотел бы я знать, что здесь понимается под "НЕПРАВИЛЬНОГО понимания
запроса по сути".
По мне - пользователь всегда прав - если не понял - это проблема ПМ, но
не пользователя.

Ilya Segalovich wrote:
>
> Эти оценки НЕВОЗМОЖНО осреднить и слить, если их не достаточно много.
> Где "достаточно много" это ДЕСЯТКИ И СОТНИ ASSESSMENTS по каждому
> документу.
>

так чего мы хотим - любыми путями получить какую-то одну цифру, или
научиться жить в реальных условиях, понимать что такое "релевантность"
на самом деле ...

> Таким образом, предлагаю вернуться к исходному предложению:
> = расширенное описание (инстурукция) НЕОБХОДИМО
> = оно должно быть КОРОТКИМ, не более абзаца текста,
> = его нужно корректировать с учетом СВЯЗАННЫХ запросов
> по Я.Директу и Р.Ассоциациям.
>

я понимаю, что так и будет...
Я не спорю, такая процедура приведет к единому мнению оценщиков,
но тогда и задачу поиска надо формулировать по другому.
Потому что, мне как-то трудно самому себе объяснить, что мы здесь мерим.
Еще труднее объяснить кому-то другому.

Давайте хоть договоримся, что в светлом будущем не забывать каждый раз
указывать о произведенном выборе одной из возможных альтернатив оценки

> При всем при этом мы стараемся выбрать максимально ОДНОЗНАЧНЫЕ
> запросы, с максимально однозначной интенцией пользователя.
>

!

>
> По нашему мнению в общей инструкции асессора необходимо дать
> указания как следует интерпретировать различные неоднозначные случаи:
> например,
>
> = найденный документ не содержит прямого ответа, но
> представляет из себя хороший хаб, где части ответа
> достижимы одним кликом
>
> = есть хорошая ссылка, но она одна
> = она одна среди множества "плохих"
> = "хороший" документ достижим через поиск на найденной странице
> = есть "ссылка" на "офлайновый" ответ
> = ну и т.д.
>
> Описания таких случаев должны помогать интерпретировать
> запросы и расширенные инструкции наиболее последовательным
> и однообразным образом в примении к представленным для
> оценки документам.
>

с этим совершенно согласен

Борис

by **segalovich** » Thu Jun 24, 2004 5:05 pm

> вообщем идея хорошая и мы готовы включить некоторые правила в инструкцию,
> но эти конкретные ситуации по идее невозможны - у нас ведь несвязный набор
> данных и инструмент оценки не позволяет ходить по ссылкам.

Действительно оценивать Веб-документы без возможности навигации -
не очень продуктивная идея.

В прошлый раз необходимость использования
распространяемого на CD инструмента для проверки и
коллекции к нему была вызвана необходимостью сэкономить
на трафике.

Официально предлагаю в этот раз использовать наш сервер
для хранения копии коллекции и доступа к документам.

Это позволит снять данную проблему: трафик асессоров
в наших масштабах очень мал.

С уважением,
Илья

by **neigor** » Thu Jun 24, 2004 6:00 pm

> > вообщем идея хорошая и мы готовы включить некоторые правила в инструкцию,
> > но эти конкретные ситуации по идее невозможны - у нас ведь несвязный набор
> > данных и инструмент оценки не позволяет ходить по ссылкам.
>
> Действительно оценивать Веб-документы без возможности навигации -
> не очень продуктивная идея.

но мы же ищем по снимку и он несвязный.
Прикладывать снимок к изменившемуся веб - нечестно, часть ссылок умерла,
а поисковые системы знать этого не могли.
Кроме того данные непереиспользуемы
(когда кто-то еще на это посмотрит ссылки еще изменятся и то что было
релевантным перестанет быть таковым)

> В прошлый раз необходимость использования
> распространяемого на CD инструмента для проверки и
> коллекции к нему была вызвана необходимостью сэкономить
> на трафике.

но не только нашем, а скорее ассессоров, многие из которых делают это дома

-igor

romip.ru

шкала оценки

Re: [romip] шкала оценки

Re: [romip] шкала оценки

Re: [romip] шкала оценки

Re: [romip] шкала оценки

Re: [romip] шкала оценки

Re: [romip] шкала оценки

Re: [romip] шкала оценки

Who is online