QA

RE: Re[4]: [romip] Re: QA

Postby maxgubin » Sat Mar 04, 2006 6:52 pm

Всем добрый день!

Мне кажется, что дискуссия несколько затянулась. Давайте попробуем перевести
ее в более продуктивное русло:

1. Одна из проблем РОМИП сейчас - дефицит коллекций. Банальный ad-hoc по
двум коллекциям уже 3 раза делали, 4-ый уже просто не прилично. Очень скоро
все их настолько "отработают", что все результаты будут ужасно смещенные под
эти коллекции. Новые коллекции, конечно легальные, это для всех интересно.
Если их можно получить у "Стоконы" - отлично. В ближайшее время РОМИП станет
юрлицом и я, как директор, готов начать согласование договора. Только
желательно предварительно посмотреть выборку из коллекции, чтобы иметь о них
представление. Можно организовать встречу или просто доступ через И-нет для
оговоренного круга специалистов от других участников.

2. Чтобы решить, нужен или нет QA нужно собрать участников дорожки. То есть
кто-то должен отозваться, что он тоже хотел бы поучаствовать. Если никто не
отзовется, то, к сожалению, дорожка не состоится. Либо нужно не пытаться
идти в узком фарватере TREC, а предложить другую постановку, которая может
заинтересовать более широкий круг участников. Кстати, мне кажется, что пора
уже думать о том, какие дорожки будут в РОМИП-2006.

3. Пока участники РОМИП относились друг к другу очень хорошо, никаких
конфликтов не было и не было маркетингового использования РОМИП, которое бы
противоречило его принципам. Я надеюсь, что будет много новых участников,
которые будут придерживаться этой линии. При этом научная дискуссия и
конкуренция обязательно должна быть. Это я все говорю к тому, чтобы с одной
стороны не оттолкнуть новых участников, с другой объяснить им некоторые не
всегда очевидные особенности.


Максим
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

RE: Re[4]: [romip] Re: QA

Postby andrey_ogarok » Mon Mar 06, 2006 9:01 am

Здравствуйте!Спасибо всем участникам затянувшейся дискуссии и отдельно Максиму за перевод ее в деловое русло.Компания Стокона ждет решения Организаторов РОМИП по составу дорожек конференции. Мы готовы участвовать в следующих дорожках: 1. Классическая задача поиска по запросу (ad-hoc track) с оценкой методом "общей кучи"
(pooling). - по коллекции нормативно-правовых документов - по Веб-коллекции 2. Фактографический поиск по новостной коллекции 3. Поиск ответа на вопрос пользователя (новая, предлагаемая нами дорожка). Предлагаю другим участникам также определиться с вопросами участия в тестировании. ═ Мы подготовим и предоставим организаторам конференции имеющиеся у нас тестовые коллекции. Будем рады, если они окажутся полезными.═ Немного позже мы дополнительно сообщим организаторам конференции адрес,═по ═которому можно будет ознакомиться с нашими коллекциями. ═ С уважением Огарок Андрей.Max Gubin wrote:
Всем добрый день!Мне кажется, что дискуссия несколько затянулась. Давайте попробуем перевестиее в более продуктивное русло:1. Одна из проблем РОМИП сейчас - дефицит коллекций. Банальный ad-hoc подвум коллекциям уже 3 раза делали, 4-ый уже просто не прилично. Очень скоровсе их настолько "отработают", что все результаты будут ужасно смещенные подэти коллекции. Новые коллекции, конечно легальные, это для всех интересно.Если их можно получить у "Стоконы" - отлично. В ближайшее время РОМИП станетюрлицом и я, как директор, готов начать согласование договора. Толькожелательно предварительно посмотреть выборку из коллекции, чтобы иметь о нихпредставление. Можно
организовать встречу или просто доступ через И-нет дляоговоренного круга специалистов от других участников.2. Чтобы решить, нужен или нет QA нужно собрать участников дорожки. То естькто-то должен отозваться, что он тоже хотел бы поучаствовать. Если никто неотзовется, то, к сожалению, дорожка не состоится. Либо нужно не пытатьсяидти в узком фарватере TREC, а предложить другую постановку, которая можетзаинтересовать более широкий круг участников. Кстати, мне кажется, что порауже думать о том, какие дорожки будут в РОМИП-2006.3. Пока участники РОМИП относились друг к другу очень хорошо, никакихконфликтов не было и не было маркетингового использования РОМИП, которое быпротиворечило его принципам. Я надеюсь, что будет много новых участников,которые будут придерживаться этой линии. При этом научная дискуссия иконкуренция обязательно должна быть. Это я все говорю к тому, чтобы с однойстороны не оттолкнуть новых участников, с
другой объяснить им некоторые невсегда очевидные особенности. Максим
andrey_ogarok
 
Posts: 11
Joined: Mon Feb 13, 2006 11:20 am

RE: QA

Postby neigor » Sun Apr 02, 2006 4:42 pm

Добрый день,

к сожалению ясности с материалами от компании "Стокона" пока
нет, а сроки уже поджимают.

Поскольку какой-то интерес к этой дорожке был проявлен >1 участником,
то можно попробовать такой вариант:

1. Коллекция - Narod.Ru
2. Запросы:
- по результатам совместного обсуждения участниками вырабатывается
список из 10-20 вопросов примеров и некоторого определения
что такое запрос для этой дорожки.
IMHO, для каждого запроса должен быть хотя бы один документ с ответом.
- каждый участник самостоятельно предлагает 25 (?) своих запросов
(выбирает из каких-нибудь логов или формулирует, как хочет)
Запросы передаются оргкомитету, другие участники о них не знают.
Оргкомитет может выкинуть 5 на свое усмотрение
(но от всех участников будет взято одинаковое число запросов)
- Асессоров просят придумать еще N (50?) запросов глядя на исходные
примеры, определение и коллекцию (например, во время оценки другой
дорожки или через какой-то поисковый интерфейс)
3. Выполнение задания
Запросы выдаются участникам на очень короткое время (1 день)
или еще лучше - участники выставляют интерфейс для выполнения этих
запросов онлайн в Веб на 1 день.
(это чтобы не было настройки)
4. Оценка
Как обычно в РОМИП - пулы, и т.д.
Надо выработать шкалу и критерии специфичные для этой дорожки.


Основной минус который я вижу - это все-таки не реальные запросы,
но это смесь потенциально разных представлений о том что такое
типичные запросы от участников и что-то от людей из числа пользователей
поисковых систем.
Ну и выдумываться они будут под набор данных, а обычно все-таки вопрос
первичен ...

Какие есть еще возражения/предложения по такому подходу?

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: QA

Postby andrey_ogarok » Tue Apr 11, 2006 11:28 am

Здравствуйте!
Компания Стокона согласна с общим подходом, изложенным Игорем в
части проведения тестирования по дорожке QA.
Конечно, можно использовать имеющуюся коллекцию Narod.Ru, или
коллекцию редакции "независимой газеты" (подборка их текстов за
1997 - 2000 г.г. на 4 CD) и т.д. Можно также составить тестовые
вопросы.
Обращаю ваше внимание на то, что требуется составить четкую методику
оценки ответов. Данная методика должна предусматривать указание:
- объема текста в ответе (например, числа слов);
- формата ответа: название найденных ресурсов, правил подсветки
слов, совпадающих со словами поискового запроса и слова ответа;
линки на источник;
- формата файла вывода ответов (при условии использования
автоматизации процесса тестирования);
- критерии и правила оценки соответствия ответов вопросам;
- правила формирования обобщенных показателей точности и полноты
ответов.
Возможен также еще один вариант проведения тестирования по дорожке
QA.
В дорожке QA участвуют только Stocona и Exactus, которые обе имеют
метапоисковые системы. Организаторы предлагают для оценки данных
систем использовать web-интерфейс поисковых систем.
Компания Стокона предлагает вариант проведения тестирования по
дорожке QA на основе метапоиска.
Содержание данного варианта тестирования:
- организаторы (с участием заинтересованных сторон) определяют
тестовые случаи (список вопросов): категории вопросов (типы),
перечень, а также используемые для метапоиска поисковые системы и
параметры (число скачиваемых от поисковиков ответов);
- организаторы проводят предварительное тестирование для фиксации
ответов (исключения в дальнейшем возможности подтасовки результатов);
- участники дорожки QA предоставляют web-интерфейс поисковых систем
для проведения окончательного тестирования, формируют файл вывода
ответов и представляют его организаторам;
- организаторы по согласованной методике оценивают качество работы
систем - участников дорожки QA, проверяют отсутствие фактов
подтасовки (сравнивая результаты предварительного и окончательного
тестирования).
Данный вариант является весьма показательным, подтасовка результатов
довольно затруднительна (требует переделки систем, что легко
обнаруживается путем сравнения результатов на предварительном
тестировании и на окончательном), доступна для просмотра всем
заинтересованным участникам.
Огарок Андрей
andrey_ogarok
 
Posts: 11
Joined: Mon Feb 13, 2006 11:20 am

Re: [romip] Re: QA

Postby neigor » Wed May 17, 2006 11:07 am

Добрый день,

пора финализировать правила дорожки.
Как насчет следующего модифицированного варианта:

1. Коллекция - Narod.Ru
(она есть и ее статус не вызывает сомнений)

2. Запросы:
- по 30 запросов от каждого из участников, 60 от оргкомитета.
Выполняются все запросы, но участник может отбраковать 10
и они не будут учитываться в итоговых оценках.
(итого будет примерно 100)

3. Что возвращают системы участники
- для каждого запроса не более N (15-20?) "ответов"
- ответ это:
- краткая аннотация документа содержащая ответ (300 символов?).
- ссылка на документ первоисточник
Формат в виде XML будет опубликован позже.

4. Оценка
- показываем асессорам аннотации и документы и спрашиваем есть ли там ответ,
кажется ли по аннотации что есть ответ в документе и
есть ли реально ответ в документе
- также просим асессора сформулировать нам ответ (ключевой признак)
на будущее
- следуя методологии кубка Яндекс - правильный ответ, это любой ответ
подтвержденный текстом. Не обязательно канонически правильный
вне контекста коллекции.

Почему так:
- есть желание попросить участников дорожек поиска и аннотирования
выполнить маленькие доп.Задания по завершению сбора результатов
для этой дорожки:
- выполнить классический поиск по отобранным 100 запросам
- построить аннотации для некоторых пар документ/запрос
Это даст возможность посмотреть насколько специальные методы дают
результаты отличные от неспециализированных подходов (и отчасти понять
насколько были выбраны удачны запросы)

==========================================================
План:
- до 23 мая каждый из участников (пока две заявки)
предлагает
- свой вариант уточнения определения что такое вопрос
- по 5-10 примеров вопросов, иллюстрирующих
что такое "правильный" вопрос (без оглядки коллекции,
но иллюстрируя спектр возможностей).
- к 27 мая мы получаем итоговое определение и общий список примеров
- к 10 июня запросы предоставляются в оргкомитет,
- около 15 июня происходит выдача запросов для выполнения (на 2 дня)

==========================================================
Для затравки обсуждения:

1) Что такое "вопрос"?

Вопрос на русском языке, подразумевающий конкретный и относительно
лаконичный ответ.

2) Примеры вопросов (надо определить границы дозволенного :):
- Что такое JSP?
- Когда родился Гоголь?
- С какой версии jdk поддерживаются generics?
- Как получить доступ к коллекциям РОМИП?

-igor


по результатам совместного обсуждения участниками вырабатывается
> > список из 10-20 вопросов примеров и некоторого определения
> > что такое запрос для этой дорожки.
> > IMHO, для каждого запроса должен быть хотя бы один документ с
> ответом.
> > - каждый участник самостоятельно предлагает 25 (?) своих
> запросов
> > (выбирает из каких-нибудь логов или формулирует, как хочет)
> > Запросы передаются оргкомитету, другие участники о них не
> знают.
> > Оргкомитет может выкинуть 5 на свое усмотрение
> > (но от всех участников будет взято одинаковое число запросов)
> > - Асессоров просят придумать еще N (50?) запросов глядя на
> исходные
> > примеры, определение и коллекцию (например, во время оценки
> другой
> > дорожки или через какой-то поисковый интерфейс)
> > 3. Выполнение задания
> > Запросы выдаются участникам на очень короткое время (1 день)
> > или еще лучше - участники выставляют интерфейс для выполнения
> этих
> > запросов онлайн в Веб на 1 день.
> > (это чтобы не было настройки)
> > 4. Оценка
> > Как обычно в РОМИП - пулы, и т.д.
> > Надо выработать шкалу и критерии специфичные для этой дорожки.
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: QA

Postby andrey_ogarok » Wed May 24, 2006 2:24 pm

Re: QA

Здравствуйте!
В основном я согласен с вариантом, предложенным Игорем. Хотя,
вариант тестирования на основе метапоиска был бы проще реализуем и
нагляднее.
Далее некоторые предложения по предложенному Игорем варианту
тестирования.

1. Коллекция Narod.Ru . Индексируем и по ней проводим тесты. ОК.

2. Запросы.

2.1. Полагаю, что 100 вопросов будет недостаточно для объективной
оценки качества работы систем. Предлагаю Число вопросов установить
равным 500, как это сделано в конференции TREC.

2.2. Считаю, что следует определить ТИПЫ вопросов в коллекции.
Предлагаю организаторам утвердить следующий список ТИПОВ вопросов,
используемых для формирования тестовых случаев:
- Вопросы к определению, к подлежащему
Что такое? (Что такое анафора?)
Кто такой? (Кто такой Набоков?)
Кто сделал что-то? (Кто изобрел велосипед?)
Какая(ой)/какова? (Какая страна приняла участие в Олимпиаде?)
- Вопросы к прямому дополнению
Что сделал кто-то? (Что изобрел Томсон?)
- Вопросы к обстоятельству
Сколько? (Сколько человек живет в Москве?)
Какую длину/площадь/высоту…?
Какова длина/площадь/высота...? (Какова площадь помещений,
построенных в прошлом году?)
Когда? В какой день? В каком месяце? В каком году? Как долго?
(В каком году (месяце и т.д.) случился пожар?) (Как долго
проходили проверки?).
Куда? В какую страну/город? На какой континент? (Куда был
отправлен груз 18 мая?)
Откуда? Из какой страны/города? (Из какой страны прибыл груз 18
мая?)
Где? В какой стране/городе? На каком континенте? С какого
континента? (В каком городе находится Эйфелева башня?)
Почему? (Почему случился пожар?)
Как? (Как убрать пятно с ковра?)
- Вопросы к косвенному дополнению
Предлог + «что » (в чем, на чем, из чего) (Из чего состоит
вода?)
Какую (-ого) + слово с известной семантикой?
Какую (-ого)/какова + слово с неизвестной семантикой? *)
- Вопрос к прямому дополнению
Какую (-ие)? (Какую страну посетил Путин?)

Для анализа качества функционирования тестируемых систем предлагаю
вопросы разделить на две основные семантические категории:
- дефиниции (Что такое сонник?)
- фактоидные (Сколько весит взрослый слон?)

2.3. Коллекция Narod.Ru содержит тексты на английском языке.
Соответственно следует решить вопрос об использовании вопросов на
английском языке (What is the surface of America?) и вопросов,
содержащих слова на русском и английском языках (Когда была
образована корпорация Microsoft?).
3. Участники возвращают список из 5 ответов, упорядоченных по
убыванию релевантности.
Ответ должен содержать:
- имя файла, в котором найден данный ответ;
- текст ответа, содержащий не более 300 символов. Текст ответа
должен содержать полностью логически завершенную фразу, взятую
системой из текста, которая отвечает на тестовый вопрос. Текст
ответа не должен быть «рваным» (« … родился в Санкт-….»), а также не
должен содержать лишних слов соседних предложений («Иванов родился в
Санкт-Петербурге. Он занимался …»).

4. Оценка.
Асессоры оценивают полноту и точность поиска по согласованной
методике. Данная методика будет опубликована 5 июня.

5. План. Сроки проведения проверок желательно сдвинуть на 2 недели
позже ввиду нерешенности вопроса с формированием тестовой коллекции
вопросов.

Термины.
Вопрос пользователя – введенное пользователем вопросительное
предложение, по которому проводится поиск информации, содержащей
ответ. Для поиска смыслового ответа вопросительное предложение
должно иметь целостную синтактико-семантическую структуру, то есть
должно быть построено грамматически правильно.
Более детально остальные термины см. здесь:
http://www.stocona.ru/glossary/search/default.html

С уважением Огарок Андрей
andrey_ogarok
 
Posts: 11
Joined: Mon Feb 13, 2006 11:20 am

Re: [romip] Re: QA

Postby neigor » Sat May 27, 2006 11:46 pm

Добрый день Андрей,

> 2.1. Полагаю, что 100 вопросов будет недостаточно для объективной
> оценки качества работы систем. Предлагаю Число вопросов установить
> равным 500, как это сделано в конференции TREC.

это увеличивает трудоемкость оценки,
да и придумать несколько сот разных запросов н так уж просто.

Если 500, то тогда каждый участник представляет
200 запросов, и оргкомитет еще 250. Из каждой группы отбраковывается
до 50 (от каждого участника берется одинаков количество).

Давайте попробуем набрать столько запросов и посмотрим как оно будет
выглядеть. Всегда можно потом оценить меньше.

Ждем ваши 200 (можно больше) запросов :)

> 2.2. Считаю, что следует определить ТИПЫ вопросов в коллекции.
> Предлагаю организаторам утвердить следующий список ТИПОВ вопросов,
> используемых для формирования тестовых случаев:

хорошо, давайте в этом году ограничимся предложенным списком типов,
если у второго участника дорожки нет дополнений.

> Для анализа качества функционирования тестируемых систем предлагаю
> вопросы разделить на две основные семантические категории:
> - дефиниции (Что такое сонник?)
> - фактоидные (Сколько весит взрослый слон?)

безусловно можно бует посчитать статистику по этим и даже более узким
классам.

> 2.3. Коллекция Narod.Ru содержит тексты на английском языке.
> Соответственно следует решить вопрос об использовании вопросов на
> английском языке (What is the surface of America?) и вопросов,
> содержащих слова на русском и английском языках (Когда была
> образована корпорация Microsoft?).

Чисто англоязычные запросы нельзя.
вопросы в которых не-русскоязычные названия фигурируют в
виде имен собственных разрешаются.

> 3. Участники возвращают список из 5 ответов, упорядоченных по
> убыванию релевантности.

давайте скажем не более 10

> Ответ должен содержать:
> - имя файла, в котором найден данный ответ;

id одного из документов, из которого взята цитата с ответом
(ведь может быть >1 документа с (одним и тем же) годом смерти А.С. Пушкина,
в принципе и цитаты могут повторяться, но мы просим указать один любой на
выбор системы)

> - текст ответа, содержащий не более 300 символов. Текст ответа
> должен содержать полностью логически завершенную фразу, взятую
> системой из текста, которая отвечает на тестовый вопрос. Текст
> ответа не должен быть ╚рваным╩ (╚ ┘ родился в Санкт-┘.╩), а также не
> должен содержать лишних слов соседних предложений (╚Иванов родился в
> Санкт-Петербурге. Он занимался ┘╩).

Мне кажется что для проведения дорожки требование про логически завершенную
фразу является лишним. Без него мы cможем
выдать те же задания системам аннотирования и посмотреть будут ли
в аннотациях ответы. Если участнику принципиально, чтобы его система
выдавала минимальный и в то же время законченный ответ, то
никто не мешает ему выдавать такие ответы. Для оценки _своей_ системы
это не помеха. Те же кто не умеет или принципиально не хочет
выдавать такие аккуратные ответы могут выдавать их в более
свободной форме (что дает простор с оценкой систем аннотирования в
этом контексте).

> 4. Оценка.
> Асессоры оценивают полноту и точность поиска по согласованной
> методике. Данная методика будет опубликована 5 июня.

методика оценки асессорами будет зафиксирована окончательна скорее всего после
того как будут получены результаты и подготовлен инструмент для оценки.
Мы предполагаем что ассесор будет отвечать на вопрос:
есть ли в фрагменте ответ на вопрос
если да - то каков ответ
если нет - похоже ли что ответ содержится в полном документе

возмонжно все или часть полных документов в будет перепроверена на наличие
ответа

> 5. План. Сроки проведения проверок желательно сдвинуть на 2 недели
> позже ввиду нерешенности вопроса с формированием тестовой коллекции
> вопросов.

хорошо,
давайте постараемся сделать коллекцию вопросов к 15-му числу
- если будут какие-то накладки то у нас остается пространство для маневра.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Previous

Return to Вопросно-ответный и фактографический поиск

Who is online

Users browsing this forum: No registered users and 9 guests

cron