Коллекции для QA дорожки

Коллекции для QA дорожки

Postby andrey_ogarok » Tue Mar 28, 2006 9:11 am

Публикую нашу переписку. Возможно она окажется полезной для других
участников.

RE: "Андрей, вы не против если я отвечу вам на это письмо в список
рассылки?
Или вы эту информацию туда перешлите, пожалуйста, - это полезно для
потенциальных участников и дорожки в целом".
-igor
p.s.
Как минимум еще одна группа выразила свой интерес к участию в этой
дорожке, так что если договориться о методологии(вопросы озвученные
Максимом и Борисом важны и без нашего общего понимания ответов на
них ценность эксперимента будет меньше чем хотелось бы) и четко
понимать статус коллекций, то шансы неплохи.
p.p.s.
Сейчас уже можно/нужно присылать формальную заявку для включения в
список участников (я помню что вы почти все прислали предварительно,
но повторите если не сложно)

On Fri, 24 Mar 2006, Andrey Ogarok wrote:

> Здравствуйте Игорь! Спасибо за вынесение на общее обсуждение
вопроса о включении дорожки QA в общий состав дорожек РОМИП. Для
дорожки QA конечно можно использовать существующие коллекции
текстов, дополнив их списками вопросов и методическим аппаратом
оценки результатов. "Стокона" готова использовать существующие
коллекции, сформировать списки тестовых вопросов и предоставить
аппарат автоматизации оценок правильности ответов тестируемых
систем на соответствующие вопросы. Мы готовы предоставить
участникам конференции РОМИП для тестирования некоторые имеющиеся у
нас коллекции текстов и вопросов к ним. Немного позже мы приведем
ссылку где их можно будет посмотреть. В качестве тестовых
коллекций можно использовать также CD диски с текстами сторонних
организаций. Достигнута договоренность с редакцией "независимой
газеты" по использованию подборки их текстов за 1997 - 2000 г.г. для
тестирования участниками конференции РОМИП. Редакция "независимой
газеты" готова предоставить диски в тестирующую (-ие) организацию
(-ии). Стоимость коллекции "независимой газеты" - 250 руб ( за 4
CD).
Огарок Андрей
>
> Igor Nekrestyanov <igor@...> wrote:
> Добрый день Андрей,
>
> если вы все еще заинтересованы в появлении новой дорожки в РОМИП,
> то надо активизировать обсуждение.
> Может быть можно будет прийти к компромисному варианту -
> например использовать схожие наборы заданий (одно является
подмножеством
> другого), одну и ту же коллекцию принцип оценки асессорами для
> совмещения пары задач в одной дорожке.
> Например, в прошлом году это было сделано для поиска по запросу
> с обратной связью и поиска документов по образцу.
> Это конечно не идеальное решение, это как-бы пилотный проект -
> участники всегда серьезнее смотрят на что-то, что уже было и
> показалось им полезным (например, в кластеризации новостей в
прошлом году участвовала только одна команда).
>
> Нам также интересно появление в РОМИП новых коллекций - для того
чтобы успеть в этом году надо уже спешить. Пока я все еще не видел
ответов на вопросы про
> - характеристики возможных коллекций
> - наличие прав на их передачу РОМИП
>
> Безусловно, большинство из этих вопросов лучше обсуждать в форуме,
> чтобы заинтересованные участники могли высказаться,
>
> -igor
>
> On Mon, 27 Feb 2006, Andrey Ogarok wrote:
>
> > Всем привет!
> > Отдельно - здравствуйте Максим!
> > Спасибо за ответ. Отвечая на ваше письмо в кодировке Unicode
пишу в
кодировке KOI8-U, как договаривались организаторы. Жаль что вы не
сможете участвовать в QA дорожке.
> > 1. Коллекция документов у нас имеется. Компания Стокона готова
предоставить для организаторов РОМИП: тестовые задания для дорожки,
методики оценки, в том числе программные средства, позволяющие
автоматизировать процесс оценки. Мы будем участвовать в конференции
TREC 2006 с
английской коллекцией документов. Для РОМИП мы предлагаем имеющуюся
у нас
русскую коллекцию. Кроме того, опыт использования нашей поисковой
системы
Stocona Search показывает, что в качестве QA коллекции может
выступать
коллекция скачанных сайтов (например, "вокруг света", "барракуда",
"википедия" и др. Просто надо подобрать вопросы и можно тестировать.
> >
> > 2. Область практического применения технологии QA действительно
более узкая, чем традиционной технологии поиска по ключевым словам.
Это
обусловлено тем, что системы QA должны автоматически отвечать на
вопросы
с использованием ДОСТОВЕРНОЙ информации, а не информационного
мусора.
Поэтому основными потребителями QA систем являются корпорации и
пользователи, работающими с серьезными документами и доверяющими
текстам,
подлежащим индексации. Эти пользователи ценят время, затрачиваемое
на поиск
и им нужен не ресурс, содержащий слова поискового запроса (для того,
чтобы далее в нем копаться самому), а ответ на поставленный вопрос.
Именно поэтому многие поисковые системы пытаются в отдельные
направления
выделить поиск по академическим и школьным ресурсам, по словарям и
т.п.
направления, где нужны точные ответы, ценные ресурсы, а не
информационный
шум.
> >
> > Огарок Андрей.
> >
> > Max Gubin wrote:
> > Всем привет!
> > Тема, конечно интересная, но как преодолеть две проблемы:
> > 1. нет коллекций как документов, содержащих ответы, так и
вопросы.
Я посмотрел имеющиеся коллекции - там таких запросов очень не много.
Можно ее, конечно, синтезировать из существующей, но на том же TREC
написано, как это не просто. Где изыскать эти ресурсы?
> > 2. Я знаю пользователей поиска, я знаю, где можно применить
автоматическую классификацию, выделение фактов, аннотирование. Я
даже знаю,
кто может заплатить за такой модный изврат, как sentiment analysis.
Но я
не могу предположить практического применения технологии QA в
постановке задачи TREC, это очень узкая область. Соответственно при
всем
любознательном интересе к QA, я просто не смогу разрабатывать такую
систему.
И, к сожалению, не смогу участвовать в этой дорожке.
> > Максим Губин
andrey_ogarok
 
Posts: 11
Joined: Mon Feb 13, 2006 11:20 am

Return to Вопросно-ответный и фактографический поиск

Who is online

Users browsing this forum: No registered users and 11 guests

cron