Фактографический поиск - подготовка задания

Фактографический поиск - подготовка задания

Postby neigor » Fri Apr 09, 2004 9:56 am

Мы вынули всех персон с dilet.narod.ru - всего получилось 4984.

Для каждой персоны мы планируем включить в задание ФИО +
кусочек описания до первой точки/запятой/скобки, что на самом деле
описывает область деятельности. Цель - уточнение какого Иванова
мы тут имеем ввиду.
Ассессоры получат полный вариант описания (он сам по себе часто содержит
факты - годы жизни и игогда другие ключевые события, что может помочь
соориентироваться при проведении оценки).

Примеры:
Шандор Петёфи, венгерский поэт
Фридрих Вильгельм Канарис, немецкий адмирал

Эти эвристики не идеально сохраняют всю доступную информацию (так, например,
про Канариса еще написано, что он руководитель Абвера, но мы это потеряем
в заданиях для систем), но хочется избежать случаев вида
"Рихард Зигмонди
австрийский химик, лауреат Нобелевской премии 1925 года."

Не совсем понятно, что делать со случаями когда у человека есть
несколько имен/псевдонимов. Например:

Лоренцо де Медичи (Великолепный)
Фёдор Сологуб (Фёдор Кузьмич Тетерников)
Мэрилин Монро (Норма Бейкер)
Игорь (Гарик) Иванович Сукачёв
Владимир Ильич Ленин (Ульянов)
Л. Пантелеев (Алексей Иванович Еремеев)

Пока мы склоняемся к мысли оставить их в таком виде
(всего таких случаев 345), слегка подчистив случае вида:

Пол Крестон (настоящие имя и фамилия Джозеф Гуттаведжо)
Николай Николаевич Ерёменко (младший)

(убрав все не относящиеся к имени)

Непонятно, как правда вычистить это:
Джон Форд (Шон Алоизиус О'Фирна или О'Фини)

В конце-концов таких случаев немного и даже без них у нас будет порядка 4500
заданий, что вполне прилично. Или мы всегда можем принять волевое
решение не включать эти варианты в кандидаты на оценку
(хотя возможно такие персоны будут чаще упоминаться в нашем наборе данных
и поэтому на них интересно оценивать)

Какие есть предложения?

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Postby vladimir_pleshko » Fri Apr 09, 2004 11:10 am

При формулировке заданий для систем, видимо, следует исходить из следующего
принципа:
система должна однозначно и самостоятельно выделить все синонимичные
наименования и должность/род занятий.

Для этого нужно четко разделять варианты имени персоны и дополнительную
информацию. Например, в таком формате:
///
- должно начинаться с имени и заканчиваться фамилией, между ними может
следовать отчество, второе имя и т.п. (арабские имена, видимо, нужно давать как
есть);
- может содержать национальную принадлежность (венгерский),
должность/род занятий (поэт);

Простые примеры:
Шандор Петёфи//венгерский поэт
Фридрих Вильгельм Канарис//немецкий адмирал

Посложнее:
Лоренцо де Медичи/Лоренцо Великолепный
Фёдор Сологуб/Фёдор Кузьмич Тетерников
Мэрилин Монро/Норма Бейкер
Игорь Иванович Сукачёв/Гарик Иванович Сукачёв
Владимир Ильич Ленин/Владимир Ильич Ульянов
Ленька Пантелеев/Алексей Иванович Еремеев
Пол Крестон/Джозеф Гуттаведжо
Джон Форд/Шон Алоизиус О'Фирна/Шон Алоизиус О'Фини

Еще:
Михаил Сергеевич Горбачев/президент СССР//президент СССР
В данном случае "президент СССР" является как абсолютным синонимом, так и доп.
информацией.
Также можно написать и про "президента России" - пусть системы проверяют на
непротиворечивость (чья фамилия увтретилать, Путина или Ельцина, к тому и
относится "президент ...", за исключением явных упоминаний типа "президент
России ЧЧЧЧ")
Не настаиваю.

Что делать с такими ?
Николай Николаевич Ерёменко (младший)
можно в доп. информацию:
Николай Николаевич Ерёменко//младший
Кто захочет тот будет учитывать (объем ключевой лексики, входящей в доп.
информацию не так уж и велик).

Кстати, можно допускать несколько разделов с доп. информацией:
Пресняков//младший//певец

О реализации:
Естественно, работа по составлению такого списка не может быть целиком
автоматизирована. Порядка 500 записей нужно будет править вручную. Займет
несколько часов. Если требуются ресурсы, могу пособить.

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

RE: [romip] Фактографический поиск - подготовка задания

Postby neigor » Fri Apr 09, 2004 11:37 am

> При формулировке заданий для систем, видимо, следует исходить из
> следующего принципа: система должна однозначно и самостоятельно выделить
> все синонимичные наименования и должность/род занятий.

> Для этого нужно четко разделять варианты имени персоны и дополнительную
> информацию.

Например, в таком формате:

> ///
> - должно начинаться с имени и заканчиваться фамилией, между ними может
следовать отчество, второе имя и т.п. (арабские имена, видимо, нужно давать как
есть);
> - может содержать национальную принадлежность (венгерский),
должность/род занятий (поэт);
>
> Простые примеры:
> Шандор Петёфи//венгерский поэт
> Фридрих Вильгельм Канарис//немецкий адмирал

конечно мы разделим имя и информацию и завернем в xml,
просто в письме теги решил пока не писать
(мы еще не договорились про формат между собой :)

> Еще:
> Михаил Сергеевич Горбачев/президент СССР//президент СССР

> В данном случае "президент СССР" является как абсолютным синонимом, так и
> доп. информацией.
> Также можно написать и про "президента России" - пусть системы проверяют
> на непротиворечивость (чья фамилия увтретилать, Путина или Ельцина, к тому
> и относится "президент ...", за исключением явных упоминаний типа
> "президент России ЧЧЧЧ")

это наверное уже черезчур для первого раза :)
Для того чтобы это разумно оценивать надо пару десятков подобных примеров
(иначе уследнять нельзя). Поскольку всего оцениваться будет несколько
десятков, то это явно выглядит как тема дальнейшего анализа.

Вообще, Править семантику данных (дописывать информацию руками) - тоже
нехорошо,
поскольку мы правим, что что знаем сами и это вносит перекос в данных
под наше понимание (а поскольку МЫ контролием все остальные шаги оценки
и работу систем, то это порождает лишние сомнения насчет обоснованности
результатов. А так данные честные, в том плане, что они подготовлены
независимым источником.

> Что делать с такими ?
> Николай Николаевич Ерёменко (младший)
> можно в доп. информацию:
> Николай Николаевич Ерёменко//младший

> Кто захочет тот будет учитывать (объем ключевой лексики, входящей в доп.
> информацию не так уж и велик).
> Кстати, можно допускать несколько разделов с доп. информацией:
> Пресняков//младший//певец

хмм, этого я бы хотел избежать
Поскольку тогда непонятно почему для записей без скобок мы готовы терять
часть информации.

пример полной записи:

Оскар Кокошка
австрийский живописец, график, писатель, один из главных представителей
экспрессионизма ("Натюрморт с мертвым барашком", "Сила музыки", "Фермопилы").

а бороться с этим честно - значит придется смотреть все 5000 ....

мне кажется, что исключений (подобных этому) совсем не так уж много и
лучше просто либо потерять часть информации ("младший"), либо
выкинуть этот случай (либо оставить, но не оценивать)

Предлагаю компромис:
имена в скобках разворачиваем вручную (345 записей),
а дополнительная информация остается неизменной.

> О реализации:
> Естественно, работа по составлению такого списка не может быть целиком
> автоматизирована. Порядка 500 записей нужно будет править вручную. Займет
> несколько часов. Если требуются ресурсы, могу пособить.

Это было бы здорово -
я могу прислать весь (или часть) списка (из 345 персон) в простом формате.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

RE: [romip] Фактографический поиск - подготовка задания

Postby vladimir_pleshko » Fri Apr 09, 2004 12:06 pm

Согласен. Пытаюсь резюмировать обсуждение. Если где ошибся, поправьте.

Итак:
1. в качестве доп. информации для систем в задания включается текст описания до
первой запятой,
2. имена персон берутся как есть за исключением, содержащих скобки,
3. имена со скобками разворачиваются в синонимы вручную (345),
4. все "нестандартные" записи, требующие более "интеллектуальной" обработки,
например (младший), исключаются из списка заданий.

Готов взять на себя разбор имен со скобками (жду список и описание выходного
формата).

С уважением,
Владимир Плешко
vladimir_pleshko
Оргкомитет
 
Posts: 71
Joined: Fri May 23, 2003 8:26 am

RE: [romip] Фактографический поиск - подготовка задания

Postby neigor » Fri Apr 09, 2004 12:14 pm

> 1. в качестве доп. информации для систем в задания включается текст
> описания до первой запятой,

или точки, скобки

все остальное - верно.

> Готов взять на себя разбор имен со скобками (жду список и описание
> выходного формата).

сейчас я еще пару мелких багов поправлю и пришлю.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm


Return to Вопросно-ответный и фактографический поиск

Who is online

Users browsing this forum: No registered users and 12 guests

cron