Добрый день,
текущие мысли о дорожке по фактографическому поиску.
1) Входная информация
Я попробовал помоделировать это задание поискав Яндексом на
сайтах народа информацию про разных персон.
Специфичность набора выражается в том, что для современных персоналий
из бизнеса/политики/т.п. информации либо нет, либо лежат биографии
(типа Путина).
Однако, менее широкоизвестные персоналии из науки, культуры и т.п.
и исторические персонажи вообщем-то есть.
В частности, в качестве списка персоналий можно использовать
список c http://dilet.narod.ru/days/195.html.
Там еще есть информация о профессии и ее тоже можно включить
(как справочный факт). Наверное, для задания системам стоит брать
только небольшой кусочек представленный в списке.
А ассесорам можно показывать в качестве вводной и и более детальное
описание.
Вот пример:
Галь, Ганс австрийский композитор
Гальберг, Самуил (Фридрих) Иванович российский скульптор, ученик И. П. Марто...
Гальвани, Луиджи итальянский физик и физиолог, один из ос...
Гамзатов, Расул Гамзатович аварский поэт
Гамильтон, Александер американский государственный деятель, ли...
Гамильтон, Иэйн шотландский композитор
Гамов, Джордж (Георгий Антонович) американский физик-теоретик российского ...
Попытка поискать например Гамильтон Александер на сайтах narod.ru
http://www.yandex.ru/yandsearch?ras=1&t ... rod.ru&ds=
находит 53 сайта. Конечно не все есть в нашей выборке и не для каждой
персоны есть хоть что-то, но все-таки пересечение есть.
2) Цель поиска
Мне кажется, что "Иванов - хороший человек" - это не очень интересный
результат поиска.
Я все-таки хочу еще раз попробовать донести мысль о сборе набора фактов
о персоналии. Для персон из упомянутого ранее списка биографий в narod.ru
почти нет, так что это все еще интересная задача.
То есть ответ - пассаж (можно несколько уровней гранулярности -
200/400 символов, например), содержащий один или несколько фактов
о персоналии. Факт - это какое-то событие, напрямую связанное с этой
персоной. Оно может быть связано с временной меткой, но это не обязательно.
Например, "лидер партии федералистов с 1789 года".
Есть конечно ряд сложностей, например:
"22 марта я имел встречу с генералом Гамильтоном"
и подобное.
Но если мы будем считать, что цель пользователя собрать подборку о событиях
связанных с персоналией, то решение о том разумный это факт или нет
будет определяться суюъективной оценкой ассесора.
3) Оценки
Задачей ассессора будет составление списка фактов по данному набору
фрагментов и расстановке ассоциаций фактфрагмент.
Факт, выделенный ассесором можно описать как:
событие = (временная метка (опция), действие, факт)
пример: (1789, стал, лидер партии федералистов),
действие конечно не совмем однозначно (например можно
сказать "занял пост"), но я не вижу как его можно формализовать
и на этот цикл РОМИП это можно оставить на откуп ассесорам
(дорожка-то пилотная)
Ассоциация. Если ассессор утверждает что в этом пассаже есть факт,
то он для этого факта должен выделить фрагмент текста, где это описано.
Словарь фактов в дополнение к размеченным пассажам позволяет повысить
переиспользуемость оценок, да и оценивать можно новизну одного пассажа
по сравнению с другим, лучше офенивать полноту (как множество найденных
фактов).
Не очень понятно как аккуратно объединять словари фактов от разных
ассесоров, но это можно еще продумать.
Трудоемкость оценки. Конечно пополнение словаря довольно медленный процесс,
но учитывая повторяемость фактов (включая ответы разных систем),
мне кажется вполне реально оценить несколько десятков персоналий,
используя пулинг (конечно повторение пассажей в ответах разных
систем заметно менее вероятно, но зато они короткие).
-igor