Новая дорожка

Общие обсуждения - потенциальные будущие дорожки, использование материалов РОМИП вне семинара, очные встречи и прочие вопросы для которых нет отдельной подтемы

Postby leomatveev1969 » Wed Feb 09, 2005 1:47 pm

Hello romip,

Хочу предложить новую дорожку. Прошу простить за то что излагать идею что и
как тестировать буду неформально.

Название дорожки : Поиск документов похожих по содержанию на заданный.

Тест1: Непосредственно поиск похожих документов на заданный

Условия: Берем базу из нескольких гиг информации (например из 20 гиг) неважно
что это подборки страниц из Инет, книги в электронном виде и т.д. Причем
чтобы в базе обязательно были
- одинаковые документы
- почти одинаковые документы (ну например пару строк поменяли местами или
разные заголовки или нет пары фраз и т.д.)
- документы разного объема но про одно и тоже. Ну например короткая новсть,
длинная новость
- документы похожие по тематике -- новость про туже компанию, новость просто
из данной тематики
(сами новости в приложении)

1) индексируем эту базу с засечением времени для всех учавствующих систем
2) Задаем в запросе поочередно например 10 новостей и оцениваем
- время отработки запроса
- релевантность полученного списка
3) берем теже 10 новостей и в при запросе на каждую из них
- удаляем часть новости
- меняем местами часть фраз
- добиваем пару фраз мусорной информации
Оцениваем как и в предыдущем

4) пакетная отработка поиска похожих
- генерим в автоматическом режиме 1000 запросов и оцениваем время.

Практическое применение :
I) При вводе документов в какую то систему уже на этапе ввода отсекаются
дубли, причем не чисто бинарные, а те которые немного отличаются друг от
друга, но по сути всеже являются дублями

II) После нахождения первого интересующего документа гораздо проще нажать
Найти похожие чем думать по каким еще фразам могут быть найдлены нудные
документы.

Тест2: Поиск большого документа по его фрагменту )Цитирование)
Условия: База как и в первом случае. Берем из документа пару абзацев и жмем
найти похожие. При корректной работе на первом месте должен стоять именно
документ из которого взят данный абзац. Далее усложняем тест
- в абзаце который идет на запрос удаляем часть данных, меняем местами пару
фраз и добавляем какую нибудь мусорную фразу.

Тест3: Составление отчета о похожести документа в уже существующей базе.
Условия: Берем базу из например 1 млн документов. На выходе должен быть отчет
примерно такого вида
Документ 1 (название)
--- Документ 15 (название) 100% (одинаков)
-- документ 9987 (название) 90%
Докуменнт2 (название)
-- документ 19 87%
-- докуменнт 876 -- 85%
....................................

Оцениваем
-- скорость работы
-- корректность отчета.



=============================================== ПРИЛОЖЕНИЕ =====================

--------- короткая новость -----------------

Avaya приобретает компанию Spectel за 85,7 млн евро Компания Avaya, ведущий
мировой поставщик программного обеспечения, систем и услуг для корпоративных
коммуникаций, объявляет о подписании соглашения о приобретении компании Spectel,
мирового лидера в области решений для голосовой конференц-связи, за 85,7 млн.
евро.Штат компании Spectel насчитывает порядка 210 сотрудников, офисы компании
расположены в Дублине (Ирландия), Андовере (США, штат Массачусетс) и других
стратегических центрах. На сегодняшний день Spectel обслуживает более 500
компаний по всему миру. Ожидается, что сделка будет завершена за 60 дней после
одобрения властями, проверки на соответствие ирландским законам, а также
выполнения дополнительных условий по завершению сделки купли/продажи компании.
"Мы считаем, что присоединение команды профессионалов и технологий компании
Spectel поможет нам ускорить разработку решений, которые смогут изменить рабочие
процессы предприятий и предоставить им существенные конкурентные преимущества",
- говорит Дон Петерсон (Don Peterson), председатель правления и президент
компании Avaya.

------- длинная новость ----------------------------------

Приобретение Spectel, мирового лидера в области голосовой конференц-связи,
позволит Avaya расширить портфель коммуникационных приложений для IP телефонии
Компания Avaya, ведущий мировой поставщик программного обеспечения, систем и
услуг для корпоративных коммуникаций, объявляет о подписании соглашения о
приобретении компании Spectel, мирового лидера в области решений для голосовой
конференц-связи, за 85,7 млн. евро. Штат компании Spectel насчитывает порядка
210 сотрудников, офисы компании расположены в Дублине (Ирландия), Андовере (США,
штат Массачусетс) и других стратегических центрах. На сегодняшний день Spectel
обслуживает более 500 компаний по всему миру. Ожидается, что сделка будет
завершена за 60 дней после одобрения властями, проверки на соответствие
ирландским законам, а также выполнения дополнительных условий по завершению
сделки купли/продажи компании. Данное приобретение поможет компании Avaya еще
больше расширить ее возможности в области конференц-связи, являющейся основной
технологией в сфере деловых коммуникаций. Основываясь на взаимоотношениях
компаний, сложившихся за четыре года совместной работы, Avaya продолжит
предлагать продукты Spectel для организации местной конференц-связи и решений
для поставщиков услуг конференц-связи на корпоративном рынке. Avaya также
планирует провести интеграцию технологий Spectel и собственного ведущего пакета
коммуникационного программного обеспечения для IP-телефонии, чтобы в дальнейшем
предоставлять компаниям расширенные функции конвергентной конференц-связи.
Конвергентная конференц-связь объединяет Интернет-, видео- и аудио-конференции,
а также обмен данными на основе сетей IP. Ожидается, что потребность в
конвергентных приложениях будет расти с ростом интенсивности внедрения IP
телефонии, объем рынка которой, по оценкам, составит 9,4 млрд. долл. в 2008 году
(по данным Synergy Research Group, Q1 2004 Enterprise Voice Worldwide
Forecast)..
В IP-телефонии голос передается в виде пакетов данных по сети, что может
упростить разработку приложений для совместного использования голосовой
информации и данных в бизнес-процессах. Например, в случае конференц-связи, если
программное обеспечение компании по отслеживанию ссуд [кредитных линий]
обнаруживает, что выполнение дорогостоящего контракта приостановилось, то
отдельная система, подключенная к коммуникационным сетям, может автоматически
запланировать и запустить конференц-связь для членов проектной команды с целью
разрешения проблемы - вместо того, чтобы ждать серии предупреждений и только
после этого принимать необходимые меры. Программные решения Spectel основаны на
индустриальных стандартах, они хорошо подходят для интеграции с системами
различных производителей. Подобный подход, основанный на использовании открытых
стандартов, может значительно упростить разработку конвергентных
коммуникационных решений совместно с другими лидерами индустрии. Гибкие решения
могут легко и экономически эффективно наращиваться для того, чтобы удовлетворять
потребностям крупных и мелких предприятий, а также глобальных поставщиков услуг.
Spectel предлагает локальные решения для внедрения на предприятиях, управляемые
решения для внедрения на предприятиях, а также решения для поставщиков услуг;
сюда входят и приложения для предоставления современных услуг, таких как
интеграция с другими программными пакетами для увеличения производительности,
сложные функции операторской поддержки и внедрение беспроводных систем
связи..

-------- новость на ту же тему про туже коипанию-------------------

Avaya приобретает компанию Tenovis Компания Avaya, ведущий мировой поставщик
программного обеспечения, систем и услуг для корпоративных коммуникаций,
объявляет о подписании договора о намерениях относительно приобретения компании
Tenovis GmbH & Co. KG, крупного европейского поставщика коммуникационных систем
и сервисов масштаба предприятия, у подразделения компании Kohlberg Kravis
Roberts & Co. По условиям соглашения Avaya выплатит около 370 млн. долл.
наличными, а также возьмет на себя долговые обязательства на сумму около 265
млн. долл. Представители компании отметили, что, помимо 115 млн. долл., которые
будут выплачены Tenovis при закрытии сделки, расходы Avaya составят порядка 255
млн. долл. наличными. Представители Avaya также заявили, что сделка должна
пройти обычную процедуру утверждения регулирующими органами и проверку
соблюдения условий приобретения. Представители Avaya заявили, что по завершении
сделки компания ожидает, что доходы от международной деятельности достигнут 40 %
от общего объема выручки компании (по сравнению с текущим результатом в 25 %).
Доходы компании, полученные в Европе, вырастут почти в три раза (с уровня около
12 % до почти 30 % от объема мирового бизнеса компании Avaya). Avaya ожидает,
что после того, как компании полностью закончат процесс слияния, Tenovis добавит
порядка 1 млрд. долл. к ежегодной прибыли компании Avaya. . Представители Avaya отметили, что, согласно
результатам исследований в данной отрасли, к 2007 году на Европу, Ближний Восток
и Африку будет приходиться треть мировых расходов на коммуникационные решения
масштаба предприятия, объем которых вырастет с 31 млрд. долл. в 2004 году до 42
млрд. в 2007. Компания Tenovis, штаб-квартира которой расположена в г.
Франкфурт, Германия, занимается поставками коммуникационных решений, включая
телефонные системы, центры обработки вызовов и центры контактов, системы
управления взаимодействием с клиентами (CRM), системы передачи сообщений,
сетевые решения, а также предоставляет услуги компаниям и органам
государственной власти на территории Европы. В компании работают более 5 400
сотрудников, офисы компании расположены в Австрии, Бельгии, Франции, Германии,
Италии, Испании, Швейцарии и Голландии. Представители Avaya отметили, что
присоединение Tenovis является следующим в серии плановых действий по расширению
портфеля и присутствия компании. Ранее в этом году компания расширила свои
дистрибьюторские каналы, ориентированные на малый и средний бизнес, в США
благодаря приобретению компании Expanets. Недавнее приобретение контрольного
пакета акций компании Tata Telecom Ltd., которая была переименована в Avaya
GlobalConnect Ltd., укрепило рыночные позиции Avaya в Индии и
Азиатско-тихоокеанском регионе. Благодаря приобретению компании Spectel, Inc.
компания Avaya значительно усилила свои позиции на рынке приложений для
конференц-связи. .. В связи с приобретением Avaya
возьмет на себя определенные обязательства, связанные с выплатой пособий и
предоставлением льгот сотрудникам, а также в соответствии с требованиями
отчетности U.S. GAAP проведет как задолженность два долговых обязательства по
продаже и получению оборудования в аренду на сумму около 90 млн. долл. США.
Представители компании также заявили, что приобретение должно привести к росту
стоимости акций на $0.07 на акцию в 2006 финансовом году - первом финансовом
году, когда компании предоставят совместные финансовые результаты. Ожидается,
что за вычетом неповторяющихся расходов и затрат на начало реализации проекта в
размере $0.05, расходы на реализацию сделки по приобретению компании в 2005 году
составят $0.03 на акцию. Сделка окажет влияние на результаты 2005 финансового
года, в финансовые результаты будут включены показатели девяти месяцев работы
Tenovis; если бы учитывались результаты полного года работы компании, то сделка
в 2005 году была бы признана безубыточной (за вычетом неповторяющихся расходов и
затрат на начало реализации проекта). , - заявил Гарри К. МакГвайр (Garry
K. McGuire), главный финансовый администратор Avaya. Господин МакГвайр отметил,
что в конце третьего финансового квартала доля активов Avaya, вложенных в
краткосрочные эквиваленты наличности, составляла 1.5 млрд. долл. США, а объем
чистого поступления наличности составил 939 млн. долл., в то время как
операционное движение наличности за первые девять месяцев финансового года
составило 350 млн. долл. США. Он также отметил, что Avaya планирует продолжать
следовать стратегии отказа от использования кредитов для проведения финансовых
операций, таким образом, после завершения сделки общая сумма долга компании
должна снизиться или остаться на текущем уровне. История компании Tenovis
насчитывает более 100 лет. Компания была основана в 1899 году во Франкфурте как
фирма по сдаче в аренду телефонных систем в Германии. В 1930-х годах компания
получила название и позже была переименована в
Telenorma. В 1987 году компания полностью перешла в собственность Robert Bosch
GmbH и стала подразделением этой компании. В 2000 году частное совместное
предприятие Kohlberg Kravis Roberts & Co. выкупило компанию, и с тех пор она
работала на рынке под названием Tenovis. Консультирование Avaya по проведению
этой сделки провели компании Evercore Partners и JPMorgan Chase. Tenovis/KKR
были представлены компаниями CSFB и Morgan Stanley.

-------- новость из данной темы -----------------------------------

Компания IBM заключила сделку по приобретению частной софтверной фирмы Venetica,
базирующейся в штате Северная Каролина (США), сообщает Infoworld. Компания
Venetica, основанная одиннадцать лет назад, является разработчиком ПО
VeniceBridge для интеграции систем электронного документооборота с другими
приложениями на основе Java-ориентированной архитектуры. IBM пока не раскрывает
финансовые условия сделки, которая, предположительно, завершится в четвертом
квартале текущего года. Покупка Venetica станет для IBM восемнадцатым по счету
приобретением за последние три года. Недавно IBM также приобрела компании Cyanea
Systems, Alphablox и Trigo Technologies.



--
Best regards,
Leo Matveev
SoftInform mailto:swrus@...
leomatveev1969
 
Posts: 7
Joined: Tue Feb 08, 2005 8:10 am

RE: [romip] Новая дорожка

Postby maxgubin » Wed Feb 09, 2005 6:46 pm

Всем добрый день!

> Название дорожки : Поиск документов похожих по содержанию на заданный.
> Тест1: Непосредственно поиск похожих документов на заданный

> Условия: Берем базу из нескольких гиг информации (например из 20 гиг)
>неважно

Я давно был за большую базу, но, во-первых, такую большой базы пока нет, и
не ясно появится ли она, во-вторых, ее передача может составить чисто
техническую проблему.


>Причем
> чтобы в базе обязательно были
> - одинаковые документы
> - почти одинаковые документы

А как же этого добиться-то? Кто это будет делать?

> 1) индексируем эту базу с засечением времени для всех учавствующих систем

По правилам РОМИП задания выполняются участником на его оборудовании. Как
потом "сводить" эти результаты. Вот я делаю РОМИП в свободное время на своем
ноутбуке, но если очень напряжет, запущу в параллель на 100 компьютерах в
гигабитной сети. Времена будут разные, но о чем они скажут? Я понимаю
желание показать, что технология "СофтИнформ" очень эффективная, но здесь
это будет трудно показать.

В общем, первый тест мне не очень интересен. На практике есть частая
проблема найти одинаковые документы (с очень близкими текстами), т.к. мы
вводим из нескольких источников. Но тут шинглы идеально работают.

> Тест2: Поиск большого документа по его фрагменту )Цитирование)

Это интересное задание, но я не согласен с "парой абзацев" - это слишком
много. Вопрос откуда взять эти цитаты с "искажениями"? Без "искажений"
задание не интересное - оно тривиальное. Может совместить 1 и 2:
1. Берется документ, в нем отмечается абзац (т.е. в задании есть документ и
указание интересующего абзаца).
2. Выход - список документов, которые, по мнению системы, содержат абзацы на
ту же тему.
3. Производится стандартная оценка асессором.

В случае законодательства, такая задача может быть практически интересна.
Есть, например, Кодексы, там, как правило, каждая статья потом разъясняется
подзаконными актами. Сейчас это отлавливается по ссылке из подзаконного
акта, а это будет "обратная" задача. Тут даже проверку можно сделать
полуавтоматической.

> Тест3: Составление отчета о похожести документа в уже существующей базе.

Тут мы упираемся в старую тему "что такое похожесть". Не интересно.

Максим
ИК Кодекс
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

Re[2]: [romip] Новая дорожка

Postby leomatveev1969 » Wed Feb 09, 2005 8:56 pm

Hello Max,

Wednesday, February 9, 2005, 7:46:23 PM, you wrote:


MG> Я давно был за большую базу, но, во-первых, такую большой базы пока нет, и
MG> не ясно появится ли она, во-вторых, ее передача может составить чисто
MG> техническую проблему.
Ну гиг так примерно 25-30 я уже насобирал -- правда большей частью разные там
книги. Но есть и много мелких документиков

+ наверно через месяц у меня будет гиг 50-60 == мне обещают подкинуть вагон pdf
и т.д.

Так что могу поучавствовать в создании такой БД. А насчет передавать то если к
примеру даже 50 гиг заархивировать то это будет штук 5-6 DVD -- ноша в принципе
подъемная.

>>Причем
>> чтобы в базе обязательно были
>> - одинаковые документы
>> - почти одинаковые документы

MG> А как же этого добиться-то? Кто это будет делать?

Могу я сделать. Для тестов у меня и так кое чего собрано.
Да можно даже в лоб подписаться на rss -- там столько почти одинаковых или
вообще одинаковых если rss тянуть из разных источников. Ух.......

То есть технически проблем не вижу. И если один из моих программеров потратит на
это даже целую неделю -- то для общего блага не жалко.



>> 1) индексируем эту базу с засечением времени для всех учавствующих систем

MG> По правилам РОМИП задания выполняются участником на его оборудовании. Как
MG> потом "сводить" эти результаты. Вот я делаю РОМИП в свободное время на своем
MG> ноутбуке, но если очень напряжет, запущу в параллель на 100 компьютерах в
MG> гигабитной сети. Времена будут разные, но о чем они скажут? Я понимаю
MG> желание показать, что технология "СофтИнформ" очень эффективная, но здесь
MG> это будет трудно показать.
Да вопрос не в нашей технологии а в объективности. Выполняться должно на одной и
той же аппаратуре с одинаковыми характеристикакми.

Откуда взять одинаковую аппаратуру? Давайте я попытаюсь решить эту проблему.
Думаю наш OEM партнер -- компания k-systems, которая вместе с частью своих
компов поставляет наши программы -- AdsCleaner и FineBrowser с радостью
проспонсирует аппаратурой на несколько дней. На Isdef k-systems предостваила
бесплатно все необходимое оборудование.

Если оргкомитет (или что в РОМИП -- сорри я здесь всего второй день) меня
уполномочит, то я пообщаюсь с k-systems прямо в феврале и думаю вопрос с
одинаковой аппаратурой решится положительно.


MG> В общем, первый тест мне не очень интересен. На практике есть частая
MG> проблема найти одинаковые документы (с очень близкими текстами), т.к. мы
MG> вводим из нескольких источников. Но тут шинглы идеально работают.
Готов доказать что не всегда шингды хорошо работают. Тест на самом деле и
покажет это.

>> Тест2: Поиск большого документа по его фрагменту )Цитирование)

MG> Это интересное задание, но я не согласен с "парой абзацев" - это слишком
MG> много. Вопрос откуда взять эти цитаты с "искажениями"? Без "искажений"
MG> задание не интересное - оно тривиальное. Может совместить 1 и 2:
MG> 1. Берется документ, в нем отмечается абзац (т.е. в задании есть документ и
MG> указание интересующего абзаца).
MG> 2. Выход - список документов, которые, по мнению системы, содержат абзацы на
MG> ту же тему.
MG> 3. Производится стандартная оценка асессором.

MG> В случае законодательства, такая задача может быть практически интересна.
MG> Есть, например, Кодексы, там, как правило, каждая статья потом разъясняется
MG> подзаконными актами. Сейчас это отлавливается по ссылке из подзаконного
MG> акта, а это будет "обратная" задача. Тут даже проверку можно сделать
MG> полуавтоматической.

Вариации могут быть разные -- можно и так и так.

>> Тест3: Составление отчета о похожести документа в уже существующей базе.

MG> Тут мы упираемся в старую тему "что такое похожесть". Не интересно.
Это можно формализовать.

--
Best regards,
Leo Matveev
SoftInform mailto:swrus@...
leomatveev1969
 
Posts: 7
Joined: Tue Feb 08, 2005 8:10 am

Re[2]: [romip] Новая дорожка

Postby neigor » Fri Mar 04, 2005 12:48 pm

Добрый день,

> MG> Я давно был за большую базу, но, во-первых, такую большой базы пока нет, и
> MG> не ясно появится ли она, во-вторых, ее передача может составить чисто
> MG> техническую проблему.
>
> Ну гиг так примерно 25-30 я уже насобирал -- правда большей частью разные
> там книги. Но есть и много мелких документиков
>
> + наверно через месяц у меня будет гиг 50-60 == мне обещают подкинуть
> вагон pdf и т.д.

технически проблема распространения конечно вполне решаема.

Однако, как обстоят дела с правами на возможность распространения
собранных вами документов?
На данный момент _все_ коллекции используемые в РОМИП собраны и
расспространяются абсолютно легально:
- Веб-коллекция Narod.Ru предоставлены Яндексом,
- коллекция нормативных документов Кодексом

в этом году благодаря усилиям Яндекса в РОМИП'2005 видимо будет еще и
новостная коллекция. Мы заинтересованы в новых коллекциях и будем благодарны
за помощь в их создании, но это должно быть сделано правильно.

Единственный использовавшийся в РОМИП набор документов на который мы не
имеем явного разрешения от правобладателя - коллекция DMOZ.
Поэтому, даже не смотря на то что при ее составлении выкидывались
все сайты явно запрещающие копирование или использование материалов,
мы ее использовали лишь как вспомогательный набор для обучения.

> >>Причем
> >> чтобы в базе обязательно были
> >> - одинаковые документы
> >> - почти одинаковые документы
>
> MG> А как же этого добиться-то? Кто это будет делать?
>
> Могу я сделать. Для тестов у меня и так кое чего собрано.
> Да можно даже в лоб подписаться на rss -- там столько почти одинаковых или
> вообще одинаковых если rss тянуть из разных источников. Ух.......

В свете вышесказанного - как собрать такую коллекцию, чтобы мы могли
ее ЛЕГАЛЬНО использовать в РОМИП?

> То есть технически проблем не вижу. И если один из моих программеров
> потратит на это даже целую неделю -- то для общего блага не жалко.

техническая помощь конечно всегда приветствуется :)

> >> 1) индексируем эту базу с засечением времени для всех учавствующих
> >> систем
>
> MG> По правилам РОМИП задания выполняются участником на его оборудовании. Как
> MG> потом "сводить" эти результаты. Вот я делаю РОМИП в свободное время на
своем
> MG> ноутбуке, но если очень напряжет, запущу в параллель на 100 компьютерах в
> MG> гигабитной сети. Времена будут разные, но о чем они скажут? Я понимаю
> MG> желание показать, что технология "СофтИнформ" очень эффективная, но здесь
> MG> это будет трудно показать.
>
> Да вопрос не в нашей технологии а в объективности. Выполняться должно на
> одной и той же аппаратуре с одинаковыми характеристикакми.
>
> Откуда взять одинаковую аппаратуру? Давайте я попытаюсь решить эту проблему.
> Думаю наш OEM партнер -- компания k-systems, которая вместе с частью своих
> компов поставляет наши программы -- AdsCleaner и FineBrowser с радостью
> проспонсирует аппаратурой на несколько дней. На Isdef k-systems предостваила
> бесплатно все необходимое оборудование.
>
> Если оргкомитет (или что в РОМИП -- сорри я здесь всего второй день) меня
> уполномочит, то я пообщаюсь с k-systems прямо в феврале и думаю вопрос с
> одинаковой аппаратурой решится положительно.

формально, конечно можно провести эксперимент на одинаковой аппаратуре,
если есть такая возможнеость и есть желающие участвовать.

лично у меня есть сомнения в большой полезности и популярности такого
подхода.

То, что участники проводят эксперименты на собственной аппаратуре не только
решает проблему поиска оборудования организаторами - это также позволяет
участнику сохранить полный контроль над системой - он САМ проводит
эксперименты и НИКТО не получит доступ к системе без его ведома.
Он также может потратить на проведение эксперимента столько времени
и сил сколько хочет - вплоть до поиска ответов на задания вручную :)
РОМИП ведь не "пузомерка", итоговые цифры рекламировать нельзя.
Это возможность для себя понять насколько хорошо работает ваш подход.

В РОМИП тестируется много экспериментальных алгоритмов, с целью проверить
идею. Это не коммерческие продукты и об практической оптимизации тут думают
лишь, чтобы требуемые задачи решались за разумное время.
Сравнение же оптимизации кода в рамках РОМИП мне кажется не релевантным.
Теоретическая трудоемкость алгоритма - это разумная характеристика идеи,
а качество кода определяется количеством ресурсов на это потраченных.

> MG> В общем, первый тест мне не очень интересен. На практике есть частая
> MG> проблема найти одинаковые документы (с очень близкими текстами), т.к. мы
> MG> вводим из нескольких источников. Но тут шинглы идеально работают.
> Готов доказать что не всегда шингды хорошо работают. Тест на самом деле и
> покажет это.

Вполне вероятно что существуют более качественные методы решения задачи.
Сравнение качества решения такой задачи - хороший повод сделать дорожку.

Но тут нужна хорошая РЕАЛЬНАЯ коллекция. Внесение исскуственного шума в
тексты идея не очень хорошая. Вряд ли мы сможем придумать алгоритм
хорошо приближающий реальные изменения, а без этого непонятно какой смысл
будет иметь полученные оценки (кто лучше угадал алгоритм внесения шума?).

> >> Тест2: Поиск большого документа по его фрагменту )Цитирование)
>
> MG> Это интересное задание, но я не согласен с "парой абзацев" - это слишком
> MG> много. Вопрос откуда взять эти цитаты с "искажениями"? Без "искажений"
> MG> задание не интересное - оно тривиальное. Может совместить 1 и 2:
> MG> 1. Берется документ, в нем отмечается абзац (т.е. в задании есть документ
и
> MG> указание интересующего абзаца).
> MG> 2. Выход - список документов, которые, по мнению системы, содержат абзацы
на
> MG> ту же тему.
> MG> 3. Производится стандартная оценка асессором.
>
> MG> В случае законодательства, такая задача может быть практически интересна.
> MG> Есть, например, Кодексы, там, как правило, каждая статья потом
разъясняется
> MG> подзаконными актами. Сейчас это отлавливается по ссылке из подзаконного
> MG> акта, а это будет "обратная" задача. Тут даже проверку можно сделать
> MG> полуавтоматической.

а как сформировать 10000 заданий?
Типа, берем каждый третий абзац из N (случайных?) документов
пока не наберется 10000. Просим систему поискать для каждого из них
и потом отбираем что будут оценивать люди?

> >> Тест3: Составление отчета о похожести документа в уже существующей базе.
>
> MG> Тут мы упираемся в старую тему "что такое похожесть". Не интересно.
> Это можно формализовать.

Как? Нельзя ли поподробнее?

Для того чтобы была дорожка нам надо иметь:
1) коллекцию
2) набор заданий
3) описание задачи, которое
- интересно ряду участников
- достаточно четко определено, как для участников, так и для тех
кто будет проверять результаты
(то есть это должна быть проблема, понятная пользователю системы)

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm


Return to Общие вопросы

Who is online

Users browsing this forum: No registered users and 12 guests

cron