> IN> Мне не совсем понятно, в чем "некорректность" предложенной постановки?
> IN> В том, что есть более интересные вам задачи?
> В том что искать пусть даже и по 300 словам пользователю
> неинтересно.
Как вы можете делать выводы за всех пользователей всех систем?
Возможно, пользователям вашей системы, важно уметь искать "похожие"
(что такое похожий?) документы. Но бывают разные ситуации.
Вот, например, пример от Максима Губина:
http://groups.yahoo.com/group/romip/message/385?simple=1В случае законодательства, такая задача может быть практически интересна.
Есть, например, Кодексы, там, как правило, каждая статья потом разъясняется
подзаконными актами. Сейчас это отлавливается по ссылке из подзаконного
акта, а это будет "обратная" задача. Тут даже проверку можно сделать
полуавтоматической.
> IN> У нас просто физически не хватит сил организовать все возможные
> IN> дорожки, да и пользы больше когда можно сравнить свой результат
> IN> с чужим.
> Правильно. Но ряд производителей поисковых систем говорят что они
> могут искать докумерты похожие по содержанию -- вот и было бы очень
> любопытно сравнить. Все что мы сами сравнивали с тем что есть
> однозначно очень сильно в нашу пользу, но это наша оценка, а мне
> интересны оценки в рамках РОМИП про качество поиска документов похожих
> по содержанию.
Так уж устроен человек, что каждый склонен считать свое произведение
гениальным

Но давайте не будет голословно это утверждать.
Еще раз повторю - участие в РОМИП добровольное. Каждый участник сам решает
на что тратить свои силы (и конечно склонен выбирать те задачи что ЕМУ
интересны).
Я лично (и другие члены оргкомитета скорее всего тоже) принципиально ничего
не имею против дорожки по поиску "похожих" документов.
Если вы хотите устроить сравнение с другими системами, то вам надо
заинтересовать их интересной вам дорожкой. И мне кажется
что правильнее именно пытаться искать компромисные постановки задачи
(те, которые интересны участникам из возможно других областей),
а не бить себя пяткой в грудь
> IN> [поэтому предложили использовать параграфы - только эта постановка
> IN> вызвала какой-то интерес при обсуждении этой дорожки ранее]
> Использование параграфов это мелкая подзадачка задачи поиска
> документов похожих по содержанию.
да конечно, это лишь один из вариантов.
В его пользу было два факта:
- его обсуждали не только вы (значит есть потенциально заинтересованные)
- понятно как его делать
> IN> 2) Реализуемости
> IN> Должны быть понятны ответы на следующие вопросы:
> IN> - как формулируется задание (что система получает на вход,
> Список файлов лежащих в конкретном каталоге и по порядку берет каждый
> файл и выдает список документов похожих на него.
>
> IN> - как будет выглядеть процедура оценки
> IN> (что оценивают ассессоры и примерная трудоемкость оценки)
> Берут исходный документ и первые 10 документов похожих на него которые
> выдала система.
Это не совсем то что надо.
Что такое "похожий"? выглюдит похоже? текстуально схож? тематически похож?
В разных контекстах это понимается по разному.
И конечно это упирается в информационные потребности пользователя.
Например, в примере Максима пользователь хочет найти что-то
"разъясняющее" текущий документ. И это ведь тоже "похожее" ...
Представьте, что вам надо сформулировать задание человеку,
который будет проверять результаты. Попробуйте дать определение:
"Пара документов считается похожей, если ...."
То, что пытался предложить я в предыдущем письме записывается так:
Мотивация:
у пользователя есть какая-то потребность, он формулирует запрос,
выполняет его и использует первый релевантный документ чтобы уточнить
запрос (нажав кнопку найти похожие)
Задача системы:
- по исходному запросу и 1 релевантному документу
найти документы отвечающие на _исходный_ запрос
Оценка асессором:
- Оценивается являются ли найденные документы ответами
для исходной информационной потребности, то есть запроса
+ его расширенного описания
> IN> Очень важнен пункт связанный с оценкой - она проводится в короткие сроки
> IN> и поэтому большой объем хорошо не сделать.
> Пусть объем документов в базе будет например 30 гиг и документов пару
> миллиолнов, а вот для запросов на поиск похожих выделяем например 100
> документов и ищем по всей ибазе похожие на них.
Технически понятно, что можно использовать метод общего котла.
Я пытался сделать ударение на другое "что проверяем асессор?" (см. выше)
> >> - проблема информационной размытости, когла из разных источников
> >> вводятся практически одлинакрвые документы, но не бинароно одинаковые, а
> >> нде например другой заголовок и т.д. или пропущены пару предложений, или
> >> наоборот что-то чуть изменено. И в этом случае шинглы не отлавливают этой
> >> ситуации.
>
> IN> как вы представляете реализацию такой дорожки?
> Можно взять кроме всего прочего 100 документов и создать для них дубли
> но не полные и посмотреть как себя будет вести каждая из систем.
то есть исскуственные дубли.
Проблема в том, что непонятно что вы оцениваете.
Получается вы оцениваете насколько алгоритм умеет решать задачу обнаружение
внесенных ТАКИМ образом возмущений в текст. А почему вы думаете,
что ТАКИЕ возмущения это как раз те, что встречаются в реальных наборах
данных.
Есть вероятность решать нежизненную задачу - так часто бывало при
оценке методов кластеризации - на искуственных наборах они отлично работают,
а на реальных данных далеко не всегда хорошо.
> IN> а разве мы можем использовать такую коллекцию легально?
> А в чем проблемы. Uspto.gov разрешает свободно скачтвать текксты
> патентов. Далее если я скачиваю какие то сайты из инет и индексирую их
> -- в чем нарушение?
.gov - это отдельная история.
> И насчет коллекций вообще -- она же не распространяется а используется
> только для тестирования. Не вижу нарушения каких либо прав........
насколько я понимаю, в соответствии с российским законодательством
на материалы опубликованные в Интернет распространяется закон об авторских
правах. Поэтому формально использование коллекции в таких целях требует
согласия автора ...
Поэтому в качестве Веб коллекции мы используем подмножество narod.ru
- пользовательское соглашение Яндекс гарантирует что мы это можем.
Ну а вообще это больше вопрос к юристам.
В принципе относительно большую коллекцию создать можно взяв
полную версию narod.ru, если Яндекс согласится разрешить это РОМИП.
Но какие будут у нее свойства - это открытый вопрос
(в текущей коллекции например связность слабая)
> >> -- После индексации гененрируем например 10,000 запросов фразовых и
> >> оценивает опять таки на одинаковых компах время каждой из систем.
> >>
>
> IN> Вообще мне кажется скоростные характеристики несколько вне фокуса РОМИП.
> IN> Скорость - характеристика вполне объективная и во многом зависит от усилий
> IN> по оптимизации алгоритмов. РОМИП же ориентирован на сравнение качества
> IN> решения задач, которое субъективно.
>
> Ну скорость как раз легче всего оценивать и она критична при больших
> объемах информации.
Но ее можно контролировать и самостоятельно.
И насколько я могу судить она либо устраивает, либо нет.
И в последнем случае инвестируются силы чтобы это исправить.
Не так важно насколько она близка к максимально достижимому результату.
> IN> Но, на мой взгляд это не может быть обязательным требованием для
участников
> IN> дорожки РОМИП. Такое сравнение вне сферы активности оргкомитета и должно
> IN> самостоятельно организовываться заинтересованными сторонами
> IN> ("Участник самостоятельно и на своём оборудовании выполняет поисковые
> IN> задания." -
http://romip.narod.ru/ru/rules.html)
>
> Вот тут то и есть нестыковка. Задания должны выполняться на одинаковом
> оборудовании, почему я и предложил привлечь к этому спонсора из числа
> производителей компов, который смог бы обеспечить на неделю нужное
> число абсолютно одинаковых клмпьютеров.
Это утверждение было введено в правила по аналогии с TREC исходя из
следующих соображений:
- некоторые участники считают свои системы своей коммерческой тайной
и не готовы выдавать их кому-то еще.
- установка и настройка систем в специальном месте требует усилий
(зачастую делается не один прогон с разными вариантами алгоритма)
Вообщем, если есть желающие воспользоваться вашим предложением, то
это замечательно и никаких ограничений тут быть не может.
Но
- это не может быть и обязательным требованием к участникам
какой-либо дорожки.
- оргкомитет не готов тратить время на организацию такого сравнения
-igor