Добрый день,
> У меня вопросы по коллекции KM.RU, уважаемый Комитет:
>
> 1. Файл "km_ru_1064.xml" содержит 903 (девятьсот три) одинаковых
> файла (правда, почему-то с разными URL и номерами); так и должно
> быть?
дубли не запрещены.
Это видимо один из экстремальных примеров.
> Если да, то как определяется, правильно ли ответила система, если
> при ответе на вопрос она выводит только один из таких документов
> (причём, при таком огромном количестве, скорее всего - не тот, по
> которому задавался запрос; ведь системе нельзя выводить более 100
> документов по правилам). Но документы-то - одинаковые! Системе
> ставится "минус"?
запросы не делаются под документы.
Наоборот, берутся первые N документов из каждого результата и
оцениваются.
С другой стороны, да, если этот документ релевантный и одна система вернула
его клон1, другая клон2. то будет считаться, что каждая из систем нашла
только 1 документ из двух релевантных.
> 2. Документ номер 2544139 в файле km_ru_294.xml - пуст (не содержит
> ничего, кроме текста на Java Script: моя система "ругается" и пропускает
> пустые документы при индексации - всё равно в них никогда ничего
> не найдётся). Так и должно быть? Или предполагается, что система
> должна исполнить Java Script (в котором, в данном случае - re-direction
> на другой URL), загрузить документ с Web'a, после чего проиндексировать
> его? Моя система, точнее, её экспериментальный вариант, такое не делает ...
нет, исполнение JS конечно не обязательно.
колекции "живые" и в них, ака и в реальном Веб есть много разных аномалий
> 3. В коллекции KM.RU могут быть документы, у которых несколько содержимых
> (т.е. тагов )? (спрашиваю, поскольку на этот раз, в отличие от
> коллекции KODEKCa, на DVD с данными нет файла readme.txt, который в
> двнных KODEKC'a я вовремя не прочитал)
нет, там нет "версий"
информацию про наличие множественных тегов контент в нормативной коллекции
надо безусловно добавить на сайт
> 4. А несколько URL's у одного документа - тоже может быть? (я не шучу, а
> спрашиваю совершенно серьёзно и уважительно, товарищи, хотя после коллекции
> KODEKC я, возможно, уже на воду дую ...) Если да, то какой из тагов
> , относящихся к одному документу, считать правильным? Первый,
> последний или все сразу? Тот же вопрос касательно URL, пожалуйста.
нет, идентификаторы документов тоже не должны повторяться.
по крайней мерер я не знаю таких случаев.
-igor