ROMIP: legal adhoc track tasks

Классическая задача поиска по запросу (ad-hoc track), поиск по образцу

ROMIP: legal adhoc track tasks

Postby neigor » Tue Jun 10, 2008 1:58 pm

Добрый день,

> У меня вопросы по коллекции KM.RU, уважаемый Комитет:
>
> 1. Файл "km_ru_1064.xml" содержит 903 (девятьсот три) одинаковых
> файла (правда, почему-то с разными URL и номерами); так и должно
> быть?

дубли не запрещены.
Это видимо один из экстремальных примеров.

> Если да, то как определяется, правильно ли ответила система, если
> при ответе на вопрос она выводит только один из таких документов
> (причём, при таком огромном количестве, скорее всего - не тот, по
> которому задавался запрос; ведь системе нельзя выводить более 100
> документов по правилам). Но документы-то - одинаковые! Системе
> ставится "минус"?

запросы не делаются под документы.
Наоборот, берутся первые N документов из каждого результата и
оцениваются.

С другой стороны, да, если этот документ релевантный и одна система вернула
его клон1, другая клон2. то будет считаться, что каждая из систем нашла
только 1 документ из двух релевантных.

> 2. Документ номер 2544139 в файле km_ru_294.xml - пуст (не содержит
> ничего, кроме текста на Java Script: моя система "ругается" и пропускает
> пустые документы при индексации - всё равно в них никогда ничего
> не найдётся). Так и должно быть? Или предполагается, что система
> должна исполнить Java Script (в котором, в данном случае - re-direction
> на другой URL), загрузить документ с Web'a, после чего проиндексировать
> его? Моя система, точнее, её экспериментальный вариант, такое не делает ...

нет, исполнение JS конечно не обязательно.
колекции "живые" и в них, ака и в реальном Веб есть много разных аномалий

> 3. В коллекции KM.RU могут быть документы, у которых несколько содержимых
> (т.е. тагов )? (спрашиваю, поскольку на этот раз, в отличие от
> коллекции KODEKCa, на DVD с данными нет файла readme.txt, который в
> двнных KODEKC'a я вовремя не прочитал)

нет, там нет "версий"

информацию про наличие множественных тегов контент в нормативной коллекции
надо безусловно добавить на сайт

> 4. А несколько URL's у одного документа - тоже может быть? (я не шучу, а
> спрашиваю совершенно серьёзно и уважительно, товарищи, хотя после коллекции
> KODEKC я, возможно, уже на воду дую ...) Если да, то какой из тагов
> , относящихся к одному документу, считать правильным? Первый,
> последний или все сразу? Тот же вопрос касательно URL, пожалуйста.

нет, идентификаторы документов тоже не должны повторяться.
по крайней мерер я не знаю таких случаев.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] Re: ROMIP: byweb

Postby maxgubin » Sat Jun 14, 2008 6:59 am

Всем привет,
На всякий случай хочу всех предупредить, что в белорусской коллекции
docURL почему-то не закодированы base64, что приводит к тому, что многие
xml парсеры "рубится" на первом же &.

Максим
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am


Return to Поисковые дорожки

Who is online

Users browsing this forum: No registered users and 2 guests

cron