Технические проблемы в новостной коллекции

Другие дорожки РОМИП, которые пока не закрепились в программе - кластеризация новостей, свободная дорожка и т.д

Технические проблемы в новостной коллекции

Postby neigor » Tue Jun 28, 2005 1:15 pm

Как нам сегодня справедливо заметили, идентификаторы документов
в новостной коллекции не являются уникальными и могут повторяться
в разных архивах (например, docID 1020 есть и в news-1 и в news-2).

Хоть ситуация не очень частая, но все равно неприятная.

Мы конечно внесем исправления в коллекцию, но нам кажется, что
сейчас не имеет смысла ее повторно распространять.

Для того, чтобы исправить ситуацию предлагается в результатах
прогонов использовать составные идентификаторы вида:
номер_архива-идентификатор
то есть для документов с docId=1020 идентификаторами будут
1-1020 (для документа из архива news-1.xml) и
2-1020 (для документа из архива news-2.xml)
(ну и 3-1020 для архива news-3.xml)

Для того чтобы компенсировать эти неудобства сроки сдачи результатов
для новостной дорожки и дорожки фактографического поиска переносятся
с 2 июля на 9 июля.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Return to Экспериментальные дорожки

Who is online

Users browsing this forum: No registered users and 6 guests

cron