Как нам сегодня справедливо заметили, идентификаторы документов
в новостной коллекции не являются уникальными и могут повторяться
в разных архивах (например, docID 1020 есть и в news-1 и в news-2).
Хоть ситуация не очень частая, но все равно неприятная.
Мы конечно внесем исправления в коллекцию, но нам кажется, что
сейчас не имеет смысла ее повторно распространять.
Для того, чтобы исправить ситуацию предлагается в результатах
прогонов использовать составные идентификаторы вида:
номер_архива-идентификатор
то есть для документов с docId=1020 идентификаторами будут
1-1020 (для документа из архива news-1.xml) и
2-1020 (для документа из архива news-2.xml)
(ну и 3-1020 для архива news-3.xml)
Для того чтобы компенсировать эти неудобства сроки сдачи результатов
для новостной дорожки и дорожки фактографического поиска переносятся
с 2 июля на 9 июля.
-igor