Добрый день,
на круглом столе поднимался вопрос про
формирование новой веб-коллекции
с помощью запросов к машинам поиска.
Вот здесь обсуждается, как можно избежать
смещения (расширенная версия
статьи на WWW2006):
Ziv Bar-Yossef, Maxim Gurevich
Random Sampling from a Search Engine’s Index
http://tx.technion.ac.il/~gmax/papers/se.journal.pdf
ПБ