By.WEB

Классическая задача поиска по запросу (ad-hoc track), поиск по образцу

Re: [romip] By.WEB

Postby SKrylov » Tue Jul 08, 2008 8:46 am

День добрый:

>Скажите, пожалуйста, это только у меня такая проблема? [с разархивацией BY.WEB]

Нет, Александр, не только у Вас: я, например, вообще
далеко не сразу понял, что означают расширения ".aa",
".ab", и т.д. Когда же понял, стало ясно, что просто не
успею проиндексировать и ответить на все вопросы:
пришлось пока вообще отказаться от BY.WEB на этот
раз. В принципе, для меня это не столь важно "по-первости"
(участвую в РОМИП первый раз), но я согласен с Вами,
что нужно "бить" на мелкие кусочки, как в KM.RU. А ещё
лучше - просто .ZIP'ы с файлами безо всяких файлов XML,
для которых мне ещё и парсеры пришлось писать.

Сконкатенированный файл byweb.aa+byweb.ab+...+byweb.ad
занимает 7.2 GB, разархивированный оттуда byweb.xml -
72 GB: на 80-ти гигатайтный винч уже не помещается. А
если разбить и сразу разарзивировать моим парсером,
который на лету преобразует HTML->TXT, то общий объём
текстов - всего около 10GB - это уже влезает на любой винч,
даже вместе с индексами! Бить на мелкие кусочки нужно,
иначе очень неудобно. Ведь даже добавить недостающие
теги в хвост файла размером в 72GB - это уже проблема:
приходится опять писать какие-то программы. А в мелкие
файлы, по 2 тысячи документов в каждом,═- просто
открываешь текстовым редактором, делаешь, что надо, и
сохраняешь. Я под Windows всё делаю, а там у Майкрософта
и так своих проблем хватает - ограничение на кол-во файлов
в одном каталоге (не более 32 тысяч , если я правильно помню),
есть (незначительные) проблемы с большими файлами (>2 GB),
и т.п.

В общем, на будущее: лучше мелкими порциями, как в KM.RU.

С уважением,
Сергей Крылов
SKrylov
 
Posts: 9
Joined: Tue Jul 08, 2008 8:46 am

Re: [romip] By.WEB

Postby neigor » Tue Jul 08, 2008 3:00 pm

Спасибо, Максим!

-igor

p.s.
Доступ к ftp предоставляет оргкомитет по запросу (тем, кто подписал и
предоставил
соглашения об использовании материалов РОМИП и предпочитает скачать
коллекции, а не получать их при личной встрече).
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Previous

Return to Поисковые дорожки

Who is online

Users browsing this forum: No registered users and 1 guest

cron