Хорошо, я сделаю и выложу на ftp. Трудно предсказать когда это
случиться - день на конвертор, но скорость закачки иногда
"проваливается".
Максим
----- Original Message ----
From: Alexander Barkov
bar@mnogosearch.org>
To:
romip@yahoogroups.comSent: Thursday, July 3, 2008 12:06:04 PM
Subject: Re: [romip] By.WEB
Alexander Barkov wrote:
> Max Gubin wrote:
>>
>> А, я еще не дочитал исходный пост. Если не считать проблемы с
base64 в
>> URL, то все остальное работает
. То есть я уверен, что архтв
>> получается хороший после конкатенации. Может положить на ftp
полный архив?
>>
>>
>
> Было бы удобнее порезать на небольшие кусочки.
> Набор *.xml.bz2 файлов, скажем по 200Mb.
>
> Так же, как в Legal или KM.RU.
>
> Если это не долго.
Пытаюсь сейчас проделать это сам.
Если кому-то нужно, буду рад поделиться.
>
>> Максим
>>
>>
>>
>> ----- Original Message ----
>> From: Max Gubin
mail@maxgubin.com>
>> To:
romip@yahoogroups.com>> Sent: Thursday, July 3, 2008 8:58:59 AM
>> Subject: Re: [romip] By.WEB
>>
>> Я про это писал, проблема в том, что URL не закодированны
base64 и из-за
>> этого возникают invalid charent. На самом деле, у меня есть
поправленная
>> коллекция, либо могу запостить коротенький python скрипт,
который ее
>> правит (правда за несколько часов)
>>
>> Максим
>>
>>
>> ----- Original Message ----
>> From: Igor Nekrestyanov igor@.... spbu.ru ru/[/url]>>
>> To: romip@yahoogroups. com
>> Sent: Thursday, July 3, 2008 4:46:45 AM
>> Subject: Re: [romip] By.WEB
>>
>> Александр, добрый день,
>>
>> должо получиться 1524676 документов.
>>
>> C:\igor\RomipCollec tions>wc docURL.lst
>> 1524676 1524676 114434595 docURL.lst
>>
>> bzip2 -t не выдает ошибок на склеенный архив?
>>
>> -igor
>>
>> On Thu, 3 Jul 2008, Alexander Barkov wrote:
>>
>> > Здравствуйте, коллеги!
>> >
>> > Есть вопрос по коллекции BY.WEB.
>> >
>> > У меня получился битый XML файл.
>> >
>> > Что я сделал:
>> >
>> > 1. Сконкатенировал файлы:
>> >
>> > byweb.aa
>> > byweb.ab
>> > byweb.ac
>> > byweb.ad ad/[/url]>
>> >
>> > 2. На полученном файле запустил bunzip2, получился
>> > большой XML файл вот такого размера:
>> >
>> > 34,693,349,376
>> >
>> >
>> >
>> > Проблема в следующем:
>> >
>> > Файл заканчивается такими строчками:
>> >
>> > PCFET0NUW. ..
>> >
http://bzforum. aplus.by/ index.php?
s=b7...
>> aplus.by/index.php?s=b7...[/url]>
>> > 697925
>> > PCFET0NUWVB. ..
>> >
http://bzforum. aplus.by/ index.php?
showtopic= 804
>> aplus.by/index.php?showtopic=804[/url]>
>> > 697926
>> > PCFET0NUWVBF. ..
>> >
http://bzforum. aplus.by/ index.php?
s=7a4...
>> aplus.by/index.php?s=7a4...[/url]>
>> > 697927
>> > PCFET... NGMkREREQ7DQoJYm 9
>> >
>> >
>> > Обратите внимание на последнюю строчку: она просто
обрывается.
>> > - не закрывается тэгом ,
>> > - после нее нет тэгов и
>> > - нет закрывающего тэга
>> > - нет закрывающего тэга
>> >
>> >
>> > Скажите пожалуйста, это только у меня такая проблема?
>> >
>> > Сколько документов должно получиться в этой коллекции?
>> >
>> > Спасибо!