By.WEB

Классическая задача поиска по запросу (ad-hoc track), поиск по образцу

By.WEB

Postby bar » Thu Jul 03, 2008 9:49 am

Здравствуйте, коллеги!

Есть вопрос по коллекции BY.WEB.

У меня получился битый XML файл.

Что я сделал:

1. Сконкатенировал файлы:

byweb.aa
byweb.ab
byweb.ac
byweb.ad

2. На полученном файле запустил bunzip2, получился
большой XML файл вот такого размера:

34,693,349,376



Проблема в следующем:

Файл заканчивается такими строчками:

<document><content encoding="base64">PCFET0NUW...
<docURL>http://bzforum.aplus.by/index.php?s=b7...
<docID>697925</docID></document>
<document><content encoding="base64">PCFET0NUWVB...
<docURL>http://bzforum.aplus.by/index.php?showtopic=804</docURL>
<docID>697926</docID></document>
<document><content encoding="base64">PCFET0NUWVBF...
<docURL>http://bzforum.aplus.by/index.php?s=7a4...
<docID>697927</docID></document>
<document><content encoding="base64">PCFET...NGMkREREQ7DQoJYm9


Обратите внимание на последнюю строчку: она просто обрывается.
- не закрывается тэгом </content>,
- после нее нет тэгов <docURL> и <docID>
- нет закрывающего тэга </document>
- нет закрывающего тэга </romip:dataset>


Скажите пожалуйста, это только у меня такая проблема?

Сколько документов должно получиться в этой коллекции?

Спасибо!
bar
 
Posts: 9
Joined: Tue Aug 17, 2004 4:11 am

Re: [romip] By.WEB

Postby neigor » Thu Jul 03, 2008 11:46 am

Александр, добрый день,

должо получиться 1524676 документов.

C:\igor\RomipCollections>wc docURL.lst
1524676 1524676 114434595 docURL.lst

bzip2 -t не выдает ошибок на склеенный архив?

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] By.WEB

Postby maxgubin » Thu Jul 03, 2008 3:58 pm

Я про это писал, проблема в том, что URL не закодированны base64 и из-за этого возникают invalid charent. На самом деле, у меня есть поправленная коллекция, либо могу запостить коротенький python скрипт, который ее правит (правда за несколько часов)

Максим



Александр, добрый день,должо получиться 1524676 документов.C:\igor\RomipCollec tions>wc docURL.lst1524676 1524676 114434595 docURL.lstbzip2 -t не выдает ошибок на склеенный архив?-igorOn Thu, 3 Jul 2008, Alexander Barkov wrote:> Здравствуйте, коллеги!>> Есть вопрос по коллекции BY.WEB.>> У меня получился битый XML файл.>> Что я сделал:>> 1. Сконкатенировал файлы:>> byweb.aa> byweb.ab> byweb.ac> byweb.ad>> 2. На полученном файле запустил bunzip2, получился> большой XML файл вот такого размера:>>
34,693,349,376>>>> Проблема в следующем:>> Файл заканчивается такими строчками:>> PCFET0NUW. ..> http://bzforum. aplus.by/ index.php? s=b7...> 697925> PCFET0NUWVB. ..> http://bzforum. aplus.by/ index.php? showtopic= 804> 697926> PCFET0NUWVBF. ..> http://bzforum. aplus.by/ index.php? s=7a4...> 697927> PCFET... NGMkREREQ7DQoJYm 9>>> Обратите внимание на последнюю строчку: она просто обрывается.> - не закрывается тэгом ,> - после нее нет тэгов и > - нет закрывающего тэга > - нет закрывающего тэга >>> Скажите пожалуйста, это только у меня такая проблема?>> Сколько документов должно получиться в этой коллекции?>> Спасибо!>> ------------ --------- ---------
------>> Yahoo! Groups Links>>>>
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

Re: [romip] By.WEB

Postby neigor » Thu Jul 03, 2008 4:16 pm

Это все же наверное что-то наверное.
Насколько я понимаю у Александра xml после bunzip2 получился обрезанный,
до его парсинга дело не дошло.

-igor

On Thu, 3 Jul 2008, Max Gubin wrote:

> Я про это писал, проблема в том, что URL не закодированны base64 и из-за этого
возникают invalid charent. На самом деле, у меня есть поправленная коллекция,
либо могу запостить коротенький python скрипт, который ее правит (правда за
несколько часов)
> Максим
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

Re: [romip] By.WEB

Postby maxgubin » Thu Jul 03, 2008 4:21 pm

А, я еще не дочитал исходный пост. Если не считать проблемы с base64 в URL, то все остальное работает :). То есть я уверен, что архтв получается хороший после конкатенации. Может положить на ftp полный архив?

Максим
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

Re: [romip] By.WEB

Postby bar » Thu Jul 03, 2008 6:42 pm

Max Gubin wrote:
>
>
> А, я еще не дочитал исходный пост. Если не считать проблемы с base64 в
> URL, то все остальное работает :). То есть я уверен, что архтв
> получается хороший после конкатенации. Может положить на ftp полный архив?
>
>

Было бы удобнее порезать на небольшие кусочки.
Набор *.xml.bz2 файлов, скажем по 200Mb.

Так же, как в Legal или KM.RU.

Если это не долго.

>
> Максим
>
bar
 
Posts: 9
Joined: Tue Aug 17, 2004 4:11 am

Re: [romip] By.WEB

Postby bar » Thu Jul 03, 2008 7:06 pm

Alexander Barkov wrote:
> Max Gubin wrote:
>>
>> А, я еще не дочитал исходный пост. Если не считать проблемы с base64 в
>> URL, то все остальное работает :). То есть я уверен, что архтв
>> получается хороший после конкатенации. Может положить на ftp полный архив?
>>
>>
>
> Было бы удобнее порезать на небольшие кусочки.
> Набор *.xml.bz2 файлов, скажем по 200Mb.
>
> Так же, как в Legal или KM.RU.
>
> Если это не долго.

Пытаюсь сейчас проделать это сам.
Если кому-то нужно, буду рад поделиться.


>
>> Максим
bar
 
Posts: 9
Joined: Tue Aug 17, 2004 4:11 am

Re: [romip] By.WEB

Postby maxgubin » Thu Jul 03, 2008 8:51 pm

Хорошо, я сделаю и выложу на ftp. Трудно
предсказать когда это случиться - день на
конвертор, но скорость закачки иногда
"проваливается".
Максим

----- Original Message ----
From: Alexander Barkov bar@...>
To: romip@yahoogroups.com
Sent: Thursday, July 3, 2008 12:06:04 PM
Subject: Re: [romip] By.WEB

Alexander Barkov wrote:
> Max Gubin wrote:
>>
>> А, я еще не дочитал исходный пост. Если не
считать проблемы с base64 в
>> URL, то все остальное работает :). То есть я
уверен, что архтв
>> получается хороший после конкатенации.
Может положить на ftp полный архив?
>>
>>
>
> Было бы удобнее порезать на небольшие
кусочки.
> Набор *.xml.bz2 файлов, скажем по 200Mb.
>
> Так же, как в Legal или KM.RU.
>
> Если это не долго.

Пытаюсь сейчас проделать это сам.
Если кому-то нужно, буду рад поделиться.
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

Re: [romip] By.WEB

Postby bar » Thu Jul 03, 2008 9:02 pm

Максим,

Max Gubin wrote:
>
>
> Хорошо, я сделаю и выложу на ftp. Трудно
предсказать когда это случиться
> - день на конвертор, но скорость закачки
иногда "проваливается".
> Максим

У меня уже процесс запустился. К утру должен
побить
большой архив на кучу маленьких.
bar
 
Posts: 9
Joined: Tue Aug 17, 2004 4:11 am

Re: [romip] By.WEB

Postby maxgubin » Sat Jul 05, 2008 6:57 pm

Я сконвертировал и выложил новые "порезанные" архивы с base64
закодированными URL на ftp.
Максим

Max Gubin wrote:

Хорошо, я сделаю и выложу на ftp. Трудно предсказать когда это
случиться - день на конвертор, но скорость закачки иногда
"проваливается".
Максим

----- Original Message ----
From: Alexander Barkov bar@mnogosearch.org>
To: romip@yahoogroups.com
Sent: Thursday, July 3, 2008 12:06:04 PM
Subject: Re: [romip] By.WEB

Alexander Barkov wrote:
> Max Gubin wrote:
>>
>> А, я еще не дочитал исходный пост. Если не считать проблемы с
base64 в
>> URL, то все остальное работает :). То есть я уверен, что архтв

>> получается хороший после конкатенации. Может положить на ftp
полный архив?
>>
>>
>
> Было бы удобнее порезать на небольшие кусочки.
> Набор *.xml.bz2 файлов, скажем по 200Mb.
>
> Так же, как в Legal или KM.RU.
>
> Если это не долго.

Пытаюсь сейчас проделать это сам.
Если кому-то нужно, буду рад поделиться.

>
>> Максим
>>
>>
>>
>> ----- Original Message ----
>> From: Max Gubin mail@maxgubin.com>
>> To: romip@yahoogroups.com
>> Sent: Thursday, July 3, 2008 8:58:59 AM
>> Subject: Re: [romip] By.WEB
>>
>> Я про это писал, проблема в том, что URL не закодированны
base64 и из-за
>> этого возникают invalid charent. На самом деле, у меня есть
поправленная
>> коллекция, либо могу запостить коротенький python скрипт,
который ее
>> правит (правда за несколько часов)
>> 
>> Максим
>>
>> 
>> ----- Original Message ----
>> From: Igor Nekrestyanov igor@.... spbu.ru ru/[/url]>>
>> To: romip@yahoogroups. com
>> Sent: Thursday, July 3, 2008 4:46:45 AM
>> Subject: Re: [romip] By.WEB
>>
>> Александр, добрый день,
>>
>> должо получиться 1524676 документов.
>>
>> C:\igor\RomipCollec tions>wc docURL.lst
>> 1524676 1524676 114434595 docURL.lst
>>
>> bzip2 -t не выдает ошибок на склеенный архив?
>>
>> -igor
>>
>> On Thu, 3 Jul 2008, Alexander Barkov wrote:
>>
>>  > Здравствуйте, коллеги!
>>  >
>>  > Есть вопрос по коллекции BY.WEB.
>>  >
>>  > У меня получился битый XML файл.
>>  >
>>  > Что я сделал:
>>  >
>>  > 1. Сконкатенировал файлы:
>>  >
>>  > byweb.aa
>>  > byweb.ab
>>  > byweb.ac
>>  > byweb.ad ad/[/url]>
>>  >
>>  > 2. На полученном файле запустил bunzip2, получился
>>  > большой XML файл вот такого размера:
>>  >
>>  > 34,693,349,376
>>  >
>>  >
>>  >
>>  > Проблема в следующем:
>>  >
>>  > Файл заканчивается такими строчками:
>>  >
>>  > PCFET0NUW. ..
>>  > http://bzforum. aplus.by/ index.php?
s=b7...
>> aplus.by/index.php?s=b7...[/url]>
>>  > 697925
>>  > PCFET0NUWVB. ..
>>  > http://bzforum. aplus.by/ index.php?
showtopic= 804
>> aplus.by/index.php?showtopic=804[/url]>
>>  > 697926
>>  > PCFET0NUWVBF. ..
>>  > http://bzforum. aplus.by/ index.php?
s=7a4...
>> aplus.by/index.php?s=7a4...[/url]>
>>  > 697927
>>  > PCFET... NGMkREREQ7DQoJYm 9
>>  >
>>  >
>>  > Обратите внимание на последнюю строчку: она просто
обрывается.
>>  > - не закрывается тэгом ,
>>  > - после нее нет тэгов и
>>  > - нет закрывающего тэга
>>  > - нет закрывающего тэга
>>  >
>>  >
>>  > Скажите пожалуйста, это только у меня такая проблема?
>>  >
>>  > Сколько документов должно получиться в этой коллекции?
>>  >
>>  > Спасибо!
maxgubin
Оргкомитет
 
Posts: 86
Joined: Fri Jul 04, 2003 3:54 am

Next

Return to Поисковые дорожки

Who is online

Users browsing this forum: No registered users and 2 guests

cron