By.WEB
Posted: Thu Jul 03, 2008 9:49 am
Здравствуйте, коллеги!
Есть вопрос по коллекции BY.WEB.
У меня получился битый XML файл.
Что я сделал:
1. Сконкатенировал файлы:
byweb.aa
byweb.ab
byweb.ac
byweb.ad
2. На полученном файле запустил bunzip2, получился
большой XML файл вот такого размера:
34,693,349,376
Проблема в следующем:
Файл заканчивается такими строчками:
<document><content encoding="base64">PCFET0NUW...
<docURL>http://bzforum.aplus.by/index.php?s=b7...
<docID>697925</docID></document>
<document><content encoding="base64">PCFET0NUWVB...
<docURL>http://bzforum.aplus.by/index.php?showtopic=804</docURL>
<docID>697926</docID></document>
<document><content encoding="base64">PCFET0NUWVBF...
<docURL>http://bzforum.aplus.by/index.php?s=7a4...
<docID>697927</docID></document>
<document><content encoding="base64">PCFET...NGMkREREQ7DQoJYm9
Обратите внимание на последнюю строчку: она просто обрывается.
- не закрывается тэгом </content>,
- после нее нет тэгов <docURL> и <docID>
- нет закрывающего тэга </document>
- нет закрывающего тэга </romip:dataset>
Скажите пожалуйста, это только у меня такая проблема?
Сколько документов должно получиться в этой коллекции?
Спасибо!
Есть вопрос по коллекции BY.WEB.
У меня получился битый XML файл.
Что я сделал:
1. Сконкатенировал файлы:
byweb.aa
byweb.ab
byweb.ac
byweb.ad
2. На полученном файле запустил bunzip2, получился
большой XML файл вот такого размера:
34,693,349,376
Проблема в следующем:
Файл заканчивается такими строчками:
<document><content encoding="base64">PCFET0NUW...
<docURL>http://bzforum.aplus.by/index.php?s=b7...
<docID>697925</docID></document>
<document><content encoding="base64">PCFET0NUWVB...
<docURL>http://bzforum.aplus.by/index.php?showtopic=804</docURL>
<docID>697926</docID></document>
<document><content encoding="base64">PCFET0NUWVBF...
<docURL>http://bzforum.aplus.by/index.php?s=7a4...
<docID>697927</docID></document>
<document><content encoding="base64">PCFET...NGMkREREQ7DQoJYm9
Обратите внимание на последнюю строчку: она просто обрывается.
- не закрывается тэгом </content>,
- после нее нет тэгов <docURL> и <docID>
- нет закрывающего тэга </document>
- нет закрывающего тэга </romip:dataset>
Скажите пожалуйста, это только у меня такая проблема?
Сколько документов должно получиться в этой коллекции?
Спасибо!