Page 1 of 1

[romip] Вопросы по коллекции dmoz

PostPosted: Wed Jun 09, 2004 8:51 am
by vladimir_pleshko
После беглого просмотра коллекции выяснилось:

1. Не все сайты коллекции dmoz входят в обучающую выборку
(файл web2004_training.xml)

Примеры (ROMIP-split.rccf.001.xml.bz2):
http://www.kuban.net/~palata/
http://www.stack.ru/~julia/recipes/

Будем ли использовать сайты demoz, не вошедшие в обучающую
выборку, как дополнение к тестовой выборке?

2. Если будем использовать, то нужно уточнить, что является
сайтом/ресурсом.

Если в коллекции narod.ru мы считали, что сайт определяется
адресом(доменным именем), например, a007.narod.ru, то
здесь мы имеем дело с хостингом (kuban.net, stack.ru и далее
/~user_name). Такие сайты нужно как-то разделять. Проблема
состоит в том, что, например, в geocities.com тильда(~) не
используется.

Без единой для всех группировки страниц по ресурсам мы не
сможем провести оценку результатов.

Замечу, что для сайтов из обучающей выборки такой проблемы
нет - сайты однозначно описываются доменными именами.

С уважением,
Владимир Плешко

PostPosted: Wed Jun 09, 2004 9:09 am
by vladimir_pleshko
Еще обнаружил, что коллекции пересекаются
часть сайтов обучающей выборки dmoz есть в narod.ru.
formen.narod.ru
foxbatavia.narod.ru
karalovbros.narod.ru
karina-kazak.narod.ru
kennel.narod.ru
nri.narod.ru
rosesite.narod.ru
(список не полный)

Исключать из обучающей выборки сайты плохо - есть рубрики,
в которых только один сайт, и тот народный.

Предлагаю:
1. Обучаться по тому, что есть
2. Классифицировать также то, что есть
3. Пересечение обучающей выборки dmoz с коллекцией narod.ru
исключить из оценки

С уважением,
Владимир Плешко

Re: [romip] Вопросы по коллекции dmoz

PostPosted: Wed Jun 09, 2004 11:35 am
by neigor
On Wed, 9 Jun 2004, Плешко Владимир wrote:

> 1. Не все сайты коллекции dmoz входят в обучающую выборку
> (файл web2004_training.xml)
>
> Примеры (ROMIP-split.rccf.001.xml.bz2):
> http://www.kuban.net/~palata/
> http://www.stack.ru/~julia/recipes/
>
> Будем ли использовать сайты demoz, не вошедшие в обучающую
> выборку, как дополнение к тестовой выборке?

То, что не все входят это странно, но набор делался распределенно и поэтому
накладки вполне возможны.

Мне кажется, что включать сайты dmoz, не вошедшие в обучающую выборку,
в тестовую не стоит - их скорее всего немного (относительно народ),
а путаницы добавит.

-igor

Re: [romip] Еще вопросы по коллекции dmoz

PostPosted: Wed Jun 09, 2004 11:37 am
by neigor
> Предлагаю:
> 1. Обучаться по тому, что есть
> 2. Классифицировать также то, что есть
> 3. Пересечение обучающей выборки dmoz с коллекцией narod.ru
> исключить из оценки

согласен.

-igor

[romip] Еще вопросы по коллекции dmoz - 2

PostPosted: Thu Jun 10, 2004 8:56 am
by vladimir_pleshko
При развертывании коллекции вскрылась еще одна проблема:

После распаковки архива ROMIP-split.rccf.001.xml.bz2 при
разборе xml (использовался perl) происходит ошибка в
строке 1924185:
http://ne.manga.ru/user_info.php?name=?6

С точки зрения парсера, символ "?" не является корректным
в utf-8, которая используется, по умолчанию:


Возможно, другие парсеры "съедают" некорректные символы.
Да и разобрать файл вручную или "обмануть" парсер
с кодировкой несложно.

Нериятным является то, что подобные идентификаторы
попадут в результат, что снова породит некорректный xml.

Видимо, в будущем при подготовке коллекций нужно проверять
значения cgi-параметров и делать url-encode для всех
символов из верхней половины таблицы.

С уважением,
Владимир Плешко

[romip] Еще вопросы по коллекции dmoz - 2

PostPosted: Thu Jun 10, 2004 10:30 am
by vladimir_pleshko
Вынужден внести пояснение.
Символ "?" стал таким после перекодировок при доставке
письма. На самом деле, это символ "номер" (0xB9 - cp1251).

[romip] Еще вопросы по коллекции dmoz - 3

PostPosted: Fri Jun 11, 2004 1:56 pm
by vladimir_pleshko
При обработке файла ROMIP-split.rccf.007.xml.bz2 получаю

undefined entity at line 1369615, column 78, byte 104537196

http://www.uristy.ru/catalog_urists/uri ... t=_blank&l\
g;Ильина%20Елена%20Вадимовна</a&lg;</td&lg;</tr&lg;%20%20<tr&lg;<\
td%20colspan=2&lg;<hr%20width=100%%20noshade%20size=1px%20color=

&lg; - парсер xml считает данную сущность (entity) некорректной, и
правильно делает. Очевидно, что имеется ввиду >

Если проблемы, описанные мной в прошлых постингах, лечатся выставлением
любой однобайтной кодировки (чтобы символы из верхей половины кодовой
таблицы разрешались), то здесь ситуация сложнее.

Даже если "обмануть парсер", то что в данном случае считать идентификатором
документа? Содержимое всех тегов должно при создании xml encoded, а при
прочтении - decoded.
Если исходная строка содержит
"&", то он должен стать в xml "&",
"<", то - "<",
и т.д.
При чтении происходит обратное преобразование.

Теперь мы встречаем "&lg;". Как мы должны его читать?
Если как есть (неизвестные сущности не преобразовываем), то при формировании
xml с результатами мы получим "&lg;".
И это произойдет в лучшем случае - если ромиповский парсер позволит.
Я пользуюсь перловым XML::Parser::Expat. Он сразу по рукам бьет.
Как-то прочитать - конечно, не проблема.

Чтобы у всех получился одинаковый результат, всем нужно не делать ни decode
при чтении, ни encode при записи.
Другой вариант - игнорировать такие документы (я видимо, так и поступлю).

С уважением,
Владимир Плешко

Re: [romip] Еще вопросы по коллекции dmoz - 3

PostPosted: Sat Jun 12, 2004 6:28 pm
by neigor
это конечно безобразие, но к счастью этот набор используется только
как обучающая выборка, поэтому эти docID в ответах встречаться
по идее и не должны. Или я что-то неправильно понимаю?

-igor

PostPosted: Mon Jun 14, 2004 12:29 pm
by vladimir_pleshko
Статистика для сверки... возможно, с ошибками...

> это конечно безобразие, но к счастью этот набор используется только
> как обучающая выборка, поэтому эти docID в ответах встречаться
> по идее и не должны. Или я что-то неправильно понимаю?
>
> -igor

Согласен. Не подумал, что в ответы их включать не нужно.
Тем не менее, я склонен их исключить - не известно, где они еще вылезут.


Всего в корпусе:
документов = 318015
сайтов = 2296

Вне обучающей выборки:
документов = 9300
сайтов = 223

В обучающей выборке:
документов = 308967
сайтов = 2073

C некорректно закодированным ID:
документов = 18
сайтов = 3 (все из обучающей выборки)
/www.uristy.ru
/www.hi-braa.spb.ru
/legion.wplus.net
перечисленные сайты содержат также и корректные документы

В классификаторе:
рубрик = 247
сайтов = 2116
из них не найдено в корпусе 43 сайта (список прилагаю)
число рубрик, присвоенных сайту = 1 (для всех сайтов)
сайтов в рубрике:
MAX = 62
AVG = 8,43
MIN = 1 (в каждой рубрике есть хотя бы один сайт)

документов в рубрике:
MAX = 3439
AVG = 1255
MIN = 1 (есть рубрика только с одним документом)
рубрика число документов
Досуг->Мотоциклы 1
Новости_и_СМИ->События 2
Искусство->Видео 3


С уважением,
Владимир Плешко