[romip] Вопросы по коллекции dmoz
Posted: Wed Jun 09, 2004 8:51 am
После беглого просмотра коллекции выяснилось:
1. Не все сайты коллекции dmoz входят в обучающую выборку
(файл web2004_training.xml)
Примеры (ROMIP-split.rccf.001.xml.bz2):
http://www.kuban.net/~palata/
http://www.stack.ru/~julia/recipes/
Будем ли использовать сайты demoz, не вошедшие в обучающую
выборку, как дополнение к тестовой выборке?
2. Если будем использовать, то нужно уточнить, что является
сайтом/ресурсом.
Если в коллекции narod.ru мы считали, что сайт определяется
адресом(доменным именем), например, a007.narod.ru, то
здесь мы имеем дело с хостингом (kuban.net, stack.ru и далее
/~user_name). Такие сайты нужно как-то разделять. Проблема
состоит в том, что, например, в geocities.com тильда(~) не
используется.
Без единой для всех группировки страниц по ресурсам мы не
сможем провести оценку результатов.
Замечу, что для сайтов из обучающей выборки такой проблемы
нет - сайты однозначно описываются доменными именами.
С уважением,
Владимир Плешко
1. Не все сайты коллекции dmoz входят в обучающую выборку
(файл web2004_training.xml)
Примеры (ROMIP-split.rccf.001.xml.bz2):
http://www.kuban.net/~palata/
http://www.stack.ru/~julia/recipes/
Будем ли использовать сайты demoz, не вошедшие в обучающую
выборку, как дополнение к тестовой выборке?
2. Если будем использовать, то нужно уточнить, что является
сайтом/ресурсом.
Если в коллекции narod.ru мы считали, что сайт определяется
адресом(доменным именем), например, a007.narod.ru, то
здесь мы имеем дело с хостингом (kuban.net, stack.ru и далее
/~user_name). Такие сайты нужно как-то разделять. Проблема
состоит в том, что, например, в geocities.com тильда(~) не
используется.
Без единой для всех группировки страниц по ресурсам мы не
сможем провести оценку результатов.
Замечу, что для сайтов из обучающей выборки такой проблемы
нет - сайты однозначно описываются доменными именами.
С уважением,
Владимир Плешко