Page 1 of 1

обучающее множество DMOZ

PostPosted: Thu Jun 10, 2010 6:51 am
by neigor
On 6/9/10 11:37 PM, Александр Салтыков wrote:
> Спасибо. Есть еще вопрос по поводу
классификации веб-страниц.
> В обучающей выборке были указаны тематики
для 38 доменов из коллекции DMOZ, которых не
удалось найти в коллекции. Вопрос: это
ошибка на нашей стороне (возможно скачали
не все файлы и т.п.), т.е. ситуация невозможна
в принципе, или такое возможно и доменов нет
вообще?
>
в принципе такое возможно и в наборе данных,
так как они строились не
полностью синхронно.
Хотя конечно подозрительно, ранее вроде на
это не жаловались.

У меня нет готового ответа, но может кто-то
из участников работающих с
DMOZ может подвердить или опровергнуть?

-igor

Re: обучающее множество DMOZ

PostPosted: Thu Jun 10, 2010 9:29 am
by ageev2003
Добрый день!

Thursday, June 10, 2010, 10:51:07 AM, you wrote:
IN> On 6/9/10 11:37 PM, Александр Салтыков wrote:
>> Спасибо. Есть еще вопрос по поводу классификации веб-страниц.
>> В обучающей выборке были указаны тематики для 38 доменов из коллекции DMOZ,
которых не удалось найти в коллекции. Вопрос: это ошибка на нашей стороне
(возможно скачали не все файлы и т.п.), т.е.
>> ситуация невозможна в принципе, или такое возможно и доменов нет вообще?

В файле content-rus.rdf действительно есть пустые категории, например:

<Topic r:id="Top/World/Russian/Компьютеры">
<catid>32813</catid>
</Topic>

Так что, это не ошибка.

С уважением,
Михаил Агеев.