ВОПРОСЫ И ОТВЕТЫ ПО НАРОДНЫМ САЙТАМ

Классификация нормативно-правовых документов, веб-сайтов и веб-страниц

Postby segalovich » Wed Feb 12, 2003 7:53 pm

ВОПРОСЫ И ОТВЕТЫ ПО НАРОДНЫМ САЙТАМ.

> 1. На каком кластере больше всего сайтов, описанных в каталоге
> Народа? Яндекса?

Расшифровка:

"XX narod"
- в каталоге www.narod.ru XX сайтов

"YY yaca"
- в каталоге yaca.yandex.ru YY сайтов

"ZZ common"
- число сайтов, общих для двух катлогов

"TT total"
- общее чсисло

"по другим источникам XX narod YY yaca"
- другие данные, причины расхождения я пока не установил.

Итак, статистика по машинам.

w1
всего сайтов: 3266
104 narod 12 yaca 11 common
по другим источникам: 132 narod 23 yaca

w2
всего сайтов: 40104
632 narod 222 yaca 27 common
по другим источникам: 854 narod 239 yaca

w3
всего сайтов: 43235
1279 narod 248 yaca 99 common
по другим источникам: 1729 narod 321 yaca

w4
всего сайтов: 37351
875 narod 230 yaca 53 common
по другим источникам: 1245 narod 268 yaca

w6
всего сайтов: 41895
248 narod 301 yaca 24 common
по другим источникам: 345 narod 309 yaca

w7
всего сайтов: 52118
1136 narod 243 yaca 64 common
по другим источникам: 1568 narod 283 yaca

w8
всего сайтов: 54496
1108 narod 131 yaca 37 common
по другим источникам: 1552 narod 153 yaca

w9
всего сайтов: 48685
1065 narod 59 yaca 38 common
по другим источникам: 1458 narod 94 yaca

w10
всего сайтов: 1009
118 narod 76 yaca 19 common
по другим источникам: 158 narod 78 yaca

w11
всего сайтов: 94673
2074 narod 58 yaca 19 common
по другим источникам: 2707 narod 70 yaca

w12
всего сайтов: 232332
2484 narod 41 yaca 8 common
по другим источникам: 2982 narod 41 yaca

w13
всего сайтов: 53841
540 narod 2 yaca 0 common
по другим источникам: 601 narod 1 yaca

w12 и w13 - новые "очень большие серверы".

На первый взгляд оптимальными машинами являются w3 и w7.

> 2. Каковы средние размеры сайтов?

На Народе существуют различные технологические
процедуры, нарушающие однородность распределения
сайтов по машинам. В частности перенос больших хостов
на выделенную машину. Машины, на которых такие переносы не делались
давно, можно считать более "типическими".

Из-за разного времени этого переноса сильно отличаются
средние размеры сайтов.

Оценки среднего размера сайта в KB
(вообще, включая не HTML файлы):

w2: 126099486 KB / 40104 = 3144
w3: 86630355 KB / 43235 = 2003
w12: 193352147 KB / 232332 = 832

Оценки среднего размера HTML файла,
среднего количества HTML-файла на сайте
и среднего размера HTML-части сайтов.

w12/q: 40056681 bytes in 8707 htm* files on 891 sites; total 518189 KB
среднее количество html-файлов на сайте: 9.7
средний размер html-файла: 4600 байт
средний объем html-файлов на сайте: 44956 байт

w12/a: 732425126 bytes in 118112 htm* files on 20583 sites; total 14988006
KB
среднее количество html-файлов на сайте: 5.7
средний размер html-файла: 6201 байт
средний объем html-файлов на сайте: 35583 байт


w2/m: 385810004 bytes in 57505 htm* files on 3186 sites; total 9888028 KB
среднее количество html-файлов на сайте: 18
средний размер html-файла: 6709 байт
средний объем html-файлов на сайте: 121095 байт


Как видите, они тоже сильно отличаются от машины к машине.
И даже в пределах машины от "буквы" к "букве".


> 3. Сколько сайтов (в процентах от размера кластера, в мегабайтах)
> нужно взять, чтобы получилось примерно 650 мегабайт .tar.gz
> (предположим мы хотим поместить коллекцию на 1 CD-ROM)

650 MB tar.gz ~= 3 GB текстовых файлов.

Считая, что средний объем html-файлов на сайт равен
100 KB (см выше), получаем примерно 32 тысячи сайтов, что для
w3 или w7 составляет 70-80% от общего числа сайтов.


> 4. Можно ли отсечь совершенно непосещаемые сайты?
> Сколько их в процентах на кластере?

Сайты, не посещаемые (и не обновляемые) в течение 4 месяцев
закрываются. А еще через месяц удаляются.


> 5. Можно ли отсечь сайты целиком состоящие из теплейтов?
> сколько их в процентах?

По страницам:
5,2% всех страниц сделаны по темплейтам.

По сайтам:
61% сайтов содержит хотя бы одну страницу по шаблону.

Точное распределение пока не посчитано.

Постараемся сделать к завтрашнему дню.

Илья
segalovich
Оргкомитет
 
Posts: 46
Joined: Fri Jan 31, 2003 1:21 pm

Re: ВОПРОСЫ И ОТВЕТЫ ПО НАРОДНЫМ САЙТАМ

Postby neigor » Thu Feb 13, 2003 12:49 pm

Интересная сводка, спасибо.

Если говорить о задаче классификации, то хорошо бы понимать
каково распределение сайтов по темам каталога. Они ведь формируют
обучающую выборку.

Насколько я понимаю полное распределение сайтов по темам можно посмотреть на
http://narod.yandex.ru/rubrics/, а вот какой объем всех сайтов из каталога?

Наверное мы можем дополнить коллекцию построенную по
принципу "хранилось на одном сервере" сайтами с других серверов,
которые есть в каталоге (чтобы обучающая выборка была сбалансированной).

Сколько нам надо сайтов на рубрику в обучающем множестве - 10-15-20-50?

Предполагая, что 15-20 это нормально и 60 категорий - всего надо порядка
1200 сайтов из каталога (но надо гарантировать примерно одинаковые
обучающие множества для разных рубрик).
Исходя из размера 100k на сайт (хотя для сайтов из каталога средний размер
вероятно выше) - это порядка 120Mb несжатых текстов.

-igor
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm


Return to Тематическая классификация

Who is online

Users browsing this forum: No registered users and 1 guest

cron