ВОПРОСЫ И ОТВЕТЫ ПО НАРОДНЫМ САЙТАМ.
> 1. На каком кластере больше всего сайтов, описанных в каталоге
> Народа? Яндекса?
Расшифровка:
"XX narod"
- в каталоге www.narod.ru XX сайтов
"YY yaca"
- в каталоге yaca.yandex.ru YY сайтов
"ZZ common"
- число сайтов, общих для двух катлогов
"TT total"
- общее чсисло
"по другим источникам XX narod YY yaca"
- другие данные, причины расхождения я пока не установил.
Итак, статистика по машинам.
w1
всего сайтов: 3266
104 narod 12 yaca 11 common
по другим источникам: 132 narod 23 yaca
w2
всего сайтов: 40104
632 narod 222 yaca 27 common
по другим источникам: 854 narod 239 yaca
w3
всего сайтов: 43235
1279 narod 248 yaca 99 common
по другим источникам: 1729 narod 321 yaca
w4
всего сайтов: 37351
875 narod 230 yaca 53 common
по другим источникам: 1245 narod 268 yaca
w6
всего сайтов: 41895
248 narod 301 yaca 24 common
по другим источникам: 345 narod 309 yaca
w7
всего сайтов: 52118
1136 narod 243 yaca 64 common
по другим источникам: 1568 narod 283 yaca
w8
всего сайтов: 54496
1108 narod 131 yaca 37 common
по другим источникам: 1552 narod 153 yaca
w9
всего сайтов: 48685
1065 narod 59 yaca 38 common
по другим источникам: 1458 narod 94 yaca
w10
всего сайтов: 1009
118 narod 76 yaca 19 common
по другим источникам: 158 narod 78 yaca
w11
всего сайтов: 94673
2074 narod 58 yaca 19 common
по другим источникам: 2707 narod 70 yaca
w12
всего сайтов: 232332
2484 narod 41 yaca 8 common
по другим источникам: 2982 narod 41 yaca
w13
всего сайтов: 53841
540 narod 2 yaca 0 common
по другим источникам: 601 narod 1 yaca
w12 и w13 - новые "очень большие серверы".
На первый взгляд оптимальными машинами являются w3 и w7.
> 2. Каковы средние размеры сайтов?
На Народе существуют различные технологические
процедуры, нарушающие однородность распределения
сайтов по машинам. В частности перенос больших хостов
на выделенную машину. Машины, на которых такие переносы не делались
давно, можно считать более "типическими".
Из-за разного времени этого переноса сильно отличаются
средние размеры сайтов.
Оценки среднего размера сайта в KB
(вообще, включая не HTML файлы):
w2: 126099486 KB / 40104 = 3144
w3: 86630355 KB / 43235 = 2003
w12: 193352147 KB / 232332 = 832
Оценки среднего размера HTML файла,
среднего количества HTML-файла на сайте
и среднего размера HTML-части сайтов.
w12/q: 40056681 bytes in 8707 htm* files on 891 sites; total 518189 KB
среднее количество html-файлов на сайте: 9.7
средний размер html-файла: 4600 байт
средний объем html-файлов на сайте: 44956 байт
w12/a: 732425126 bytes in 118112 htm* files on 20583 sites; total 14988006
KB
среднее количество html-файлов на сайте: 5.7
средний размер html-файла: 6201 байт
средний объем html-файлов на сайте: 35583 байт
w2/m: 385810004 bytes in 57505 htm* files on 3186 sites; total 9888028 KB
среднее количество html-файлов на сайте: 18
средний размер html-файла: 6709 байт
средний объем html-файлов на сайте: 121095 байт
Как видите, они тоже сильно отличаются от машины к машине.
И даже в пределах машины от "буквы" к "букве".
> 3. Сколько сайтов (в процентах от размера кластера, в мегабайтах)
> нужно взять, чтобы получилось примерно 650 мегабайт .tar.gz
> (предположим мы хотим поместить коллекцию на 1 CD-ROM)
650 MB tar.gz ~= 3 GB текстовых файлов.
Считая, что средний объем html-файлов на сайт равен
100 KB (см выше), получаем примерно 32 тысячи сайтов, что для
w3 или w7 составляет 70-80% от общего числа сайтов.
> 4. Можно ли отсечь совершенно непосещаемые сайты?
> Сколько их в процентах на кластере?
Сайты, не посещаемые (и не обновляемые) в течение 4 месяцев
закрываются. А еще через месяц удаляются.
> 5. Можно ли отсечь сайты целиком состоящие из теплейтов?
> сколько их в процентах?
По страницам:
5,2% всех страниц сделаны по темплейтам.
По сайтам:
61% сайтов содержит хотя бы одну страницу по шаблону.
Точное распределение пока не посчитано.
Постараемся сделать к завтрашнему дню.
Илья