Поскольку теперь у нас есть основные цифры, то можно
говорить более предметно. Вот что получается:
1) поиск
50 запросов => ~10000 пар документ-запрос для оценки
=> ~160 человеко/часов (1 оценка на пару)
=> ~25 человека/часов для участника с 1 прогоном
(~50 для участника с 3 прогонами)
(поскольку прогоны от одного участника сильно пересекаются,
то каждый прогон сверх первого счиатется при разделении затрат
за 0.5 прогона. Итого для поиска взвешенное число прогонов 7)
для того чтобы оценивать надежность оценок их надо дублировать.
Собирать для каждой пары 3 оценки наверное все-таки слишком дорого,
поэтому мы предлагает собирать по две. Вместе с частичным несовпадением
наборов данных между участниками это должно быть нормальным компромисом.
2) классификация
3000 пар сайт/документ (~15 категорий (включая несколько размером
выше среднего)
=> ~ 100 человека/часов (если 1 оценка)
=> ~25 человека/часов для участника с 1 прогоном
Тут также предлагается собирать по две дублирующие оценки.
Хотя может быть полезнее вместо дублирования
увеличить число оцениваемых категорий и оценить пару очень популярных ...
Стоимость человека/часа при делегировании оценки нам - ~4$
(в зависимости от объема делегированной работы возможно получится дешевле,
но точно не меньше 3$).
Планируемый срок завершения сбора оценок - первая неделя сентября,
так чтобы к 1 октября мы уже получили тексты и верстали сборник.
Пожалуйста, выскажете свои предпочтения по дублированию оценок и
уточните какой объем работы вы готовы выполнить самостоятельно,
а что хотите делегировать.
-igor