Как только будет закончена процедура оценки и мы сможем получить списки
сайтов, которые оценщики отнесли к темам, то станет ясно где
это расходится с резульатами каждой конкретной системы.
Вероятно, большинство участников будет анализировать причины этого
расхождения. Можно попробовать договориться (например, при общей очной
встрече о том, что информация о найденных проблемных классах документов
(структурно, а не семантически) накапливалась централизовано.
Кстати, (я правда не успел посмотреть примеры) похоже что привелденные вами
случаи - когда есть текст в meta или комментариях лекго можно обнаружить
модифицировав парсер html так чтобы он оставлял только такой текст или
наоборот брал все остальное. Сравнение результатов классификации этих
двух вариантов должно дать возможность _автоматически_ определить долю
документов для которых эта информация оказывает влияние.
Вообще говоря я лично не уверен, что если в документе есть ценная скрытая
информация, то это делает релевантным теме. По идее система ориентирована на
удовлетворение потребностей пользователя, а для пользователя такой документ
малополезен. Это конечно обсуждаемо
, но в любом случае сейчас уже поздно
менять процедуру на этот год, поскольку оценка уже почти завершена.
Однако, эту и другие связанные с процедурой оценки проблемы необходимо будет
обсудить (и проголосовать за решение) при подговке следующего годового цикла.
-igor