by sergei_tatevosian » Tue Mar 17, 2009 9:17 am
═
Надо взвесить за и против двух коллекций.
За:
1. Испытание═механизма ранжирования на разных коллекциях с разными характеристиками.
1.1 Позволяет выявить стабильность/нестабильность механизма.
1.2 Позволяет понять насколько хорошо разработчики умеют оптимизировать поисковый механизм под произвольную коллекцию.
2. Плюсы коллекции КМ.
2.1 Сильная ссылочная связанность - есть возможность тестировать работу ссылочного ранжирования.
2.2 Большое число посторонних материалов на странице с основным содержимым - есть возможность для проверки качества работы вырезания посторонней информации, оформления, деления страницы на смысловые блоки и тп.
2.3 КМ похож на раскрученную оптимизаторами верхушку рунета (правильные заголовки,═много весящие═ссылки), что дает хорошие результаты по многим запросам (не только маркерам, но околомаркерным типа "Путин и Райс" и тп.)
═
Против:
1. Увеличение объема работ.
2. By.Web больше похож на рунет, где Title может быть намеренно неправильным - тем интереснее обрабатывать такую ситуацию, у КМ Title почти всегда правильный, поэтому меньше похож на рунет, а больше похож на раскрученную верхушку.
═
Отдельно: против коллекции By.Web
1. Коллекция больше похожа на сборище мусорных документов. Эдакая помойка.═Многие документы не попадут в топ выдачи обычного поиска. т.к. содержат слишком много мусора.
2. Мало ссылок, что при запросах 2008 года, где в документах практически не встречается даже пассаж, а о ссылках можно совсем забыть, делает коллекцию не веб-, а обычным набором документов, но с html-разметкой, тогда как веб связан ссылками. Практически, мы имеем дело═с поиском по обычному тексту. TF*IDF.
═
В результате мы получаем:
1. КМ больше упорядочен чем веб в целом.
2.By.Web меньше упорядочен чем веб
═
Варианты:
1. Оставляем By.Web+KM.ru
2. Оставляем только By.Web.
3. Разделяем дорожку на 2 поддорожки и при достаточном числе желающих проводим те, которые интересны.
═
From: romip@yahoogroups.com [mailto:romip@yahoogroups.com] On Behalf Of Igor NekrestyanovSent: Monday, March 16, 2009 7:01 PMTo: romip@yahoogroups.comSubject: Re: [romip] Одинаковая оценка дублей документов
Добрый день,Прежде чем бороться с проблемой хорошо бы понять - а эта проблема актуальна?Сколько таких случаев в таблице за два последних года?Кстати, как раз хотел узнать мнение участников посиклвых дорожек -хотим ли мы в этом году две отдельных дорожки по BY.Web и KMили лучше сделать только BY.Web с увеличенным числом оцениваемых запросов(скажем 500 на глубину 20)? Две оценки сложно - это не толькообъем работы, но и задержки со стартом из-заразного порядок сдачи результатов (выполнения заданий) участниками.Какие есть мнения?-igorOn Mon, 16 Mar 2009, Tatevosyan Sergey wrote:> Добрый всем день! :)> Для корректной оценки результатов по вебу предлагаю следующее: мы можем> сделать базу цепочек дублей документов в коллекции КМ. Чтобы не возникло> ситуации, когда один документ оценен релевантным, а другой, его дубль> (например, версия для печати) - нерелевантным, после окончания оценки можно> пройти скриптом по указанной базе и выявить такие случаи (если несколько> документов по одному запросу входят в цепочку дублей, смотреть, одинаковые> ли у них оценки; если нет - попросить того же человека переоценить документы> для единообразия).> Замечание: это не все дубли, т.к. не все они ловятся нынешней версией> механизма.>> Если так нормально, ближе к процедуре оценки, предоставим базу.>