Одинаковая оценка дублей документов

Классическая задача поиска по запросу (ad-hoc track), поиск по образцу

Postby sergei_tatevosian » Mon Mar 16, 2009 11:55 am

Добрый всем день! :)
Для корректной оценки результатов по вебу предлагаю следующее: мы можем сделать базу цепочек дублей документов в коллекции КМ. Чтобы не возникло ситуации, когда один документ оценен релевантным, а другой, его дубль (например, версия для печати) - нерелевантным, после окончания оценки можно пройти скриптом по указанной базе и выявить такие случаи (если несколько документов по одному запросу входят в цепочку дублей, смотреть, одинаковые ли у них оценки; если нет - попросить того же человека переоценить документы для единообразия).
Замечание: это не все дубли, т.к. не все они ловятся нынешней версией механизма.

Если так нормально, ближе к процедуре оценки, предоставим базу.
sergei_tatevosian
Оргкомитет
 
Posts: 38
Joined: Mon May 28, 2007 9:21 am

Re: [romip] Одинаковая оценка дублей документов

Postby neigor » Mon Mar 16, 2009 5:00 pm

Добрый день,

Прежде чем бороться с проблемой хорошо бы понять - а эта проблема актуальна?
Сколько таких случаев в таблице за два последних года?

Кстати, как раз хотел узнать мнение участников посиклвых дорожек -
хотим ли мы в этом году две отдельных дорожки по BY.Web и KM
или лучше сделать только BY.Web с увеличенным числом оцениваемых запросов
(скажем 500 на глубину 20)? Две оценки сложно - это не только
объем работы, но и задержки со стартом из-за
разного порядок сдачи результатов (выполнения заданий) участниками.

Какие есть мнения?

-igor


On Mon, 16 Mar 2009, Tatevosyan Sergey wrote:

> Добрый всем день! :)
> Для корректной оценки результатов по вебу предлагаю следующее: мы можем
> сделать базу цепочек дублей документов в коллекции КМ. Чтобы не возникло
> ситуации, когда один документ оценен релевантным, а другой, его дубль
> (например, версия для печати) - нерелевантным, после окончания оценки можно
> пройти скриптом по указанной базе и выявить такие случаи (если несколько
> документов по одному запросу входят в цепочку дублей, смотреть, одинаковые
> ли у них оценки; если нет - попросить того же человека переоценить документы
> для единообразия).
> Замечание: это не все дубли, т.к. не все они ловятся нынешней версией
> механизма.
>
> Если так нормально, ближе к процедуре оценки, предоставим базу.
>
neigor
Оргкомитет
 
Posts: 331
Joined: Sat Feb 08, 2003 2:06 pm

RE: [romip] Одинаковая оценка дублей документов

Postby sergei_tatevosian » Tue Mar 17, 2009 9:17 am


Надо взвесить за и против двух коллекций.
За:
1. Испытание═механизма ранжирования на разных коллекциях с разными характеристиками.
1.1 Позволяет выявить стабильность/нестабильность механизма.
1.2 Позволяет понять насколько хорошо разработчики умеют оптимизировать поисковый механизм под произвольную коллекцию.
2. Плюсы коллекции КМ.
2.1 Сильная ссылочная связанность - есть возможность тестировать работу ссылочного ранжирования.
2.2 Большое число посторонних материалов на странице с основным содержимым - есть возможность для проверки качества работы вырезания посторонней информации, оформления, деления страницы на смысловые блоки и тп.
2.3 КМ похож на раскрученную оптимизаторами верхушку рунета (правильные заголовки,═много весящие═ссылки), что дает хорошие результаты по многим запросам (не только маркерам, но околомаркерным типа "Путин и Райс" и тп.)

Против:
1. Увеличение объема работ.
2. By.Web больше похож на рунет, где Title может быть намеренно неправильным - тем интереснее обрабатывать такую ситуацию, у КМ Title почти всегда правильный, поэтому меньше похож на рунет, а больше похож на раскрученную верхушку.

Отдельно: против коллекции By.Web
1. Коллекция больше похожа на сборище мусорных документов. Эдакая помойка.═Многие документы не попадут в топ выдачи обычного поиска. т.к. содержат слишком много мусора.
2. Мало ссылок, что при запросах 2008 года, где в документах практически не встречается даже пассаж, а о ссылках можно совсем забыть, делает коллекцию не веб-, а обычным набором документов, но с html-разметкой, тогда как веб связан ссылками. Практически, мы имеем дело═с поиском по обычному тексту. TF*IDF.

В результате мы получаем:
1. КМ больше упорядочен чем веб в целом.
2.By.Web меньше упорядочен чем веб

Варианты:
1. Оставляем By.Web+KM.ru
2. Оставляем только By.Web.
3. Разделяем дорожку на 2 поддорожки и при достаточном числе желающих проводим те, которые интересны.




From: romip@yahoogroups.com [mailto:romip@yahoogroups.com] On Behalf Of Igor NekrestyanovSent: Monday, March 16, 2009 7:01 PMTo: romip@yahoogroups.comSubject: Re: [romip] Одинаковая оценка дублей документов


Добрый день,Прежде чем бороться с проблемой хорошо бы понять - а эта проблема актуальна?Сколько таких случаев в таблице за два последних года?Кстати, как раз хотел узнать мнение участников посиклвых дорожек -хотим ли мы в этом году две отдельных дорожки по BY.Web и KMили лучше сделать только BY.Web с увеличенным числом оцениваемых запросов(скажем 500 на глубину 20)? Две оценки сложно - это не толькообъем работы, но и задержки со стартом из-заразного порядок сдачи результатов (выполнения заданий) участниками.Какие есть мнения?-igorOn Mon, 16 Mar 2009, Tatevosyan Sergey wrote:> Добрый всем день! :)> Для корректной оценки результатов по вебу предлагаю следующее: мы можем> сделать базу цепочек дублей документов в коллекции КМ. Чтобы не возникло> ситуации, когда один документ оценен релевантным, а другой, его дубль> (например, версия для печати) - нерелевантным, после окончания оценки можно> пройти скриптом по указанной базе и выявить такие случаи (если несколько> документов по одному запросу входят в цепочку дублей, смотреть, одинаковые> ли у них оценки; если нет - попросить того же человека переоценить документы> для единообразия).> Замечание: это не все дубли, т.к. не все они ловятся нынешней версией> механизма.>> Если так нормально, ближе к процедуре оценки, предоставим базу.>
sergei_tatevosian
Оргкомитет
 
Posts: 38
Joined: Mon May 28, 2007 9:21 am

RE: [romip] Одинаковая оценка дублей документов

Postby sergei_tatevosian » Tue Mar 17, 2009 9:29 am

В прошлом году таких случаев было порядка 10-ти, что для 60-ти запросов много.
Ручной работы═мало - надо написать скрипт и пройтись им после окончания оценки документов.




From: romip@yahoogroups.com [mailto:romip@yahoogroups.com] On Behalf Of Igor NekrestyanovSent: Monday, March 16, 2009 7:01 PMTo: romip@yahoogroups.comSubject: Re: [romip] Одинаковая оценка дублей документов


Добрый день,Прежде чем бороться с проблемой хорошо бы понять - а эта проблема актуальна?Сколько таких случаев в таблице за два последних года?Кстати, как раз хотел узнать мнение участников посиклвых дорожек -хотим ли мы в этом году две отдельных дорожки по BY.Web и KMили лучше сделать только BY.Web с увеличенным числом оцениваемых запросов(скажем 500 на глубину 20)? Две оценки сложно - это не толькообъем работы, но и задержки со стартом из-заразного порядок сдачи результатов (выполнения заданий) участниками.Какие есть мнения?-igorOn Mon, 16 Mar 2009, Tatevosyan Sergey wrote:> Добрый всем день! :)> Для корректной оценки результатов по вебу предлагаю следующее: мы можем> сделать базу цепочек дублей документов в коллекции КМ. Чтобы не возникло> ситуации, когда один документ оценен релевантным, а другой, его дубль> (например, версия для печати) - нерелевантным, после окончания оценки можно> пройти скриптом по указанной базе и выявить такие случаи (если несколько> документов по одному запросу входят в цепочку дублей, смотреть, одинаковые> ли у них оценки; если нет - попросить того же человека переоценить документы> для единообразия).> Замечание: это не все дубли, т.к. не все они ловятся нынешней версией> механизма.>> Если так нормально, ближе к процедуре оценки, предоставим базу.>
sergei_tatevosian
Оргкомитет
 
Posts: 38
Joined: Mon May 28, 2007 9:21 am

Re: Одинаковая оценка дублей документов

Postby salexunder » Tue Mar 17, 2009 10:19 am

Добрый день, коллеги.


> хотим ли мы в этом году две отдельных дорожки по BY.Web и KM
> или лучше сделать только BY.Web


1. Мне кажется, что две заметно различающиеся по своему характеру коллекции -
это очень хорошо. Чем более разнообразны коллекции, тем больше шансов у разных
систем проявить себя. Если есть такая возможность, то лично я предпочел бы,
чтобы обе коллекции остались.

2. Но если с организационной точки зрения 2 коллекции создают значительные
проблемы, то можно оставить одну из них. Сделать выбор между BY и KM я
затрудняюсь.
2.1. Главное, чтобы это была именно одна из 2х старых коллекций, а не новая
коллекция, полученная путем слияния двух коллекций в одну. Если я не ошибаюсь,
на прошлом круглом столе озвучивалась идея объединения коллекций в одну - мне
кажется это не совсем удачным решением, поскольку в результате уменьшается
практическая ценность таблиц релевантности, накопленных за прошлые годы. На мой
взгляд, эти таблицы очень полезны, особенно для начинающих исследователей,
которые не могут себе позволить самостоятельное создание обучающей базы. Другими
словами, я за то, чтобы хотя бы одна из ныне существующих коллекций была
заморожена на максимально долгий срок.


С уважением,
Александр Сафронов.
salexunder
 
Posts: 16
Joined: Tue Mar 17, 2009 8:21 am


Return to Поисковые дорожки

Who is online

Users browsing this forum: No registered users and 3 guests

cron