Дорожка поиска по веб-коллекции в 2011 году

Классическая задача поиска по запросу (ad-hoc track), поиск по образцу

Дорожка поиска по веб-коллекции в 2011 году

Postby alsafr » Wed Feb 02, 2011 5:44 pm

Уважаемы коллеги.

Предлагаю здесь обсудить вопросы, связанные с дорожкой веб-поиска в этом году. И на очной части семинара, и в переписке высказывались мнения, что с этой дорожкой надо что-то делать.

Чтобы задать направление дискуссии, позволю себе сформулировать несколько основных (как мне кажется) вопросов.
1. Нужна ли нам вообще дорожка ad hoc поиска по веб-коллекции? Кто желает в ней участвовать?
2. Насколько нас устраивают старые коллекции BY и KM? Есть ли желающие искать по этим коллекциям?
3. Если нам нужна новая коллекция, то какая именно?
3.1. Откуда взять данные? Высказывалась идея взять урлы для коллекции из выдачи поисковиков по случайным запросам из потока. Также предлагалось взять случайное подмножество из всего множества известных Яндексу документов. Вероятно, могут быть еще какие-то предложения.
3.2. Какой объем должен быть у новой коллекции?
3.3. Насколько распространение новой коллекции будет корректно с юридической точки зрения?
4. Нужно ли что-то менять в принципах оценки дорожки? Устраивает ли нас работа асессоров? Нужно ли что-то делать с метриками?

Наверняка это список вопросов неполон - дополняйте.
С уважением,
Александр Сафронов.
alsafr
 
Posts: 1
Joined: Wed Feb 02, 2011 4:47 pm

Re: Дорожка поиска по веб-коллекции в 2011 году

Postby G00DMAN » Thu Feb 03, 2011 2:46 am

Привет, Александр. :)
alsafr wrote:Предлагаю здесь обсудить вопросы, связанные с дорожкой веб-поиска в этом году. И на очной части семинара, и в переписке высказывались мнения, что с этой дорожкой надо что-то делать.
Да, я тоже предлагал что-то сделать, поэтому выскажусь.
alsafr wrote:1. Нужна ли нам вообще дорожка ad hoc поиска по веб-коллекции? Кто желает в ней участвовать?
Мне нужна и я бы хотел такую дорожку в этом году. Нужно формально подтвердить новые правильные гипотезы, а без асессоров - никак. В альтернативу с миллиардом документов не ТРЕКе неохота пока влезать, для меня это слишком затратно технически. :)
alsafr wrote:2. Насколько нас устраивают старые коллекции BY и KM? Есть ли желающие искать по этим коллекциям?
Если не будет новых коллекций, то я буду участвовать в этих. Они вполне терпимые, если выбирать не из чего.
alsafr wrote:3. Если нам нужна новая коллекция, то какая именно?
3.1. Откуда взять данные? Высказывалась идея взять урлы для коллекции из выдачи поисковиков по случайным запросам из потока. Также предлагалось взять случайное подмножество из всего множества известных Яндексу документов. Вероятно, могут быть еще какие-то предложения.
Не, случайные - это все фигня. Нужно брать нормальные документы, к тому же отражающие сегодняшний рунет, явно, а не случайно. Если взять выдачи длиной 200 для 20К самых высокочастотных запросов и такие же для всего списка коммерческих запросов из ашмановского SeoRate (примерно 22К запросов), то в сумме после склейки получим около 9М документов хорошего качества, которые являются мини-зеркалом сегодняшнего рунета. Если договоримся с Яндексом о такого рода коллекции, то лучше взять сразу текстовые копии, их легче обрабатывать. Что касается поиска с учетом линковой релевантности, то опять же все упирается в помощь Яндекса. Для всех документов такой коллекции у Яндекса есть полные анкор-файлы - все эти анкоры равномерно раскидать случайным образом по футерам документов в тегах <noindex><linkromip>блок ссылок</linkromip></noindex>. С пэйджранком не очень интересно получится, но линковые факторы не ограничиваются одним пэйджранком все же. :)
Т.е. можно будет искать как по текстовой коллекции без линков, так и с реальными линками - на любой вкус.
alsafr wrote:3.2. Какой объем должен быть у новой коллекции?
Ну я выше уже написал - так получается около 9М документов, это нормально. Слишком большую коллекцию возможно не все потянут, а у нас и так участников не много.
alsafr wrote:3.3. Насколько распространение новой коллекции будет корректно с юридической точки зрения?
Как вариант - я могу заявить, что коллекция собрана AlterTrader Research Ltd(BVI), не думаю, что будут желающие судиться. Тем более, что в международном арбитраже в Москве у меня счет пока сухой в мою пользу. :)
alsafr wrote:4. Нужно ли что-то менять в принципах оценки дорожки? Устраивает ли нас работа асессоров? Нужно ли что-то делать с метриками?
Асессоы в 2010-м сработали отлично, ИМХО. И количество метрик сейчас правильное - много метрик есть гуд. Т.к.с таким большим количеством метрик у каждого участника возрастает вероятность по каким-то метрикам показать приличный результат - это в итоге стимулирует. :)
alsafr wrote:Наверняка это список вопросов неполон - дополняйте.
Пока хотя бы эти вопросы как-то решить...
С уважением, Илья Зябрев.
AlterTrader Research Ltd.
User avatar
G00DMAN
 
Posts: 9
Joined: Thu Nov 04, 2010 2:43 am
Location: лаборатория, Перловка

Re: Дорожка поиска по веб-коллекции в 2011 году

Postby shodan » Thu Feb 03, 2011 3:08 am

alsafr wrote:Уважаемы коллеги.
1. Нужна ли нам вообще дорожка ad hoc поиска по веб-коллекции? Кто желает в ней участвовать?
2. Насколько нас устраивают старые коллекции BY и KM? Есть ли желающие искать по этим коллекциям?


Я бы попробовал.
shodan
 
Posts: 5
Joined: Mon Aug 09, 2010 6:00 pm

Re: Дорожка поиска по веб-коллекции в 2011 году

Postby G00DMAN » Thu Feb 10, 2011 1:49 pm

Кстати, если сформировать коллекцию так, как я предложил выше, то сразу решается задача с приличными таблицами релевантности, на основе релевантностей Яндекса. Можно по дефолтным запросам взять например позиции [1..10], [51..60], [101..110] и [191..200] и обучать по "типа listwise", метрики для обучения там очевидны. Качество обучающей выборки можно с натяжкой считать не плохим а размер обучалова будет прилиным, и это гуд. Все же текущих 650 запросов (у меня столько есть) маловато для обучения.
С уважением, Илья Зябрев.
AlterTrader Research Ltd.
User avatar
G00DMAN
 
Posts: 9
Joined: Thu Nov 04, 2010 2:43 am
Location: лаборатория, Перловка

Re: Дорожка поиска по веб-коллекции в 2011 году

Postby shodan » Thu Feb 10, 2011 3:49 pm

G00DMAN wrote:сразу решается задача с приличными таблицами релевантности, на основе релевантностей Яндекса


Под "релевантностями Яндекса" имеется в виду просто публичная выдача Яндекса или что-то другое?
shodan
 
Posts: 5
Joined: Mon Aug 09, 2010 6:00 pm

Re: Дорожка поиска по веб-коллекции в 2011 году

Postby G00DMAN » Thu Feb 10, 2011 4:05 pm

shodan wrote:Под "релевантностями Яндекса" имеется в виду просто публичная выдача Яндекса или что-то другое?
Ну да, имеется ввиду обычная выдача.
С уважением, Илья Зябрев.
AlterTrader Research Ltd.
User avatar
G00DMAN
 
Posts: 9
Joined: Thu Nov 04, 2010 2:43 am
Location: лаборатория, Перловка

Re: Дорожка поиска по веб-коллекции в 2011 году

Postby shodan » Thu Feb 10, 2011 4:09 pm

Обучаться "под Яндекс" как-то странно. Ни разу не эталон с P@1000=1 для любого запроса, вроде как.
shodan
 
Posts: 5
Joined: Mon Aug 09, 2010 6:00 pm

Re: Дорожка поиска по веб-коллекции в 2011 году

Postby G00DMAN » Thu Feb 10, 2011 4:18 pm

shodan wrote:Обучаться "под Яндекс" как-то странно. Ни разу не эталон с P@1000=1 для любого запроса, вроде как.
Ну эталон не эталон, а других обучалок не будет в случае новой коллекции. Вполне прилично должно обучится, ИМХО.
С уважением, Илья Зябрев.
AlterTrader Research Ltd.
User avatar
G00DMAN
 
Posts: 9
Joined: Thu Nov 04, 2010 2:43 am
Location: лаборатория, Перловка

Re: Дорожка поиска по веб-коллекции в 2011 году

Postby shodan » Thu Feb 10, 2011 4:30 pm

Имхо (имхо) лучше имеющиеся коллекции и оценки наращивать по мере сил, чем начинать с нуля на основе выдачи той или иной машины.
shodan
 
Posts: 5
Joined: Mon Aug 09, 2010 6:00 pm

Re: Дорожка поиска по веб-коллекции в 2011 году

Postby G00DMAN » Thu Feb 17, 2011 1:35 pm

shodan wrote:Имхо (имхо) лучше имеющиеся коллекции и оценки наращивать по мере сил, чем начинать с нуля на основе выдачи той или иной машины.
Этот топик alsafr открыл, потому что есть желание коллекции сменить на что-то лучшее, к текущим коллекциям не мало претензий. Я же просто предложил вариант сбора хорошей (по моему мнению) коллекции с наименьшими затратами - на все про все достаточно одного дня труда программиста в Яндексе.

Что касается обучения, то никто ведь не отменял имеющиеся таблицы релевантности, можно и на них обучать. Я же предложил дополнительный вариант, который не совсем очевиден по качеству, но зато он есть. А хорошо с такими релевантностями обучится или нет - покажет только прогон. :)
С уважением, Илья Зябрев.
AlterTrader Research Ltd.
User avatar
G00DMAN
 
Posts: 9
Joined: Thu Nov 04, 2010 2:43 am
Location: лаборатория, Перловка


Return to Поисковые дорожки

Who is online

Users browsing this forum: Exabot [Bot] and 1 guest

cron