Привет, Александр.
alsafr wrote:Предлагаю здесь обсудить вопросы, связанные с дорожкой веб-поиска в этом году. И на очной части семинара, и в переписке высказывались мнения, что с этой дорожкой надо что-то делать.
Да, я тоже предлагал что-то сделать, поэтому выскажусь.
alsafr wrote:1. Нужна ли нам вообще дорожка ad hoc поиска по веб-коллекции? Кто желает в ней участвовать?
Мне нужна и я бы хотел такую дорожку в этом году. Нужно формально подтвердить новые правильные гипотезы, а без асессоров - никак. В альтернативу с миллиардом документов не ТРЕКе неохота пока влезать, для меня это слишком затратно технически.
alsafr wrote:2. Насколько нас устраивают старые коллекции BY и KM? Есть ли желающие искать по этим коллекциям?
Если не будет новых коллекций, то я буду участвовать в этих. Они вполне терпимые, если выбирать не из чего.
alsafr wrote:3. Если нам нужна новая коллекция, то какая именно?
3.1. Откуда взять данные? Высказывалась идея взять урлы для коллекции из выдачи поисковиков по случайным запросам из потока. Также предлагалось взять случайное подмножество из всего множества известных Яндексу документов. Вероятно, могут быть еще какие-то предложения.
Не, случайные - это все фигня. Нужно брать нормальные документы, к тому же отражающие сегодняшний рунет, явно, а не случайно. Если взять выдачи длиной 200 для 20К самых высокочастотных запросов и такие же для всего списка коммерческих запросов из ашмановского SeoRate (примерно 22К запросов), то в сумме после склейки получим около 9М документов хорошего качества, которые являются мини-зеркалом сегодняшнего рунета. Если договоримся с Яндексом о такого рода коллекции, то лучше взять сразу текстовые копии, их легче обрабатывать. Что касается поиска с учетом линковой релевантности, то опять же все упирается в помощь Яндекса. Для всех документов такой коллекции у Яндекса есть полные анкор-файлы - все эти анкоры равномерно раскидать случайным образом по футерам документов в тегах <noindex><linkromip>блок ссылок</linkromip></noindex>. С пэйджранком не очень интересно получится, но линковые факторы не ограничиваются одним пэйджранком все же.
Т.е. можно будет искать как по текстовой коллекции без линков, так и с реальными линками - на любой вкус.
alsafr wrote:3.2. Какой объем должен быть у новой коллекции?
Ну я выше уже написал - так получается около 9М документов, это нормально. Слишком большую коллекцию возможно не все потянут, а у нас и так участников не много.
alsafr wrote:3.3. Насколько распространение новой коллекции будет корректно с юридической точки зрения?
Как вариант - я могу заявить, что коллекция собрана AlterTrader Research Ltd(BVI), не думаю, что будут желающие судиться. Тем более, что в международном арбитраже в Москве у меня счет пока сухой в мою пользу.
alsafr wrote:4. Нужно ли что-то менять в принципах оценки дорожки? Устраивает ли нас работа асессоров? Нужно ли что-то делать с метриками?
Асессоы в 2010-м сработали отлично, ИМХО. И количество метрик сейчас правильное - много метрик есть гуд. Т.к.с таким большим количеством метрик у каждого участника возрастает вероятность по каким-то метрикам показать приличный результат - это в итоге стимулирует.
alsafr wrote:Наверняка это список вопросов неполон - дополняйте.
Пока хотя бы эти вопросы как-то решить...