Дорожка поиска по веб-коллекции в 2011 году
Posted: Wed Feb 02, 2011 5:44 pm
Уважаемы коллеги.
Предлагаю здесь обсудить вопросы, связанные с дорожкой веб-поиска в этом году. И на очной части семинара, и в переписке высказывались мнения, что с этой дорожкой надо что-то делать.
Чтобы задать направление дискуссии, позволю себе сформулировать несколько основных (как мне кажется) вопросов.
1. Нужна ли нам вообще дорожка ad hoc поиска по веб-коллекции? Кто желает в ней участвовать?
2. Насколько нас устраивают старые коллекции BY и KM? Есть ли желающие искать по этим коллекциям?
3. Если нам нужна новая коллекция, то какая именно?
3.1. Откуда взять данные? Высказывалась идея взять урлы для коллекции из выдачи поисковиков по случайным запросам из потока. Также предлагалось взять случайное подмножество из всего множества известных Яндексу документов. Вероятно, могут быть еще какие-то предложения.
3.2. Какой объем должен быть у новой коллекции?
3.3. Насколько распространение новой коллекции будет корректно с юридической точки зрения?
4. Нужно ли что-то менять в принципах оценки дорожки? Устраивает ли нас работа асессоров? Нужно ли что-то делать с метриками?
Наверняка это список вопросов неполон - дополняйте.
Предлагаю здесь обсудить вопросы, связанные с дорожкой веб-поиска в этом году. И на очной части семинара, и в переписке высказывались мнения, что с этой дорожкой надо что-то делать.
Чтобы задать направление дискуссии, позволю себе сформулировать несколько основных (как мне кажется) вопросов.
1. Нужна ли нам вообще дорожка ad hoc поиска по веб-коллекции? Кто желает в ней участвовать?
2. Насколько нас устраивают старые коллекции BY и KM? Есть ли желающие искать по этим коллекциям?
3. Если нам нужна новая коллекция, то какая именно?
3.1. Откуда взять данные? Высказывалась идея взять урлы для коллекции из выдачи поисковиков по случайным запросам из потока. Также предлагалось взять случайное подмножество из всего множества известных Яндексу документов. Вероятно, могут быть еще какие-то предложения.
3.2. Какой объем должен быть у новой коллекции?
3.3. Насколько распространение новой коллекции будет корректно с юридической точки зрения?
4. Нужно ли что-то менять в принципах оценки дорожки? Устраивает ли нас работа асессоров? Нужно ли что-то делать с метриками?
Наверняка это список вопросов неполон - дополняйте.