> хорошо. Смещение в чем? в байтах в исходной html версии?
Думаю, да. Это значительно упростит создание средств оценки.
> Это вроде бы логично, но многие участники вырезают html разметку.
Вырезание разметки приведет к неоднозначности в разбиении текста на предложения.
> И в случае смещения в html, разметка естественно не должна входить в
> 200/400 байт
Естественно, считаются видимые символы текста (что видит конечный пользователь).
> (или 250/500 лучше?)
Затрудняюсь ответить. Для фактографического поиска идеально бы выдавать если уж
не точный ответ или синтезированный текст "без бахромы", то хотя бы полные
предложения текста. То есть, в моем понимании, ограничение на длину пассажа
является больше защитой нервной системы оценщиков в случае ошибок систем.
В пилотной версии дорожки требовать выдачу предложений нереально и не
"демократично". Тем более, что о корректности разбиения на предложения так же
можно спорить.
> А если смещение после вырезания разметки, то надо стандартизировать
> вырезание ...
То есть предоставить версии страниц в плоском тексте (и сохранить информацию для
сопоставления смещений в плоском тексте и исходном html). Кто хочет, пусть
обрабатывет текст, кто хочет - html.
С уважением,
Владимир Плешко