В блоге "Яндекс.Поиск" появилось сообщение, что теперь счетчик Яндекс.Метрика можно настроить так, чтобы он не передавал Яндексу для индексации обнаруженные им ссылки.
Мы не могли представить себе, что в функциональность инструмента для анализа сайта нужно добавлять средства управления доступом. Для этого существуют общепринятые инструменты.
Однако миф о том, что для защиты приватной информации достаточно сложного адреса страницы, оказался таким распространенным среди вебмастеров, что мы решили добавить в Метрику возможность не передавать в поиск Яндекса адреса страниц, которые стали ей известны.
Однако это не означает, что поисковая система никогда не узнает о той или иной странице. Существует огромное количество других путей, которыми страница может оказаться в поиске. Новая опция Метрики влияет только на непосредственную связь между Метрикой и поиском.
В посте также рассказывается, как именно настраивать Метрику и как ускорить удаление из индекса тех данных, которые там уже оказались, хотя не должны были. Акцентируется тот факт, что Яндекс.Бар не имеет никакого отношения к попаданию данных в поиск, так как ссылок и информации о посещенных страницах не передает.
Таким образом, Яндекс пока не поддается давлению общественности, считающей, что ему стоит взять на вооружение принцип don't be evil и самостоятельно защищать чувствительные данные от попадания на всеобщее обозрение. Вебмастера должны сами научиться настраивать индексацию сайта. Одновременно с этим представители Яндекса удивляются тому, как распространен миф о сложных адресах страниц и как много вебмастеров делают ошибки.
Добавить 20 комментариев
Яндекс.Бар не имеет никакого отношения к попаданию данных в поиск, так как ссылок и информации о посещенных страницах не передает … в индексатор поиска. А вообще в Яндекс — передает, что нетрудно увидеть при помощи tcpdump.
Очевидно, чтобы спросить об URL, надо сформулировать вопрос с этим URL. То что не попадает в поиск — это воля Яндекса. Докажите, что подобные ссылки попадают в индекс. Я думаю, там еще раз перетряхнули на всякий случай сервис тулбара, чтобы те кто кинутся проверять — точно ничего не нашли. Даже если раньше и было — никто не поймал, теперь уж точно не поймают.
> общественности, считающей, что ему стоит взять на вооружение принцип don’t be evil и самостоятельно защищать чувствительные данные от попадания на всеобщее обозрение. Это не «don’t be evil», это «be lawful good» какой-то :)
> А вообще в Яндекс — передает, что нетрудно увидеть при помощи tcpdump. Яндекс сказал в оригинальном сообщении, что «не индексирует». про «не передает» на совести редакторов roem.ru
Это очень хорошо. Теперь осталось при установке сервисов Яндекса(метрики, директа, карт и пр.), поставить яркое предупреждение о том, что вебмастер понимает, что в случае использования сервисов — пользоваться гетом для передачи приватных данных противопоказано. И на этом, наверное, инцидент с Яндексом исчерпан. Чего пока не скажешь о Гугле и прочих.
Стоит признать, что и Яндекс хорош. Какого хрена Метрика лезет туда, куда ее не просят? Понятно, что вебмастер должен думать головой и не пихать счетчик в секретные место. Но ведь и Яндексу должно быть понятно, что пихать будут, как не запрещай, следовательно по умолчанию функция вылавливания ссылок через счетчик должна быть отключена!
> не пихать счетчик в секретные место Это секретное место может быть целевой точкой визита, и для оценки эффективности владельцу сайта как раз и нужно ставить на эту страницу счётчик.
Дык я-то понимаю. Это Яндекс не понимает, что «приватность пользователя» ценнее «небольшого улучшения поиска».
Получается, что если я включу эту опцию, то из индекса вывалится куча страниц с товарами которых сейчас в продаже нет, но потенциально могут появиться. Сколько денег приносят такие страницы мне не известно, но рисковать глупо. Мне проще правильно настроить роботс и проводить аудит раз в полгода. А секретные места паролить нужно. Т.е. потенциально это опция нужна тем у кого соблюдены 3 условия: 1) есть что скрывать; 2) не критичен трафик с яндекса; 3) не в состоянии контролировать свой сайт (при условии, что они это осознают и признают). ИМХО таких будет очень мало. Да я не учитываю тех кто вообще не понимает зачем они поставили метрику и что вообще происходит.
> Да я не учитываю тех кто вообще не понимает зачем они поставили метрику и что вообще происходит. Напрасно, это — целевая аудитория :)
> Получается, что если я включу эту опцию, то из индекса вывалится куча страниц с товарами которых сейчас в продаже нет, но потенциально могут появиться С чего бы вдруг? Если на эти товары были ссылки, они попали в индекс и страницы с ними до сих пор отдают код 200, то ничего вываливаться не будет.
> товарами которых сейчас в продаже нет, но потенциально могут появиться Странная логика. По-вашему, они попали в индекс только потому, что Метрика зарегистрировала их просмотр? А как Метрика зарегистрировала их просмотр, если по вашим словам на эти страницы нигде нет ссылок? Как на эти страницы попал тот Адам, который породил просмотр, который породил слив адреса Метрикой? Адама туда Бог поселил?
@Psycho, @zotov ну ок,вот вам кейс. В базу попадает товарная позиция, это страница в 3 клике. До того как яндексбот обнаружил страницу, приходит покупатель и выкупает все что есть. Ссылки на страницу на сайте больше нет, но метрика зарегистрировала заход и продажу.
chonduhvan, пофигу, как страница попала в индекс — главное, что она попала и отдаёт 200-ю. Если на ней, конечно, вдруг не появится куча продажных ссылок, неуникального контента или же трояна, то из индекса она никуда не денется. В конце концов, помимо внутренних ссылок есть sitemap.xml и внешние ссылки.
Понравилась ссылка на пользовательское соглашение — последние слова цитаты звучат с издевкой )
интересно, что за » огромное количество других путей, которыми страница может оказаться в поиске»? мне казалось, что оно конечное и относительно небольшое, поправьте, если не прав
Мне кажется, что команда Мерики может взаимодействовать с поиском, сообщать поисковой команде некую глобальную статистику, статистику по отраслям, про то как сайты трафик с Гугла получают, но не больше. По моему мнению сервера Метрики не должны сообщать Поиску информацию о существующих в природе URL. Хотя желание Яндекса учитывать данные Метрики при Поиске понятно, самый верный способ понять какие страницы более популярные — а значит более качественные. А то кажется,что «паук» Яндекса оказался совсем плохой — не умеет странички находить без подсказки Метрики, да и sitemap.xml зачем мы спрашивается делаем, только для Гугла что ли? Про альтернативные пути попадания некоторых страниц в индекс. Пару лет тому назад находил в сети веб-интерфейс прокси да еще открытый, URL там было — море!
И Яндекс считает, что данное дополнение что-то исправит? Т.е. не умеете настраивать роботов, ну дык хотя бы в интерфейсе метрики покликайте… Какое-то странное лекарство. Не понимаю, почему Я.Поиск имеет право использовать данные Я.Метрики (и пофих на пользовательские соглашения — при таком распространении нельзя всю вину перекладывать на пользователя). Вот представьте себе, если Я начнет индексировать ссылки из своей почты на автологин в свои же сервисы, а тут ненароком роботы (robots.txt) будут недоступны. Ну не пипец ли…
Ладно в интерфейсе метрики было бы достаточно что-то изменить — так интерфейс лишь обновляет код, нужно в любом случае менять код метрики на сайте. Получается, что они добавили еще один вариант robots.txt, но не более.
>Получается, что они добавили еще один вариант robots.txt, но не более Скорей всего, это сделано для новых пользователей метрики, которые задумаются: ведь эта галочка неслучайно появились, возможно, у меня есть страницы не для индекса?