Гэри Иллис из Google пояснил в подкасте Search Off The Record, что Google технически не следует по ссылкам. Вместо этого Google извлекает ссылки, собирает их в базе данных, а затем проверяет их позже. Конечно, большинство из вас уже это знают, и для SEO не так уж важно знать разницу, но эй.
Гари Иллес из Google сказал на 25:26 отметка в этом подкасте:
Ну да, это моя любимая мозоль. На комбинезоне [Google Search Central Site]мы продолжаем говорить, что Googlebot следует по ссылкам, типа, нет, он не следует по ссылкам. Он собирает ссылки, а затем возвращается к этим ссылкам. Это не похоже на правильное следование по ссылкам. Картина, которую мы рисуем, заключается в том, что Googlebot как будто прыгает с…
Затем Гэри сделал небольшой пост на эту тему LinkedInобъясняя больше. «Вы, вероятно, слышали это раньше, что Googlebot «следует» по ссылкам. Это не так. Но это довольно наглядный способ описать, что делает Googlebot», — сказал он.
Он написал:
Недавний эпизод Search Off the Record (вызвал переполох, потому что мы, по-видимому, «слили» информацию о том, что Googlebot не просто «переходит» по ссылкам, которые он находит на странице, которую только что скачал. Если вы когда-либо тратили время на анализ журналов доступа вашего сервера в прошлом, скажем, 15 лет, вы уже знали, что это не так. Здесь задействовано больше, чем просто слепой запрос к URL-адресам, найденным в элементах; есть дедупликация по вариантам протокола, есть приоритизация URL-адресов, есть кофе или его отсутствие, и т. д.
Так зачем же тогда «следовать»? Как бы мне это не нравилось, это очень простой способ объяснить, что на самом деле делает Googlebot. Есть смысл использовать простые аналогии (сравнения?), но есть и место для более глубоких объяснений. Вы выбираете тот, который, по вашему мнению, подойдет для аудитории, с которой вы общаетесь в данный момент.
Вот вставка для прослушивания:
Гэри также добавил в комментарии глубоко внутри LinkedIn здесь на другом языке: «кстати, у нас есть еще одна система извлечения ссылок в процессе индексации (для причудливых/глупых ссылок)».
Есть также вопрос от Кристины Шахингер, которая спросила: «Я в замешательстве. Я знаю, что Google может заставить динамические сайты «создавать страницы» из внутренних ссылок, что, как я предполагал, происходит только при сканировании, так как же это происходит в этом сценарии?» Гари ответил: «Я не думаю, что между этими двумя вещами есть связь. Сканеры видят ссылку и в конечном итоге возвращаются к ней (а если нет, по крайней мере в случае с Googlebot, вы получаете «Обнаружено, но не просканировано» или что там сообщает Search Console). Если они возвращаются, новая страница создается динамически. То, что мы использовали с wget для рекурсивной загрузки данных в реальном времени, не существует в современных сканерах».
Таким образом, Google извлекает ссылки разными способами и не следует сразу по извлеченным ссылкам.
Обсуждение на форуме LinkedIn.