4802
Просмотры
Из-за большого объема данных в Интернете поисковые системы не сразу узнают, когда появляются новые страницы или изменяются старые. Соответственно, индекс поиска — это своего рода исторический снимок сети, а не ее текущее представление. Пользователь ожидает увидеть соответствующую информацию при нажатии на результаты поиска. Но невозможно просканировать Интернет с частотой появления/обновления в нем контента, чтобы сохранить свежий индекс.
Частично эта проблема решена в Яндексе, Гугле и других ПС за счет настройки приоритетов сканирования, которые зависят от различных параметров. Также поисковые системы предоставляют веб-мастерам различные инструменты, позволяющие уведомлять об изменениях на сайте, что, в свою очередь, меняет приоритеты сканирования.
- В Яндекс такой инструмент есть «Повторное сканирование страниц» в панели веб-мастера.
- Бинг пользуюсь с сентября этого года API отправки URL-адресов.
- В Google доступный Индексирование APIкоторый по умолчанию предназначен не для всех типов контента.
Недавно Яндекс и Bing также начали поддерживать протокол. ИндексNow.
Содержание
Что такое IndexNow?
IndexNow — простой API для информирования поисковых систем об изменениях на сайте: новых страницах, удалении старых, обновлении контента. В Яндексе его можно использовать вместо или вместе с инструментом пересканирования страниц. Однако поисковые системы не гарантируют, что страницы будут сканироваться быстро или что это каким-либо образом повлияет на скорость индексации или переиндексации контента.
Формат запроса API:
Где ключ key
соответствует регулярному выражению ^[a-zA-Z-]{8,128}$
Полный протокол описан по ссылке:
Пример запроса API:
Где ключ devakatalk — это соответствующий txt-файл в корне сайта, имеющий такое же содержимое.
Чтобы проверить, как именно работает IndexNow в Яндексе, было проведено исследование, результаты которого опубликованы в этой статье.
Цели исследования
Данное исследование преследует несколько целей. А именно, проверьте:
- Как быстро сканируются страницы после запроса IndexNow?
- Как быстро индексируются новые страницы в Яндексе?
- Можно ли быстро удалить страницы из индекса?
- Чем IndexNow отличается от инструмента Page Recrawler?
И вообще, найдите особенности поведения Яндексбота по разным запросам IndexNow.
Проведение исследований
Для экспериментальной площадки:
- Отправка запросов IndexNow для разных страниц
- Подобные запросы отправляем через «Обход страницы» в Панели вебмастера Яндекса.
- Анализ логов сервера
- Анализ результатов Яндекса
- Оцениваем работу IndexNow и находим различия при повторном обходе
Результаты: 1. Переиндексация страниц.
00:26 — отправка 35 старых страниц через IndexNow
00:26 — Яндекс проверил ключ «GET /devakatalk.txt HTTP/1.1» 200 «Python-urllib/2.6»
00:36 — (через 10 минут) ничего не происходит, в логах нет запросов на отправленные страницы
07:23 — (7 часов спустя) ничего не произошло
…
07:23 — отправить те же страницы на повторное сканирование
07:24 — за минуту все страницы были отсканированы

Использование IndexNow для старых страниц не дало видимого эффекта. Хотя бы на несколько часов. Возможно, где-то в базе Яндекса изменился приоритет сканирования этих страниц, но это не точно. Инструмент Page Retraversal работал намного быстрее.
Результаты: 2. Сканирование новых страниц.
12:03 — отправка 887 новых страниц (ранее неизвестных Яндексу) через IndexNox
12:03 — начинается сканирование страниц
12:13 — Просканировано 834 из 887 страниц, процесс остановлен
12:16 — отправка дополнительных 100 новых страниц через «Повторное сканирование»
12:17 — все 100 страниц сканируются за минуту
IndexNow сканирует новые страницы быстрее, чем старые, по умолчанию присваивая им высокий приоритет. Сканирование заняло всего 10 минут. Возможно, это предел и количество сканируемых страниц будет зависеть от скорости их доставки сервером.
Повторное сканирование также сканирует страницы быстро, но количество ограничений ограничивает возможности этого инструмента. Давайте дадим по одному каждому инструменту в борьбе друг с другом.
IndexNox vs Переход — 1:2
Результаты: 3. Индексация страниц
7:47 — создана новая страница
7:49 — добавлено через IndexNow и сразу отсканировано Яндексом
8:19 — (через 30 минут) в указателе ничего нет
8:20 – снова добавлено через IndexNow.
8:21 — пересканировано роботом Яндекса
8:33 — (44 минуты спустя) ещё нет в указателе
8:34 — добавлено повторное сканирование в панели вебмастеров
8:47 — страница появилась в индексе с пометкой «57 минут назад»

IndexNow не торопится добавлять страницы в индекс, хотя сохраняет их в базе данных с отметкой времени, когда впервые узнал об этом. Возникла гипотеза, что на индексацию повлияло пересканирование, а не IndexNow, поэтому нужна была перепроверка.
8:03 — создана новая страница
8:04 — добавил повторный обход через панель и сразу просканировал
8:10 — в индексе Яндекса ничего нет
8:20 — (через 16 минут) запрос отправлен в IndexNow.
Страница не была пересканирована после этого запроса (нет записи в логах)
8:29 — (через 24 минуты после первого запроса, через 9 минут после второго) появилось в индексе
Проиндексировать страницу одним инструментом не удалось, было небольшое время ожидания. Поэтому давайте еще раз проверим.
8:38 — создана новая страница
был отправлен на повторное сканирование в панели веб-мастеров каждые 2 минуты
8:38, 8:44 — страница просканирована роботом всего 2 раза
8:47 — страница в индексе (запись — 9 минут)

Отправка одного запроса через ретраверсал не дала быстрых результатов, поэтому проверялись повторные отправки. Рекорд индексации новой страницы составил 9 минут; для этого пришлось несколько раз отправить страницу на повторное сканирование. Вторая замена произошла не ранее, чем через 6 минут после первой.
Была проведена еще одна проверка, чтобы убедиться, что страница не появится в индексе в течение нескольких часов благодаря инструменту IndexNow.
12:43 — создана и наполнена контентом новая страница
12:46 — Запрос IndexNow и почти мгновенное сканирование страниц
13:06 — (через 20 минут) страницы нет в индексе Яндекса
15:26 — (спустя 2 часа 40 минут) в указателе по-прежнему ничего нет
15:28 — отправлен запрос на повторное сканирование через панель вебмастеров
15:30 — (через 2 минуты после повторного сканирования) страница появилась в индексе с пометкой «2 часа назад»

Индексация дает 1 балл в пользу повторного обхода. IndexNow против Retraversal — 1:3.
Результаты: 4. Удаление из индекса
Мы уже знаем, что IndexNow не хочет выпускать старые страницы. Но это нужно было проверить.
15:37 — страница удалена, возвращается код статуса 404
15:38 — запрос отправлен в IndexNow
16:14 — (через 36 минут) ничего не происходит, страница даже не пересканируется
16:15 — вебмастеру отправлен запрос на изменение маршрута
16:27 — (через 12 минут после второго запроса) страница удалена из индекса
Удаление в пользу повторного обхода. IndexNow против Retraversal — 1:4.
Результаты исследования IndexNow

- Используйте IndexNow для сканирования новых URL-адресов.
- Отправляйте страницы как можно быстрее (ограничение 10 минут).
- IndexNow работает нестабильно, если ограничений достаточно, используйте «Повторный обход».
- Дизайн 301 -> 200 или 301 -> 404 позволяет создавать новые URL для старых.
Полезные инструменты и ссылки
Букмарклет, позволяющий отправить запрос в Яндекс через IndexNow в один клик
Удобный инструмент для массовой рассылки URL-адресов.