Почему вы должны контролировать скорость сканирования Googlebot?

Иногда он будет очень рад увидеть, как Google сканирует ваш сайт почти мгновенно. Но это не требуется для большинства сайтов, так как контент может обновляться раз в день или даже с более длительным интервалом. В таких случаях, когда контент не обновляется, поисковым роботам или сканерам не имеет смысла продолжать поиск обновлений на сайте. В этой статье мы увидим, зачем вам управлять роботом Googlebot и как контролировать скорость сканирования робота Googlebot и других сканеров поисковых систем.

Почему вы должны контролировать скорость сканирования Googlebot?

Непрерывное сканирование роботов поисковых систем отрицательно скажется на производительности сервера, если у вас несколько сайтов или сайт большего размера. Таким образом, необходимо контролировать скорость сканирования вашего сайта роботами, и Googlebot является первым, которым вы должны управлять во многих случаях.

  • Ресурсы вашего сервера используются, будь то бот поисковой системы или реальный пользователь.
  • Высокая скорость сканирования приведет к высокой загрузке ЦП и, возможно, придется платить больше за дополнительные ресурсы. В среде общего хостинга ваш хост может остановить службу, чтобы защитить другие сайты, размещенные на том же сервере.
  • Когда робот Googlebot сканирует сайты, реальные пользователи на сайте могут чувствовать медлительность. Если у вас есть сайт электронной коммерции, обязательно контролировать Googlebot и других часто сканирующих роботов.

Вы можете не увидеть никаких проблем с ботами, если ваш сайт меньше и имеет ограниченный трафик. Когда у вас есть несколько сайтов, привлекающих тысячи посетителей каждый день, вы заметите, что загрузка ЦП резко возрастает из-за активности краулера. Когда загрузка ЦП высока, вы, вероятно, получите предупреждающее сообщение от своей хостинговой компании или ваша учетная запись будет приостановлена ​​с просьбой предпринять необходимые действия.

Как контролировать Googlebot?

Есть два способа отслеживать сканирование, выполняемое роботом Googlebot. Один из них – это проверка из вашей консоли поиска Google, другой – мониторинг из вашей учетной записи хостинга.

Войдите в свою учетную запись Google Search Console и перейдите в раздел «Сканирование> Статистика сканирования». Здесь вы можете увидеть активность робота Googlebot за последние 90 дней. Вы увидите три графика – страницы, сканированные за день, килобайты, загруженные за день, и время, затраченное на загрузку страницы (в миллисекундах). Эти графики дадут вам общее представление о том, что Googlebot делает на вашем сайте.

Время, проведенное роботом Googlebot на вашем сайте

Второй и наиболее эффективный способ – отслеживать действия на вашем сервере из учетной записи хостинга. Войдите в свою учетную запись хостинга и найдите один из инструментов для создания статистических отчетов. В этом случае мы объясняем это с помощью Awstats, который предлагается почти всеми поставщиками общего хостинга, такими как Bluehost, SiteGround и т. Д.

Откройте приложение Awstats и выберите свой сайт для просмотра статистики. Посмотрите в разделе «Роботы / посетители-пауки» список самых активных ботов.

Мониторинг ботов от Awstats

Мониторинг ботов от Awstats

Вы также можете использовать плагины, такие как WordFence, для отслеживания трафика в реальном времени и действий робота Googlebot.

Как контролировать скорость сканирования Googlebot?

Когда вы замечаете, что робот Googlebot сканирует ваш сайт и потребляет много трафика, самое время контролировать скорость сканирования. Некоторые хостинговые компании автоматически контролируют задержку сканирования, добавляя записи в файл robots.txt. Вы можете вручную контролировать скорость сканирования Googlebot из Google Search Console. После входа в свою учетную запись Search Console щелкните значок настроек шестеренки и выберите параметр «Настройки сайта».

Доступ к настройкам управления сканированием в Google Search Console

Доступ к настройкам управления сканированием в Google Search Console

В разделе «Скорость сканирования» вы увидите два варианта.

Контроль скорости сканирования Googlebot

Контроль скорости сканирования Googlebot

  • Разрешить Google оптимизировать мой сайт (рекомендуется)
  • Ограничьте максимальную скорость сканирования Google

Выберите второй переключатель и перетащите индикатор выполнения до любого желаемого значения. Это установит количество запросов в секунду и количество секунд между запросами сканирования.

Изменение управления сканированием в Google Search Console

Изменение управления сканированием в Google Search Console

Вы можете обсудить со своей хостинговой компанией, какая скорость сканирования желательна. После того, как вы сохранили свои настройки, вы получите сообщение о том, что скорость сканирования была изменена.

Новые настройки скорости сканирования будут действовать в течение 90 дней и автоматически сбрасываются до первого варианта «Разрешить Google оптимизировать для моего сайта» по истечении срока действия.

А что насчет Bing?

Как и в случае с роботом Googlebot, вы также можете ограничить использование Bingbot с помощью инструментов Bing для веб-мастеров. После входа в свою учетную запись перейдите в раздел «Настроить мой сайт> Контроль сканирования». Выберите вариант «Пользовательский» для «Когда вы получаете наибольший объем трафика на этот сайт по местному времени дня?»

Управление сканированием в Инструментах для веб-мастеров Bing

Управление сканированием в Инструментах для веб-мастеров Bing

Отрегулируйте скорость сканирования, выбрав синие поля на графике.

Другие поисковые роботы

Помимо Google и Bing, есть много других ботов, которые могут сканировать ваш сайт. Вы можете заблокировать всех остальных ботов с помощью общей директивы .htaccess. Добавьте приведенный ниже код в свой файл .htaccess, чтобы заблокировать всех ботов, кроме Google, Bing, MSN, MSR, Яндекс и Twitter. Все остальные боты будут перенаправлены на IP-адрес localhost 127.0.0.1.

#Disable bad bots
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^$ [OR]
RewriteCond %{HTTP_USER_AGENT} (bot|crawl|robot)
RewriteCond %{HTTP_USER_AGENT} !(bing|Google|msn|MSR|Twitter|Yandex) [NC]
RewriteRule ^/?.*$ "http://127.0.0.1" [R,L]

Вы также можете отслеживать статистику трафика и блокировать спам-трафик по IP-адресам.

Заключение

Необходимо отслеживать и контролировать действия краулера на вашем сайте, чтобы загрузка ЦП вашего хостинг-сервера оставалась в пределах разрешенного лимита. Мы объяснили некоторые методы, и есть много других способов остановить плохих ботов. Также неплохо обсудить с вашим хостом и убедиться, что вы все делаете правильно и блокируете только плохих ботов.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *