Исправление ошибки «индексировано, хотя и заблокировано Robots.txt» в Google Search Console –
Google будет отправлять электронное письмо владельцу веб-сайта всякий раз, когда возникают проблемы с индексацией страниц на сайтах, представленных в учетной записи Google Search Console. Проблемы, связанные с robots.txt, являются наиболее распространенными среди множества проблем с индексацией страниц. Проиндексировано, но заблокировано robots.txt — это одна из таких проблем, которую вы получите, когда возникнут проблемы с вашими записями robots.txt. Не беспокойтесь, если вы получили электронное письмо от Google по этой проблеме, и вот как проверить и исправить проблему на вашем сайте.
Проиндексировано, но заблокировано robots.txt
Уведомление от Google по этому вопросу будет выглядеть следующим образом. Как видите, он относится к категории «Топ некритических проблем», что означает, что страница с проблемой доступна в поиске Google. Google говорит, что уведомление об индексации предназначено только для улучшения. Однако это сбивает с толку, так как блокировка с помощью robots.txt мгновенно удалит страницу из результатов поиска.
Проиндексировано, но заблокировано роботами Txt в GSC
О блокировке robots.txt
Прежде чем объяснять, как решить проблему, важно понять, что такое файл robots.txt. Это простой текстовый файл в корневом каталоге вашего сервера, который инструктирует роботов поисковых систем о том, как сканировать ваш сайт. Например, у вас есть такая страница, как которые вы не хотите, чтобы Google отображал в результатах поиска. В этом случае ваш файл robots.txt должен выглядеть так, как показано ниже.
Пользовательский агент: * Запретить:
Проблема возникает из-за того, что указанные страницы связаны либо с других сайтов (внешние ссылки), либо с других страниц вашего сайта (внутренние ссылки). Благодаря этой ссылке Google может сканировать страницы, хотя они заблокированы в вашем файле robots.txt.
Помимо использования файла robots.txt на уровне сервера, вы также можете заблокировать отдельные страницы, используя метатег robots в разделе заголовка, как показано ниже.
Однако в этом случае вы увидите ошибку «Исключено по тегу noindex» в Google Search Console.
Проверка URL-адресов страниц, заблокированных с помощью robots.txt
Нажмите кнопку «Исправить проблемы с индексацией страниц» в полученном вами электронном письме с уведомлением, чтобы просмотреть точную информацию о страницах, затронутых этой проблемой. Либо перейдите в раздел «Страницы» под заголовком «Индексирование» в своей учетной записи Google Search Console, чтобы отфильтровать проблему и проверить затронутые страницы.
Просмотр затронутых страниц по проиндексированным, хотя и заблокированным роботами Txt Issue
Теперь, когда вы знаете URL-адреса уязвимых страниц, пришло время проверить файл robots.txt и устранить проблему, если они были заблокированы по ошибке. Помните, вам не нужно предпринимать никаких действий в случае, если вы намеренно заблокировали страницу.
1. Используйте инструмент Google robots.txt Tester для проверки файла robots.txt.
Google предлагает скрытый инструмент для тестирования robots.txt в учетной записи Google Search Console (например, инструмент для отклонения ссылок). Убедитесь, что вы вошли в свою учетную запись Search Console и перейти к инструменту для тестирования robots.txt.
Инструмент тестирования Google Robots.txt
Выберите свой домен из раскрывающегося списка, и инструмент отобразит содержимое вашего файла robots.txt в поле. Если вы видите, что URL-адрес страницы с проблемой индексации указан в вашем файле robots.txt, вам следует удалить его, чтобы устранить проблему.
Протестируйте файл robots.txt в Google
Помните, что инструмент не показывает последнюю версию, и вы можете увидеть дату, когда файл robots.txt был проиндексирован в Google. Если вы не видите URL-адрес страницы в файле robots.txt, это может быть связано с тем, что отображаемый файл не является последним.
2. Проверьте URL отдельной страницы на предмет блокировки
Будет сложно понять содержимое файла robots.txt, если используемые правила являются общими. В таком случае вы можете ввести URL-адрес заблокированной страницы в поле, показанное в нижней части инструмента, и нажать кнопку «Проверить». Вы увидите, что кнопка изменится на «Заблокировано», а правило будет выделено в содержимом файла, если оно актуально.
Текстовый отдельный URL-адрес заблокирован Google
3. Проверьте файл Live Robots.txt.
Если дата файла в инструменте устарела, нажмите на ссылку «See live robots.txt». Это откроет ваш живой файл robots.txt в новой вкладке браузера. Кроме того, вы можете открыть URL-адрес вашсайт.com/robots.txt в браузере, чтобы увидеть содержимое последнего файла robots.txt.
Проверьте файл Live Robots.txt в браузере
4. Проверьте с помощью инструмента проверки URL
Когда вы проверяете проблемы с индексацией страницы, наведите указатель мыши на URL-адрес и щелкните значок поисковой линзы с надписью «Проверить URL-адрес». Теперь Google проверит содержимое страницы и покажет, есть ли она в поиске Google или нет.
Проверить заблокированный URL в Google Search Console
Иногда в результате может отображаться ошибка, отличная от исходной ошибки, например «Исключено тегом ‘noindex’». В результате вы должны проверить, проиндексирована ли затронутая страница в поиске Google или нет.
Результат проверки URL-адреса
Исправление и повторная отправка URL-адресов
Если вы не видите, что страница отображается в реальном файле robots.txt, обязательно очистите кеширование вашего сайта. Например, если вы используете CDN Cloudflare, перейдите в свою учетную запись и очистите кеширование URL-адреса файла robots.txt. Это поможет удалить кешированный файл robots.txt, и вы сможете снова протестировать живой файл, чтобы увидеть, есть ли там URL-адреса.
Если файл robots.txt содержит заблокированные URL-адреса страниц, выполните следующие действия:
- Перейдите в свою учетную запись хостинга и откройте приложение File Manager.
- Перейдите в корневую папку вашего сайта и найдите файл robots.txt.
- Отредактируйте файл и удалите URL-адреса страниц.
- Сохраните и загрузите файл обратно на сервер.
- Очистите кеш сервера или CDN, проверьте файл robots.txt в браузере и убедитесь, что URL-адреса удалены.
После этого войдите в свою учетную запись Google Search Console и перейдите к проблеме «Проиндексировано, но заблокировано robots.txt» в разделе «Страницы». Нажмите кнопку «Подтвердить исправление» и подтвердите действие. Google проверит страницы и уведомит вас по электронной почте, когда проблема будет устранена. Это может занять от нескольких дней до недели, в зависимости от количества затронутых URL-адресов.
Проверить исправление в Google Search Console
Если у вас есть одна или две затронутые страницы и вы хотите быстро их проиндексировать, вставьте URL-адрес в поле поиска, отображаемое вверху. Нажмите клавишу ввода, чтобы Google проверил ваш URL и показал результаты. Нажмите ссылку «Запросить переиндексацию», чтобы повторно отправить страницу на индексацию.
Рассмотрение для WordPress
Если вы не изменяли файл robots.txt, вам будет интересно, как файл обновился с заблокированными URL-адресами страниц. Системы управления контентом, такие как WordPress, имеют плагины, предлагающие возможность редактировать файл robots.txt из панели администратора. Возможно, вы или кто-то из администраторов по ошибке добавили адрес страницы для блокировки. В этом случае вам следует удалить заблокированные URL-адреса в файле robots.txt из панели администратора, а не редактировать его в файловом менеджере. В противном случае записи будут созданы плагином заново после того, как вы удалили его из файлового менеджера.