Все, что вам нужно знать о файле Robots.txt

«Robots.txt» – это текстовый файл в корневом каталоге веб-сайта, который информирует поисковые роботы, какой контент нельзя сканировать на этом сайте. Протокол для информирования ботов называется «протокол robots.txt», или «протокол исключения роботов», или «стандарт исключения роботов». Название robots указывает на то, что оно предназначено для поисковых роботов, таких как роботы поисковых систем, а не для пользователей-людей. Хотя поисковые системы должны подчиняться запросу или нет, многие поисковые системы, такие как Google, Bing, Baidu и Yandex, отслеживают контент в файле robots.txt.

Как это устроено?

Давайте возьмем пример, когда робот Google (используемый поисковой системой Google) посещает страницу «http://example.com/visit-my-page.html». Перед тем, как войти на страницу, он ищет файл «/robots.txt» в корневом каталоге домена, который называется «http://example.com», и следует правилам в этом файле. Это означает, что робот Googlebot прочитает файл «http://example.com/robots.txt», прежде чем пытаться прочитать эту веб-страницу.

Важно разместить файл robots.txt в корневом каталоге сайта; сканеры не будут искать файл в каком-либо другом каталоге. Следовательно, размещение файла в другом месте не повлияет на поведение поискового робота.

Имя файла должно быть написано строчными буквами, например «robots.txt», без заглавных букв, например «Robots.txt».

На сайте нет файла Robots.txt

Что касается Google, то если нет необходимости ограничивать доступ к определенным страницам на сайте, то файл robots.txt не нужен. Google даже не нужен пустой файл, и робот Googlebot просканирует весь ваш контент. Это может быть неверно для других ботов, сканирующих сайт. Если в корневом каталоге сайта нет файла, другие боты могут также предположить, что весь контент можно сканировать, но журналы вашего сервера будут загромождены тысячами ошибок 404 – страница не найдена. Поскольку бот сначала будет искать файл, сервер должен ответить кодом состояния 404, чтобы сообщить боту, что файл недоступен.

Хотя большинство последних инструментов управления контентом динамически генерируют файл robots.txt, чтобы избежать этой проблемы, вы можете добавить пустой файл, чтобы избежать проблем с журналом сервера, даже если вам нечего ограничивать от поисковых систем.

Журналы сервера являются очень важным источником, чтобы узнать, какие роботы сканируют ваш сайт и блокируют их, если это влияет на производительность вашего сайта.

Файловая структура

Файл Robots.txt имеет простую структуру, содержащую два атрибута: User agent и параметр Allow или Disallow. «User-agent» в файле указывает имя робота, а «Disallow or Allow» сообщает роботу сканировать или нет указанный путь на сервере. Ниже приведены некоторые примеры использования для справки:

Разрешить всем поисковым роботам доступ ко всему контенту:

Разрешить всем поисковым роботам доступ ко всему контенту:

Ограничить доступ ко всему контенту:

Ограничение каталога:

Пользовательский агент: *

Запретить: / имя-каталога /

Ограничение одной страницы:

Пользовательский агент: *
Запретить: /directory-name/page-name.html

Некоторые сканеры поисковых систем, такие как Google, допускают использование атрибута «Разрешить», как показано ниже, для разрешения всего доступа к контенту:

Пользовательский агент: Googlebot
Позволять: /

Также возможно использование атрибутов «Запрещать» и «Разрешить» в одном файле. Вы можете предоставить доступ только к Google и заблокировать всех остальных поисковых роботов для сайта:

User-agent: * # все роботы

Disallow: / # запрещены для сканирования всех страниц.

User-agent: Googlebot # кроме Googlebot

Разрешить: / # может сканировать весь контент

Все пути в файле относительны, кроме Sitemap. Файл Robots.txt, если он добавлен с помощью директивы Sitemap, должен иметь абсолютный путь к Sitemap, чтобы информировать сканеры поисковых систем о местонахождении вашего XML Sitemap, как показано ниже:

Карта сайта: https://www.webnots.com/sitemap_index.xml

1. Используйте #, чтобы добавить комментарии к вашему файлу robots.txt.

2. Использование подстановочных знаков допускается для «User-agent:» и не является стандартом для «Disallow:». Следовательно, использование Disallow: * не может интерпретироваться одинаково всеми сканерами.

3. Не все поисковые системы поддерживают и соблюдают директивы в файле robots.txt.

Как создать и проверить файл Robots.txt?

Robots.txt – это простой текстовый файл, который можно создать с помощью Блокнота на ПК с Windows или с помощью TextEdit на компьютерах Mac с OS X. Текстовый файл можно сохранить в формате ASCII и загрузить в корневой каталог веб-сервера. Вы можете использовать простой инструмент генератора файлов robots.txt, чтобы создать собственный файл robots.txt для своего сайта.

Если хостинговая компания предоставляет адрес сайта в каталоге, например, «http://example.com/user/site/», то отдельные пользователи не могут создать отдельный файл «/robots.txt» для своего сайта. Валидаторы проверяют правильность файла robots.txt на возможное неправильное использование символа косой черты (/). Тестер Robots.txt – это бесплатный инструмент, доступный в Google Search Console, со следующими функциями:

  • Просмотреть файл robots.txt в реальном времени.
  • Обновите файл и возможность его загрузки. (вам нужно загрузить это на свой сервер).
  • Отправьте обновленный файл в Google.
  • Проверьте, что любой URL-адрес заблокирован или разрешен для робота Googlebot, Google-News и Google-Image.

Использование для безопасности

Файл robots.txt веб-сайта можно просмотреть в веб-браузере как «http://www.yoursitename.com/robots.txt», хотя этот файл не отображается для пользователей в меню навигации сайта и в XML-карте сайта. Это означает, что любой может просмотреть файл публично и попытаться открыть запрещенный контент.

Отображение текстового файла роботов в браузере

Из-за такой общедоступности мы не рекомендуем ограничивать отдельные страницы сайта с помощью файла robots.txt, вместо этого лучше ограничить каталог. Это затрудняет предположение, какими могут быть URL-адреса внутри каталога.

Более того, для ботов необязательно подчиняться файлу robots.txt, и существует множество спам-ботов, которые по-прежнему будут сканировать контент заблокированных сайтов. Если вы хотите заблокировать контент из поисковых систем, лучше всего ограничить доступ на сервере, добавив логин и необходимую авторизацию.

Мета-тег роботов и rel = “Nofollow”

Помимо файла robots.txt, вы можете ограничить контент с помощью метатегов robots. Веб-мастера обычно путают с файлом robots.txt, метатегами роботов и атрибутом ссылки rel = ”nofollow”. Вот краткое объяснение того, что произойдет, если вы заблокируете веб-страницу:

Автор Robots.txt

Сканеры поисковых систем не переходят на страницу и не останавливаются после прочтения файла robots.txt. Тем не менее в результатах поиска страница будет отображаться в виде ссылки без описания. Иногда вы будете видеть такие сообщения, как «Мы ​​хотели бы показать вам здесь описание, но сайт не позволяет нам» в Bing и «Описание для этого результата недоступно из-за файла robots.txt этого сайта» в Google.

Автор: Robots Meta Tag

Сканеры будут обращаться к странице и находить метатег роботов при сканировании. Когда сканер поисковой системы обнаруживает на странице атрибут «noindex», он не будет индексировать страницу и отображаться в результатах поиска. Точно так же, если сканер обнаружил атрибут «nofollow», он не будет переходить по ссылкам на этой странице.

Если страница заблокирована как robots.txt, так и метатегом robots, приоритет будет иметь файл robots.txt, поскольку он читается до того, как сканер запросит страницу с сервера.

Автор: Rel = “nofollow”

Он используется в теге привязки HTML , чтобы сообщить сканерам, чтобы они не переходили по ссылкам на странице для рассмотрения ранжирования в результатах поиска. Сканеры поисковых систем по-прежнему будут сканировать содержимое страницы, индексировать и отображать его в результатах поиска как обычно.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *