SEO для поисковых роботов Robots.txt и тега Nofollow

Crawler или Spider – это скрипт, используемый для сбора информации обо всех веб-страницах, доступных в Интернете. Основная цель поисковых роботов – собрать информацию на странице и проиндексировать ее в базе данных для последующего поиска. Но есть много типов поисковых роботов, используемых для разных целей, как хороших, так и плохих. Провайдеры поисковых систем называют их простыми для понимания именами, такими как Googlebot или Bingbot. Например, у Google много поисковых роботов, как показано ниже:

  • Googlebot – индексирует контент для отображения в результатах веб-поиска.
  • Googlebot-Image – индексирует изображения для отображения в результатах поиска изображений.
  • Googlebot-News – собирает ленту новостей для отображения в результатах поиска новостей.
  • Googlebot-Video – сканирует видео в Интернете и отображается в результатах поиска видео.
  • Googlebot-Mobile – сканер для мобильного поиска
  • Mediapartners-Google – поисковый робот для Google AdSense

Эти сканеры просматривают Интернет и индексируют новый контент в базе данных поисковой системы. Когда пользователь выполняет поиск по запросу, контент из базы данных извлекается на основе сложных алгоритмов.

С другой стороны, многие боты используются для сбора информации в целях взлома.

Как узнать краулера?

Поисковые системы предоставляют инструменты для веб-мастеров или учетную запись Search Console для просмотра и управления действиями роботов на вашем сайте, если они влияют на производительность. Кроме того, все записи поискового робота могут быть получены из журнала сервера сайта для устранения неполадок и анализа. Например, если вы видите, что ваш сайт сканирует плохой робот, вы можете заблокировать именно этого робота, чтобы обезопасить его содержимое.

В случае, если поисковый робот влияет на действия пользователей на сайте, вы можете контролировать скорость и время сканирования из учетной записи Инструментов для веб-мастеров таким образом, чтобы сканирование могло выполняться в нерабочее время, не затрагивая пользователей.

Владельцы сайтов решают, следует ли поисковому роботу следовать за веб-страницей или нет, добавляя соответствующие атрибуты в раздел заголовка с помощью метатегов robots или через файл robots.txt в корневом каталоге. Атрибут User-agent в файле robots.txt используется для указания имени бота, чтобы разрешить или запретить доступ к определенной странице, каталогу или всему сайту. Например, если вы не хотите, чтобы сканер Google сканировал ваш сайт, воспользуйтесь приведенным ниже кодом, чтобы запретить доступ:

Пользовательский агент: Googlebot

Запретить: /

Хотя можно указать сканерам следовать метатегам robots.txt или robots, сами сканеры должны соблюдать эти правила. Обычно поисковые системы следят за этим, а плохие роботы – нет.

Информируйте сканеров с помощью файла robots.txt и тега Nofollow

Crawler или Spider – это часть скрипта, используемого для сбора информации обо всех веб-страницах, доступных в сети. Провайдеры поисковых систем называют их простыми для понимания именами, такими как Googlebot или Bingbot. Важная часть состоит в том, что вы, как владелец своего сайта, должны сообщить этим поисковым роботам, какие URL-ссылки нужно проиндексировать, и какие ссылки с вашего сайта должны рассматриваться поисковой системой.

Что такое Robots.txt?

«Robots.txt» – это текстовый файл в корневом каталоге каждого веб-сайта, который сообщает поисковым системам, разрешено ли сканирование веб-страницы или нет. Это необязательный файл, который используется только в том случае, если вам нужно проинструктировать сканеры, и большинство систем управления контентом автоматически генерируют файл robots.txt. Вы можете просто ввести «www.yoursitename.com/robots.txt» в адресную строку браузера, чтобы просмотреть файл robots.txt своего сайта.

Отображение текстового файла роботов в браузере

Некоторые страницы вашего сайта могут содержать конфиденциальную информацию, и если вы не запретите поисковым системам прекратить сканирование этих страниц с помощью файла robots.txt, то все эти конфиденциальные данные будут показаны в результатах поиска общественности. Помимо сокрытия страниц от поисковых систем, файл robots.txt также используется для того, что именно конкретный поисковый бот должен делать на сайте.

Например, вы можете запретить роботу Googlebot доступ только к определенному каталогу на вашем сайте и остановить / предоставить полный доступ к Bingbot.

1. Google Search Console предлагает генератор файлов robots.txt, который поможет вам создать этот файл, который вы можете загрузить на свой сервер.

2. Рекомендуется иметь пустой файл robots.txt, даже если вы не хотите инструктировать сканеры.

Достаточно ли использовать Robots.txt для сокрытия конфиденциальной информации?

Это определенно не очень безопасный способ скрыть конфиденциальный контент от поисковых систем, просто используя robots.txt, по следующим причинам:

  • Поскольку любой может увидеть файл robots.txt в браузере, какой-нибудь любопытный пользователь может попытаться проанализировать каталоги и оценить URL-адреса, которые вы скрываете.
  • Некоторые боты поисковых систем не следуют исключению robots.txt и продолжают индексировать ваши конфиденциальные страницы.
  • Поисковые системы по-прежнему будут показывать заблокированный URL в результатах поиска.

Узнайте больше о файле robots.txt.

Использование .htaccess

Гипертекстовый доступ или .htaccess – это наиболее поддерживаемый файл конфигурации, используемый для управления определенным каталогом веб-сервера. Это используется для управления поведением отдельного сайта на сервере, хотя сервер имеет свою собственную глобальную конфигурацию. Это файл, который обычно используется для управления авторизациями, необходимыми для доступа к какой-либо конкретной части сайта.

Например, вы можете заблокировать определенный IP-адрес или домен от доступа к вашему сайту. Также вы можете установить правила перенаправления, чтобы информировать поисковые системы при доступе к определенной странице.

Обычно более защищенные вещи напрямую контролируются на уровне конфигурации сервера с помощью файла http.conf.

Что такое rel = ”nofollow” для ссылок

Google представил механизм PageRank, оценивающий страницу на основе внешних ссылок. Позже за этим последовало большинство других поисковых систем и изменило всю игру поисковой оптимизации. Большинство веб-мастеров и SEO-компаний начали создавать неестественные ссылки только для повышения рейтинга сайта в результатах поиска. Чтобы гарантировать качество внешних ссылок, Google снова ввел атрибут HTML-ссылки rel = “nofollow”, чтобы сообщить сканерам поисковых систем, следует ли учитывать ссылку при оценке поискового рейтинга.

Ниже приведен синтаксис использования атрибута «nofollow»:

Добавление ссылки без перехода

Добавление ссылки без перехода

Где я могу использовать Nofollow?

Rel = ”nofollow” – это атрибут ссылки HTML, используемый в тегах привязки, чтобы сообщить сканерам поисковой системы, чтобы они не учитывали ссылку при оценке поискового рейтинга. Этот метод был первоначально найден Google, а затем принят в качестве стандарта, за которым последовали другие поисковые системы, такие как Bing.

Алгоритм поиска Google в значительной степени зависит от веса внешних ссылок страницы, что приводит к тому, что веб-мастера рассылают спам на другие сайты своими ссылками, чтобы повысить рейтинг своего сайта в поиске. Одной из основных целей для спаммеров являются комментарии в блогах, где легко оставлять комментарии со ссылкой, поскольку большинство владельцев сайтов автоматически одобряют комментарии в прежние дни. Чтобы избежать рассылки спама в комментариях, Google представил механизм добавления тега «rel =» nofollow »для каждой отдельной гиперссылки, чтобы избежать учета этой ссылки при расчете рейтинга PageRank для результатов поиска.

Синтаксис

Атрибут Nofollow используется в теге привязки HTML, как показано ниже:

<a href= "http://example.com" rel="nofollow"> 
This is a nofollow link, don’t spam 
</a>

Атрибут Nofollow используется для информирования поисковых систем о том, что по всем ссылкам на странице нельзя переходить, тогда как rel = ”nofollow” используется для определенных ссылок, что обеспечивает больший контроль для веб-мастеров.

Nofollow можно использовать во многих случаях, вот некоторые из важных случаев:

  • Это очень полезно, чтобы избежать ссылок на спамерские сайты, вводимых в разделе комментариев вашего блога, поскольку раздел комментариев блога очень уязвим для спама в комментариях, подобного показанному ниже.
Пример рассылки спама в комментариях

Пример рассылки спама в комментариях

  • Использование атрибута No-follow в атрибуте rel для ссылок в комментариях подтверждает, что вы не передаете репутацию своей страницы сайту, рассылающему спам.
  • Nofollow также будет полезен на форумах, в гостевых книгах и на форумах. Большинство поставщиков блогов и форумов по умолчанию добавляют nofollow к комментариям пользователей, чтобы не добавлять его вручную для каждого комментария отдельно.
  • Вы также можете использовать модерацию комментариев, например ввести код CAPTCHA и использовать логин в социальной сети для комментирования.
  • Nofollow также может быть полезен, когда вы ссылаетесь на ссылку на своем сайте, но не заинтересованы в передаче ей своей репутации исходящей ссылки.
  • Если вы хотите использовать nofollow для всех ссылок на любой из страниц вашего сайта, используйте «nofollow» в метатеге robots, который помещается внутри тега HTML-кода этой страницы, как показано ниже:
Nofollow Все ссылки на странице

Nofollow Все ссылки на странице

Ограничения

  • Все поисковые системы не интерпретируют этот атрибут одинаково.
  • Сканеры должны подчиняться этому атрибуту или нет.
  • По ссылкам Nofollow по-прежнему будут переходить, если поисковые системы нашли их на другом сайте или на другой странице, ведущей к странице nofollow.

Мета-теги роботов

Мета-теги роботов – это HTML-теги, которые используются в разделе веб-страницы для информирования сканеров поисковых систем о том, следует ли индексировать страницу и переходить по ссылкам на странице. Название robots указывает на то, что эти теги используются для управления роботами или сканерами, а не для пользователей-людей.

Мета-теги роботов имеют следующие два атрибута:

  • «Имя», которое всегда следует упоминать как «роботы» и
  • «Контент», который должен иметь один из следующих четырех параметров в зависимости от необходимости:
    • Индекс – разрешено индексировать
    • Noindex – индексирование запрещено
    • Follow – разрешено переходить по ссылкам на этой странице
    • Nofollow – запрещено переходить по ссылкам на этой странице

Синтаксис

Мета-теги роботов используются следующим образом:

<HTML>
<HEAD>
<TITLE> Page Title </TITLE>
<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</HEAD>
Если теги роботов не указаны, по умолчанию будут учитываться значения «INDEX, FOLLOW».

Сканеры имеют приоритет над файлом robots.txt, когда метатеги роботов используются в сочетании с файлом robots.txt. Таким образом, разрешение каталога в файле robots.txt и использование noindex в метатеге для ограничения страницы в том же каталоге не повлияет на поисковые роботы.

  • Хотя все боты поисковых систем следуют условиям, определенным в метатегах роботов, поисковые роботы сами решают, подчиняться им или нет.
  • Обычно вредоносные программы, сканирующие Интернет, не следуют этим тегам, поэтому метатеги роботов не являются способом скрыть конфиденциальную информацию от поисковых систем, а используют пароли на стороне сервера для ограничения доступа.
  • Атрибут Nofollow не имеет реального значения, если на странице много внутренних или внешних ссылок. Поисковые системы найдут ссылку на страницу с других сайтов или других страниц и по-прежнему будут следить за содержанием на странице nofollow.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *