4 способа заблокировать доступ ботов на основе искусственного интеллекта к вашему сайту –
Этот генеративный ИИ стал кошмаром для издателей из-за несанкционированного воровства и повторного использования контента. Хуже всего то, что даже Google и Microsoft возглавляют кражу контента под названием AI Overview и Copilot. К сожалению, большинство этих чат-ботов ИИ, таких как ChatGPT, не предоставляют ссылок на исходный источник контента и используют данные для обучения своих больших языковых моделей (LLM). Теперь единственным решением для издателей является блокировка этих чат-ботов ИИ от сканирования сервера, чтобы они были заблокированы и не могли индексировать ваш контент.
Проблемы с блокировкой ИИ-ботов
Проблема с Google Gemini и Microsoft Copilot заключается в том, что у них нет отдельных ботов для сканирования. Для этой цели используются те же поисковые роботы Google и Bing. Это сделано намеренно, чтобы издатели не могли блокировать исключительно своих ботов ИИ (иначе они также заблокируют своих поисковых роботов). Таким образом, блокировка возможна только в том случае, если у бота ИИ другое имя пользовательского агента, например GPTBot для ChatGPT.
1. Использование файла Robots.txt
Первый вариант — использовать стандартное исключение файла robots.txt, чтобы заблокировать доступ ботов на основе искусственного интеллекта к вашему сайту.
- Войдите в свою учетную запись хостинга и перейдите в корневой каталог вашего сайта (обычно /public_html/).
- Найдите файл robots.txt и отредактируйте его.
- Добавьте следующие строки и сохраните файл.
# Блокировать ботов на основе искусственного интеллекта Агент пользователя: anthropic-ai Агент пользователя: AwarioRssBot Агент пользователя: AwarioSmartBot Агент пользователя: Bytespider Агент пользователя: CCBot Агент пользователя: ChatGPT-User Агент пользователя: ClaudeBot Агент пользователя: Claude-Web Агент пользователя: cohere-ai Агент пользователя: DataForSeoBot Агент пользователя: Diffbot Агент пользователя: FacebookBot Агент пользователя: Google-Extended Агент пользователя: GPTBot Агент пользователя: magpie-crawler Агент пользователя: NewsNow Агент пользователя: news-please Агент пользователя: omgili Агент пользователя: omgilibot Агент пользователя: PerplexityBot Агент пользователя: Scrapy Агент пользователя: TurnitinBot Запретить: /
- Если вы не нашли файл robots.txt на своем сервере, просто создайте простой текстовый файл с именем robots.txt. Добавьте указанные выше записи в файл и загрузите файл в корневой каталог вашего сайта.
Файл должен быть доступен публично в веб-браузере с помощью URL. Перечисленные пользовательские агенты — некоторые из популярных ботов для скрапинга и ИИ. Вы можете добавить столько ботов в список перед строкой «Disallow: /» или удалить любой элемент, если вы не хотите блокировать. Ниже показано, как выглядит популярный файл nytimes robots.txt (вы также можете добавить каждого пользовательского агента с правилом disallow, как показано).
Текстовый файл NYTimes Robots
2. Блокировка ботов с помощью правила htaccess
Следующий вариант — использовать файл htaccess для блокировки ботов AI. Это файл конфигурации для сервера Apache, и вы можете использовать его для настройки правил управления поведением сервера.
- Войдите в свою учетную запись хостинга и найдите файл .htaccess в корневом каталоге.
- Отредактируйте файл и добавьте в конец следующие строки.
- Сохраните содержимое и повторно загрузите файл обратно на сервер.
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (anthropic-ai|AwarioSmartBot|Bytespider|CCBot|ChatGPT|ClaudeBot|GPTBot|Omgilibot|Omgili|FacebookBot|Diffbot|PerplexityBot|cohere-ai) (NC) RewriteRule ^ – (F)
При необходимости вы можете добавить в список дополнительных ИИ-ботов для их блокировки.
Примечание: Для сайтов WordPress существует множество плагинов, таких как Yoast SEO, позволяющих редактировать файлы robots.txt и .htaccess из панели администратора без входа в учетную запись хостинга.
3. Блокируйте ботов с искусственным интеллектом, используя защиту от ботов Cloudflare
К сожалению, многие компании, занимающиеся ИИ, не следуют исключению robots.txt и продолжают скрейпить ваш контент без разрешения. Хотя правила .htaccess будут работать, невозможно вручную добавлять пользовательские агенты для каждого нового всплывающего бота ИИ. Альтернативным решением является настройка правила брандмауэра веб-приложений (WAF) для блокировки известных ботов ИИ. Однако это имеет ту же проблему, что вы не можете продолжать добавлять новых ботов в правило. Хорошо то, что Cloudflare CDN имеет автоматическое решение для блокировки ботов AI без ручного вмешательства. Вы можете использовать эту опцию, если ваш сайт уже использует бесплатный или премиум-план Cloudflare.
- Войдите в свою учетную запись Cloudflare.
- Перейдите в раздел «Веб-сайты» и выберите сайт.
- Перейдите в раздел «Безопасность > Боты» на левой боковой панели.
- Включите опцию «Блокировать ИИ-скрейперы и сканеры» на правой панели.
Блокировка ботов на основе искусственного интеллекта в Cloudflare
Это применит пользовательское правило и автоматически заблокирует всех ботов AI, кроме проверенных ботов Cloudflare. Вы можете проверить отчеты в разделе «Безопасность > События» о заблокированных пользовательских агентах и разблокировать их при необходимости.
4. Использование правила Cloudflare WAF
Как уже упоминалось, проблема с правилом WAF заключается в том, что вам нужно вручную добавлять юзерагенты ботов, чтобы заблокировать их. Опять же, Cloudflare помогает преодолеть эту проблему, ведение проверенного списка ботов который вы можете использовать для создания пользовательского правила WAF. Хотя эта опция аналогична включению защиты от ботов, как описано выше, у нее есть преимущество в виде объединения нескольких фильтров в одном правиле. Например, вы можете блокировать ботов AI, а также блокировать трафик с определенного HTTP-реферера в одном правиле. Cloudflare также позволяет создавать до 5 правил для пользователей бесплатного плана, которые вы можете использовать для этой цели.
- Войдите в свою учетную запись Cloudflare и перейдите в раздел «Веб-сайты».
- Выберите сайт, для которого вы хотите создать пользовательское правило WAF.
- Перейдите в раздел «Безопасность > WAF» и нажмите кнопку «Создать правило» на вкладке «Пользовательские правила».
Создать пользовательское правило в Cloudflare
- На следующей странице укажите следующие данные.
- Имя правила — введите имя, которое вы сможете запомнить, например «Блок обходчика ИИ»).
- Поле – Выберите из списка «Проверенная категория ботов».
- Операторы — выберите «равно» из раскрывающегося списка.
- Значение – выберите опцию «ИИ-сканер».
- Выберите действие — выберите «Заблокировать», чтобы полностью заблокировать ботов.
- Выберите порядок – выберите «Первый» или «Последний».
Развертывание правила блокировки AI Crawler в Cloudflare
- Нажмите кнопку «Развернуть», чтобы мгновенно реализовать правило и заблокировать всех непроверенных ботов Cloudflare.
- Созданное правило будет отображаться на вкладке «Пользовательские правила» (прямо под кнопкой «Создать правило»), которое вы можете редактировать или приостановить в любое время.
Заключительные слова
Генеративный ИИ не может работать в долгосрочной перспективе с простой моделью кражи контента. Такие компании, как Forbes, наслаждались первоначальной волной ИИ, производя большое количество нерелевантного контента, а теперь также начали жалуюсь на кражу контента Perplexity AI. Лучшим вариантом является объединение правила Cloudflare WAF или защиты от ботов с правилом .htaccess, чтобы убедиться, что все боты AI включены в блокировку. Если вы не используете Cloudflare, свяжитесь с вашей CDN или хостинговой компанией или подождите некоторое время, пока они не предложат решение. Хотя Cloudflare является одним из решений этой проблемы, вы можете ожидать, что все хостинговые компании создадут свой собственный брандмауэр для блокировки ботов AI в ближайшем будущем.
(тегиToTranslate)AI