Защита, которая бьет по своим

Вы включаете WAF и DDoS-фильтр. Сайт перестает падать под нагрузкой. Вы герой. А через неделю прилетает письмо от SEO-специалиста: "Индексация упала на 70%". Или ваш AI-сервис перестает получать данные с внешних ресурсов, потому что их нейрокраулер попал в черный список. Знакомая история? В 2026 году это не исключение, а правило.

Стандартные правила WAF и DDoS-защиты написаны для мира, где бот — это либо Google, либо хакер. Но сейчас между ними десятки легитимных AI-агентов, исследовательских краулеров и сервисных ботов, которые ведут себя... странно.

Почему в 2026 году это критично

Раньше достаточно было прописать User-Agent: Googlebot в белый список. Теперь нейрокраулеры:

Меняют IP-адреса так же часто, как вы меняете носки (спасибо облачным провайдерам).
Делают запросы нерегулярно, взрывными пакетами — очень похоже на DDoS L7.
Используют заголовки, которые триггерят правила против инъекций (потому что парсят все подряд).
Могут быть частью вашего же сервиса. Заблокируете их — сломаете собственную логику.

При этом реальные атаки стали умнее. Хакеры маскируются под легитимных ботов, используя знания из статей вроде "Агентный ИИ в кибератаках 2026". Получается игра в кошки-мышки, где нужно отличить полезного робота от злоумышленника.

От слов к делу: пошаговая настройка

Забудьте про "включить и забыть". Настройка защиты теперь — это постоянный процесс тонкой балансировки.

1 Анализ: кто уже ходит на ваш сайт

Первое и самое важное. Не гадайте, посмотрите логи. Например, в Nginx:

cat /var/log/nginx/access.log | awk '{print $1, $12}' | sort | uniq -c | sort -nr | head -20

Вы увидите топ IP-адресов и User-Agent. Ищите паттерны:

Официальные краулеры: Googlebot, Bingbot, Yandex, Applebot.
AI-агенты: OpenAI-Collector, Claude-Web-Reader, Perplexity-Crawler (актуальные на 2026 год).
Сервисные боты: мониторинговые системы (UptimeRobot, StatusCake), CDN (Cloudflare, Fastly).

💡

Не доверяйте User-Agent слепо. IP-адреса официальных краулеров публикуются Google, Яндексом и другими. Всегда проверяйте reverse DNS. Например, для Googlebot: host 66.249.66.1 должно показывать *.googlebot.com.

2 Создаем интеллектуальный белый список

Белый список на основе IP — это прошлый век. Используйте комбинацию сигнатур:

Подтвержденные IP-адреса (через reverse DNS).
Специфичные заголовки (например, X-Crawler-Token, если вы его выдаете своим сервисам).
Поведенческие паттерны: легитимный бот обычно ходит по robots.txt, не пытается подбирать пароли и не флудит запросами к API.

Пример правила для AWS WAF (актуально на 2026):

{
  "Name": "Allow-Googlebot",
  "Priority": 1,
  "Action": "Allow",
  "Statement": {
    "AndStatement": {
      "Statements": [
        {
          "ByteMatchStatement": {
            "FieldToMatch": {
              "SingleHeader": {
                "Name": "user-agent"
              }
            },
            "SearchString": "Googlebot",
            "TextTransformations": [{"Type": "LOWERCASE", "Priority": 1}]
          }
        },
        {
          "IPSetReferenceStatement": {
            "ARN": "arn:aws:wafv2:us-east-1:123456789012:ipset/googlebot-ips"
          }
        }
      ]
    }
  }
}

Обратите внимание: правило разрешает трафик только если совпадает И User-Agent, И IP из заранее подготовленного списка. Это защищает от подделки.

3 Настройка WAF: что выключать для легитимных ботов

Даже попав в белый список, бот может быть заблокирован правилами WAF. Вот что чаще всего мешает:

Правило WAF	Почему блокирует ботов	Решение
SQL Injection	Краулеры могут парсить URL с параметрами, похожими на инъекции (например, `id=1'` в примерах кода).	Исключить для ботов сканирование определенных путей (например, `/api/docs`).
Rate Limiting	Нейрокраулеры работают быстро, но короткими сессиями.	Увеличить лимит для подтвержденных IP ботов или использовать отдельный счетчик.
Bad Bot Protection	Общие сигнатуры плохих ботов могут попадать и на легитимные.	Точечно отключать для белого списка, а не глобально.

Если ваш сервис использует AI-агентов для сбора данных, помните об угрозах, описанных в статье про prompt injection. Ваши собственные агенты могут быть атакованы, поэтому их трафик тоже нужно защищать, но не блокировать.

4 DDoS-защита на L7: учимся отличать шторм от трудолюбивого краулера

Современные DDoS-защиты (например, Cloudflare DDoS Protection или AWS Shield Advanced) используют машинное обучение. Но их нужно натренировать.

Создайте кастомный сигнал "Легитимный бот".
Настройте пороги срабатывания: если с IP идет трафик, похожий на бота, но в пределах разумного (скажем, 100 запросов в минуту), не блокировать, а только логировать.
Используйте challenge (например, JavaScript или CAPTCHA) только для неподтвержденных сессий. Легитимные боты часто не могут их пройти, поэтому для белого списка challenge нужно отключать.

Кстати, если вы думаете о запуске своей LLM в интернет, сначала прочтите этот жесткий, но честный материал. Там есть важные нюансы по безопасности, которые влияют и на настройку WAF.

Ошибки, которые ломают все

Как НЕ надо делать:

Добавлять в белый список целые диапазоны облачных провайдеров (AWS, GCP, Azure). Вы откроете дверь для 90% атакующих.
Полностью отключать rate limiting для ботов. Даже легитимный бот может сломаться и устроить флуд.
Доверять только robots.txt. В 2026 году это не защита, а просто рекомендация. Нейрокраулеры могут ее игнорировать. Подробнее — в статье "Robots.txt не работает".
Настраивать правила один раз и забыть. Список IP краулеров меняется. Новые боты появляются каждый месяц.

Чек-лист на каждый день

Мониторьте логи блокировок WAF. Ищите false positives.
Раз в неделю обновляйте списки IP официальных краулеров. У Google и других есть публичные API для этого.
Для своих сервисных ботов используйте отдельные заголовки или токены. Например, X-Internal-Crawler: SECRET_TOKEN. И настройте правило WAF, которое разрешает трафик с этим заголовком только с ваших IP.
Тестируйте. Запускайте краулеры из белого списка и смотрите, проходят ли они. Инструменты вроде Site24x7 Robot Simulator могут помочь.

Если ничего не помогает

Бывает, что нейрокраулер ведет себя неотличимо от DDoS-атаки. Тогда сегментируйте трафик:

Выделите отдельный поддомен (например, crawler.example.com) с упрощенными правилами защиты.
Направляйте туда трафик с известными User-Agent нейрокраулеров через реврайты или DNS.
На основном домене оставляйте строгую защиту.

Это дает контроль. И помните: если вы даете AI-агенту доступ к shell, безопасность должна быть на максимуме. Сравнение песочниц поможет выбрать правильный инструмент.

Главный принцип на 2026 год: защита должна быть адаптивной. Не блокируйте по одному признаку. Используйте цепочки правил, машинное обучение и, самое главное, человеческий анализ. Легитимный бот — это не враг. Это просто еще один пользователь, который очень хочет ваши данные.

Как настроить DDoS-защиту и WAF, чтобы не блокировать легитимных ботов и нейрокраулеров