Настройка DDoS и WAF для легитимных ботов и нейрокраулеров 2026 | AiManual
AiManual Logo Ai / Manual.
12 Фев 2026 Гайд

Как настроить DDoS-защиту и WAF, чтобы не блокировать легитимных ботов и нейрокраулеров

Практическое руководство по настройке DDoS-защиты и WAF в 2026 году без блокировки поисковых роботов и AI-краулеров. Шаги, правила, ошибки.

Защита, которая бьет по своим

Вы включаете WAF и DDoS-фильтр. Сайт перестает падать под нагрузкой. Вы герой. А через неделю прилетает письмо от SEO-специалиста: "Индексация упала на 70%". Или ваш AI-сервис перестает получать данные с внешних ресурсов, потому что их нейрокраулер попал в черный список. Знакомая история? В 2026 году это не исключение, а правило.

Стандартные правила WAF и DDoS-защиты написаны для мира, где бот — это либо Google, либо хакер. Но сейчас между ними десятки легитимных AI-агентов, исследовательских краулеров и сервисных ботов, которые ведут себя... странно.

Почему в 2026 году это критично

Раньше достаточно было прописать User-Agent: Googlebot в белый список. Теперь нейрокраулеры:

  • Меняют IP-адреса так же часто, как вы меняете носки (спасибо облачным провайдерам).
  • Делают запросы нерегулярно, взрывными пакетами — очень похоже на DDoS L7.
  • Используют заголовки, которые триггерят правила против инъекций (потому что парсят все подряд).
  • Могут быть частью вашего же сервиса. Заблокируете их — сломаете собственную логику.

При этом реальные атаки стали умнее. Хакеры маскируются под легитимных ботов, используя знания из статей вроде "Агентный ИИ в кибератаках 2026". Получается игра в кошки-мышки, где нужно отличить полезного робота от злоумышленника.

От слов к делу: пошаговая настройка

Забудьте про "включить и забыть". Настройка защиты теперь — это постоянный процесс тонкой балансировки.

1 Анализ: кто уже ходит на ваш сайт

Первое и самое важное. Не гадайте, посмотрите логи. Например, в Nginx:

cat /var/log/nginx/access.log | awk '{print $1, $12}' | sort | uniq -c | sort -nr | head -20

Вы увидите топ IP-адресов и User-Agent. Ищите паттерны:

  • Официальные краулеры: Googlebot, Bingbot, Yandex, Applebot.
  • AI-агенты: OpenAI-Collector, Claude-Web-Reader, Perplexity-Crawler (актуальные на 2026 год).
  • Сервисные боты: мониторинговые системы (UptimeRobot, StatusCake), CDN (Cloudflare, Fastly).
💡
Не доверяйте User-Agent слепо. IP-адреса официальных краулеров публикуются Google, Яндексом и другими. Всегда проверяйте reverse DNS. Например, для Googlebot: host 66.249.66.1 должно показывать *.googlebot.com.

2 Создаем интеллектуальный белый список

Белый список на основе IP — это прошлый век. Используйте комбинацию сигнатур:

  1. Подтвержденные IP-адреса (через reverse DNS).
  2. Специфичные заголовки (например, X-Crawler-Token, если вы его выдаете своим сервисам).
  3. Поведенческие паттерны: легитимный бот обычно ходит по robots.txt, не пытается подбирать пароли и не флудит запросами к API.

Пример правила для AWS WAF (актуально на 2026):

{
  "Name": "Allow-Googlebot",
  "Priority": 1,
  "Action": "Allow",
  "Statement": {
    "AndStatement": {
      "Statements": [
        {
          "ByteMatchStatement": {
            "FieldToMatch": {
              "SingleHeader": {
                "Name": "user-agent"
              }
            },
            "SearchString": "Googlebot",
            "TextTransformations": [{"Type": "LOWERCASE", "Priority": 1}]
          }
        },
        {
          "IPSetReferenceStatement": {
            "ARN": "arn:aws:wafv2:us-east-1:123456789012:ipset/googlebot-ips"
          }
        }
      ]
    }
  }
}

Обратите внимание: правило разрешает трафик только если совпадает И User-Agent, И IP из заранее подготовленного списка. Это защищает от подделки.

3 Настройка WAF: что выключать для легитимных ботов

Даже попав в белый список, бот может быть заблокирован правилами WAF. Вот что чаще всего мешает:

Правило WAF Почему блокирует ботов Решение
SQL Injection Краулеры могут парсить URL с параметрами, похожими на инъекции (например, id=1' в примерах кода). Исключить для ботов сканирование определенных путей (например, /api/docs).
Rate Limiting Нейрокраулеры работают быстро, но короткими сессиями. Увеличить лимит для подтвержденных IP ботов или использовать отдельный счетчик.
Bad Bot Protection Общие сигнатуры плохих ботов могут попадать и на легитимные. Точечно отключать для белого списка, а не глобально.

Если ваш сервис использует AI-агентов для сбора данных, помните об угрозах, описанных в статье про prompt injection. Ваши собственные агенты могут быть атакованы, поэтому их трафик тоже нужно защищать, но не блокировать.

4 DDoS-защита на L7: учимся отличать шторм от трудолюбивого краулера

Современные DDoS-защиты (например, Cloudflare DDoS Protection или AWS Shield Advanced) используют машинное обучение. Но их нужно натренировать.

  • Создайте кастомный сигнал "Легитимный бот".
  • Настройте пороги срабатывания: если с IP идет трафик, похожий на бота, но в пределах разумного (скажем, 100 запросов в минуту), не блокировать, а только логировать.
  • Используйте challenge (например, JavaScript или CAPTCHA) только для неподтвержденных сессий. Легитимные боты часто не могут их пройти, поэтому для белого списка challenge нужно отключать.

Кстати, если вы думаете о запуске своей LLM в интернет, сначала прочтите этот жесткий, но честный материал. Там есть важные нюансы по безопасности, которые влияют и на настройку WAF.

Ошибки, которые ломают все

Как НЕ надо делать:

  • Добавлять в белый список целые диапазоны облачных провайдеров (AWS, GCP, Azure). Вы откроете дверь для 90% атакующих.
  • Полностью отключать rate limiting для ботов. Даже легитимный бот может сломаться и устроить флуд.
  • Доверять только robots.txt. В 2026 году это не защита, а просто рекомендация. Нейрокраулеры могут ее игнорировать. Подробнее — в статье "Robots.txt не работает".
  • Настраивать правила один раз и забыть. Список IP краулеров меняется. Новые боты появляются каждый месяц.

Чек-лист на каждый день

  1. Мониторьте логи блокировок WAF. Ищите false positives.
  2. Раз в неделю обновляйте списки IP официальных краулеров. У Google и других есть публичные API для этого.
  3. Для своих сервисных ботов используйте отдельные заголовки или токены. Например, X-Internal-Crawler: SECRET_TOKEN. И настройте правило WAF, которое разрешает трафик с этим заголовком только с ваших IP.
  4. Тестируйте. Запускайте краулеры из белого списка и смотрите, проходят ли они. Инструменты вроде Site24x7 Robot Simulator могут помочь.

Если ничего не помогает

Бывает, что нейрокраулер ведет себя неотличимо от DDoS-атаки. Тогда сегментируйте трафик:

  • Выделите отдельный поддомен (например, crawler.example.com) с упрощенными правилами защиты.
  • Направляйте туда трафик с известными User-Agent нейрокраулеров через реврайты или DNS.
  • На основном домене оставляйте строгую защиту.

Это дает контроль. И помните: если вы даете AI-агенту доступ к shell, безопасность должна быть на максимуме. Сравнение песочниц поможет выбрать правильный инструмент.

Главный принцип на 2026 год: защита должна быть адаптивной. Не блокируйте по одному признаку. Используйте цепочки правил, машинное обучение и, самое главное, человеческий анализ. Легитимный бот — это не враг. Это просто еще один пользователь, который очень хочет ваши данные.