Защита, которая бьет по своим
Вы включаете WAF и DDoS-фильтр. Сайт перестает падать под нагрузкой. Вы герой. А через неделю прилетает письмо от SEO-специалиста: "Индексация упала на 70%". Или ваш AI-сервис перестает получать данные с внешних ресурсов, потому что их нейрокраулер попал в черный список. Знакомая история? В 2026 году это не исключение, а правило.
Стандартные правила WAF и DDoS-защиты написаны для мира, где бот — это либо Google, либо хакер. Но сейчас между ними десятки легитимных AI-агентов, исследовательских краулеров и сервисных ботов, которые ведут себя... странно.
Почему в 2026 году это критично
Раньше достаточно было прописать User-Agent: Googlebot в белый список. Теперь нейрокраулеры:
- Меняют IP-адреса так же часто, как вы меняете носки (спасибо облачным провайдерам).
- Делают запросы нерегулярно, взрывными пакетами — очень похоже на DDoS L7.
- Используют заголовки, которые триггерят правила против инъекций (потому что парсят все подряд).
- Могут быть частью вашего же сервиса. Заблокируете их — сломаете собственную логику.
При этом реальные атаки стали умнее. Хакеры маскируются под легитимных ботов, используя знания из статей вроде "Агентный ИИ в кибератаках 2026". Получается игра в кошки-мышки, где нужно отличить полезного робота от злоумышленника.
От слов к делу: пошаговая настройка
Забудьте про "включить и забыть". Настройка защиты теперь — это постоянный процесс тонкой балансировки.
1 Анализ: кто уже ходит на ваш сайт
Первое и самое важное. Не гадайте, посмотрите логи. Например, в Nginx:
cat /var/log/nginx/access.log | awk '{print $1, $12}' | sort | uniq -c | sort -nr | head -20
Вы увидите топ IP-адресов и User-Agent. Ищите паттерны:
- Официальные краулеры: Googlebot, Bingbot, Yandex, Applebot.
- AI-агенты: OpenAI-Collector, Claude-Web-Reader, Perplexity-Crawler (актуальные на 2026 год).
- Сервисные боты: мониторинговые системы (UptimeRobot, StatusCake), CDN (Cloudflare, Fastly).
host 66.249.66.1 должно показывать *.googlebot.com.2 Создаем интеллектуальный белый список
Белый список на основе IP — это прошлый век. Используйте комбинацию сигнатур:
- Подтвержденные IP-адреса (через reverse DNS).
- Специфичные заголовки (например,
X-Crawler-Token, если вы его выдаете своим сервисам). - Поведенческие паттерны: легитимный бот обычно ходит по
robots.txt, не пытается подбирать пароли и не флудит запросами к API.
Пример правила для AWS WAF (актуально на 2026):
{
"Name": "Allow-Googlebot",
"Priority": 1,
"Action": "Allow",
"Statement": {
"AndStatement": {
"Statements": [
{
"ByteMatchStatement": {
"FieldToMatch": {
"SingleHeader": {
"Name": "user-agent"
}
},
"SearchString": "Googlebot",
"TextTransformations": [{"Type": "LOWERCASE", "Priority": 1}]
}
},
{
"IPSetReferenceStatement": {
"ARN": "arn:aws:wafv2:us-east-1:123456789012:ipset/googlebot-ips"
}
}
]
}
}
}
Обратите внимание: правило разрешает трафик только если совпадает И User-Agent, И IP из заранее подготовленного списка. Это защищает от подделки.
3 Настройка WAF: что выключать для легитимных ботов
Даже попав в белый список, бот может быть заблокирован правилами WAF. Вот что чаще всего мешает:
| Правило WAF | Почему блокирует ботов | Решение |
|---|---|---|
| SQL Injection | Краулеры могут парсить URL с параметрами, похожими на инъекции (например, id=1' в примерах кода). |
Исключить для ботов сканирование определенных путей (например, /api/docs). |
| Rate Limiting | Нейрокраулеры работают быстро, но короткими сессиями. | Увеличить лимит для подтвержденных IP ботов или использовать отдельный счетчик. |
| Bad Bot Protection | Общие сигнатуры плохих ботов могут попадать и на легитимные. | Точечно отключать для белого списка, а не глобально. |
Если ваш сервис использует AI-агентов для сбора данных, помните об угрозах, описанных в статье про prompt injection. Ваши собственные агенты могут быть атакованы, поэтому их трафик тоже нужно защищать, но не блокировать.
4 DDoS-защита на L7: учимся отличать шторм от трудолюбивого краулера
Современные DDoS-защиты (например, Cloudflare DDoS Protection или AWS Shield Advanced) используют машинное обучение. Но их нужно натренировать.
- Создайте кастомный сигнал "Легитимный бот".
- Настройте пороги срабатывания: если с IP идет трафик, похожий на бота, но в пределах разумного (скажем, 100 запросов в минуту), не блокировать, а только логировать.
- Используйте challenge (например, JavaScript или CAPTCHA) только для неподтвержденных сессий. Легитимные боты часто не могут их пройти, поэтому для белого списка challenge нужно отключать.
Кстати, если вы думаете о запуске своей LLM в интернет, сначала прочтите этот жесткий, но честный материал. Там есть важные нюансы по безопасности, которые влияют и на настройку WAF.
Ошибки, которые ломают все
Как НЕ надо делать:
- Добавлять в белый список целые диапазоны облачных провайдеров (AWS, GCP, Azure). Вы откроете дверь для 90% атакующих.
- Полностью отключать rate limiting для ботов. Даже легитимный бот может сломаться и устроить флуд.
- Доверять только
robots.txt. В 2026 году это не защита, а просто рекомендация. Нейрокраулеры могут ее игнорировать. Подробнее — в статье "Robots.txt не работает". - Настраивать правила один раз и забыть. Список IP краулеров меняется. Новые боты появляются каждый месяц.
Чек-лист на каждый день
- Мониторьте логи блокировок WAF. Ищите false positives.
- Раз в неделю обновляйте списки IP официальных краулеров. У Google и других есть публичные API для этого.
- Для своих сервисных ботов используйте отдельные заголовки или токены. Например,
X-Internal-Crawler: SECRET_TOKEN. И настройте правило WAF, которое разрешает трафик с этим заголовком только с ваших IP. - Тестируйте. Запускайте краулеры из белого списка и смотрите, проходят ли они. Инструменты вроде Site24x7 Robot Simulator могут помочь.
Если ничего не помогает
Бывает, что нейрокраулер ведет себя неотличимо от DDoS-атаки. Тогда сегментируйте трафик:
- Выделите отдельный поддомен (например,
crawler.example.com) с упрощенными правилами защиты. - Направляйте туда трафик с известными User-Agent нейрокраулеров через реврайты или DNS.
- На основном домене оставляйте строгую защиту.
Это дает контроль. И помните: если вы даете AI-агенту доступ к shell, безопасность должна быть на максимуме. Сравнение песочниц поможет выбрать правильный инструмент.
Главный принцип на 2026 год: защита должна быть адаптивной. Не блокируйте по одному признаку. Используйте цепочки правил, машинное обучение и, самое главное, человеческий анализ. Легитимный бот — это не враг. Это просто еще один пользователь, который очень хочет ваши данные.