Три модели, три подхода, один реальный кластер
Я устал от маркетинговых заявлений. "Лучший AI для DevOps", "Автономное развёртывание", "Архитектурный гений". Всё это звучит красиво, пока не попробуешь заставить модель развернуть реальный кластер с базами данных, балансировщиками и мониторингом.
Вот что я сделал: взял три самые обсуждаемые модели на январь 2026 года — Kimi K2.5, GPT-5.2 Pro (Garlic) и Claude Sonnet 4.5 — и поставил им одинаковую задачу. Не синтетический тест, а реальную инфраструктурную проблему, которую я решал на прошлой неделе для клиента.
Важное уточнение: все тесты проводились через единый API-шлюз AITunnel, чтобы исключить разницу в качестве API-провайдеров. Цены указаны актуальные на 29.01.2026.
Задача: не просто код, а архитектурное мышление
Условия эксперимента максимально приближены к реальности:
- Бюджет: 500$ в месяц на инфраструктуру
- Требования: отказоустойчивость, мониторинг, автоматическое масштабирование
- Стек: PostgreSQL, Redis, Nginx, Docker, мониторинг (на выбор модели)
- Ограничение: нельзя использовать managed-сервисы (только чистые VM)
- Время на решение: 30 минут (имитация реального дедлайна)
Я не просил "напиши Terraform". Я сказал: "Спроектируй инфраструктуру для веб-приложения с 10к пользователей в день. Опиши архитектуру, выбери инструменты, обоснуй решения".
GPT-5.2 Pro: архитектор-перфекционист с дорогим вкусом
Garlic (кодовое имя GPT-5.2 Pro) начал с того, что запросил уточнения. Много уточнений. "Какой регион? Какие требования к RPO/RTO? Есть ли compliance-требования?"
Потом выдал архитектуру, от которой у меня округлились глаза:
Плюсы подхода GPT-5.2:
- Детальная проработка каждого компонента
- Учёт edge cases ("а что если сломается сеть между датацентрами?")
- Готовые сниппеты конфигурации для каждого сервиса
Минусы:
- Стоимость реализации: 1200$ в месяц (в 2.4 раза выше бюджета)
- Сложность поддержки: нужна команда из 3 DevOps
- Время развёртывания: 2 недели (по оценке модели)
GPT-5.2 мыслит как архитектор из FAANG, где бюджеты измеряются миллионами. Его решение идеально с технической точки зрения и совершенно нереалистично для стартапа.
Kimi K2.5: прагматик с китайским подходом
Kimi K2.5 — это другая вселенная. Модель с триллионом параметров, которая умещается в четыре H100 благодаря архитектуре MoE с 384 экспертами, — проявила себя как самый прагматичный участник.
Вот что предложил K2.5:
- Отказ от распределённой БД в пользу managed PostgreSQL (нарушил правило, но обосновал)
- Использование Cloudflare вместо собственных балансировщиков
- Мониторинг через Datadog (бесплатный тариф для стартапов)
- Автомасштабирование через простые скрипты, а не Kubernetes
Обоснование было убийственно простым: "Для 10к пользователей в день сложность Kubernetes не окупается. Простые VM с Docker Compose решат задачу за 1/10 стоимости и времени."
| Параметр | GPT-5.2 | Kimi K2.5 |
|---|---|---|
| Месячная стоимость | 1200$ | 420$ |
| Время развёртывания | 2 недели | 2 дня |
| Сложность поддержки | Высокая | Низкая |
Kimi K2.5 сделала то, что не смог GPT-5.2: пожертвовала техническим перфекционизмом ради практической реализуемости. Это тот самый shared expert из её архитектуры, который отвечает за системное мышление.
Claude Sonnet 4.5: педантичный аудитор
Sonnet подошёл к задаче как к экзамену по безопасности. Первые 10 минут он задавал вопросы про compliance:
- "Где будут храниться пароли?"
- "Как организовано логирование для аудита?"
- "Есть ли требования GDPR или 152-ФЗ?"
Когда я сказал "предположим, что нет", Sonnet обиделся. Нет, серьёзно — ответил: "Без требований к безопасности невозможно проектировать инфраструктуру. Это безответственно."
В итоге он выдал архитектуру, которая:
- Соответствует ISO 27001
- Имеет трёхуровневую модель безопасности
- Включает SIEM-систему для мониторинга угроз
- Стоит 800$ в месяц (только на security-компоненты)
Sonnet идеален для банков и госструктур. Для стартапа — это стрельба из пушки по воробьям.
Автономное выполнение: где модели споткнулись
Вторая часть теста — автономное выполнение. Я дал каждой модели доступ к тестовому серверу через SSH и попросил развернуть простой стек: Nginx + PostgreSQL.
Результаты предсказуемо печальные:
Все три модели пытались установить пакеты, которые не существуют в репозиториях. GPT-5.2 использовал устаревший синтаксис systemd. Kimi K2.5 забыл открыть порт в firewall. Sonnet потратил 15 минут на настройку SELinux для тестового стенда.
Это подтверждает выводы из нашего разбора ABC-Bench: AI-агенты блестяще проектируют, но проваливаются на исполнении.
Стоимость vs качество: холодные цифры
Давайте посчитаем, во что обошлось тестирование:
| Модель | Стоимость теста | Токенов потрачено | Цена за 1K output |
|---|---|---|---|
| GPT-5.2 Pro | 4.20$ | 8,750 | 0.48$ |
| Kimi K2.5 | 0.85$ | 9,200 | 0.09$ |
| Claude Sonnet 4.5 | 6.30$ | 7,800 | 0.90$ |
Kimi K2.5 в 5 раз дешевле GPT-5.2 и в 10 раз дешевле Sonnet. При этом качество архитектурных решений — сравнимое, а в плане прагматизма — превосходящее.
Когда какую модель использовать (практические рекомендации)
После месяца тестов вот моя матрица выбора:
1Kimi K2.5 — для стартапов и прагматичных решений
Используйте, когда: бюджет ограничен, нужно быстрое решение, можно пожертвовать "идеальностью" ради работающей системы. K2.5 отлично справляется с оптимизацией затрат и простыми архитектурами.
2GPT-5.2 Pro — для enterprise и сложных систем
Используйте, когда: бюджет не важен, нужна максимальная отказоустойчивость, система будет масштабироваться до миллионов пользователей. Garlic идеален для проектирования, но ужасен для экономии.
3Claude Sonnet 4.5 — для compliance и безопасности
Используйте, когда: работаете с персональными данными, нужны сертификаты соответствия, безопасность важнее стоимости. Sonnet превратит ваш кластер в крепость, но это будет дорогая крепость.
Главный урок: AI не заменяет инженера, а меняет его роль
После всех тестов я понял одну простую вещь. AI-агенты не готовы полностью автономно разворачивать инфраструктуру. Они делают глупые ошибки, не понимают контекста, не умеют импровизировать.
Но они блестяще справляются с другой задачей — генерацией и оценкой архитектурных решений. Вместо того чтобы тратить недели на сравнение технологий, я теперь:
- Даю задачу Kimi K2.5 — получаю прагматичное решение
- Отправляю его на ревью GPT-5.2 — получаю список потенциальных проблем
- Проверяю безопасность через Sonnet — получаю рекомендации по харденингу
Итоговое решение принимаю я, но на его подготовку уходит не неделя, а три часа.
Это и есть реальная ценность AI-агентов в DevOps — не автономное выполнение, а ускорение принятия решений. Они не заменят инженера, но сделают его в 10 раз эффективнее.
Если вы до сих пор используете одну модель для всех задач — вы переплачиваете. Начните с Kimi K2.5 для черновика, дополняйте GPT-5.2 для глубины, подключайте Sonnet для compliance. И не забывайте, что автономные агенты всё ещё ломаются в Kubernetes, поэтому финальное слово всегда должно оставаться за человеком.