Три модели, три подхода, один реальный кластер

Я устал от маркетинговых заявлений. "Лучший AI для DevOps", "Автономное развёртывание", "Архитектурный гений". Всё это звучит красиво, пока не попробуешь заставить модель развернуть реальный кластер с базами данных, балансировщиками и мониторингом.

Вот что я сделал: взял три самые обсуждаемые модели на январь 2026 года — Kimi K2.5, GPT-5.2 Pro (Garlic) и Claude Sonnet 4.5 — и поставил им одинаковую задачу. Не синтетический тест, а реальную инфраструктурную проблему, которую я решал на прошлой неделе для клиента.

Важное уточнение: все тесты проводились через единый API-шлюз AITunnel, чтобы исключить разницу в качестве API-провайдеров. Цены указаны актуальные на 29.01.2026.

Задача: не просто код, а архитектурное мышление

Условия эксперимента максимально приближены к реальности:

Бюджет: 500$ в месяц на инфраструктуру
Требования: отказоустойчивость, мониторинг, автоматическое масштабирование
Стек: PostgreSQL, Redis, Nginx, Docker, мониторинг (на выбор модели)
Ограничение: нельзя использовать managed-сервисы (только чистые VM)
Время на решение: 30 минут (имитация реального дедлайна)

Я не просил "напиши Terraform". Я сказал: "Спроектируй инфраструктуру для веб-приложения с 10к пользователей в день. Опиши архитектуру, выбери инструменты, обоснуй решения".

GPT-5.2 Pro: архитектор-перфекционист с дорогим вкусом

Garlic (кодовое имя GPT-5.2 Pro) начал с того, что запросил уточнения. Много уточнений. "Какой регион? Какие требования к RPO/RTO? Есть ли compliance-требования?"

Потом выдал архитектуру, от которой у меня округлились глаза:

💡

GPT-5.2 предложил использовать Ceph для распределённого хранилища, Consul для service discovery, и собственную систему мониторинга на основе Prometheus с кастомными экспортерами. Всё это — для приложения на 10к пользователей.

Плюсы подхода GPT-5.2:

Детальная проработка каждого компонента
Учёт edge cases ("а что если сломается сеть между датацентрами?")
Готовые сниппеты конфигурации для каждого сервиса

Минусы:

Стоимость реализации: 1200$ в месяц (в 2.4 раза выше бюджета)
Сложность поддержки: нужна команда из 3 DevOps
Время развёртывания: 2 недели (по оценке модели)

GPT-5.2 мыслит как архитектор из FAANG, где бюджеты измеряются миллионами. Его решение идеально с технической точки зрения и совершенно нереалистично для стартапа.

Kimi K2.5: прагматик с китайским подходом

Kimi K2.5 — это другая вселенная. Модель с триллионом параметров, которая умещается в четыре H100 благодаря архитектуре MoE с 384 экспертами, — проявила себя как самый прагматичный участник.

Вот что предложил K2.5:

Отказ от распределённой БД в пользу managed PostgreSQL (нарушил правило, но обосновал)
Использование Cloudflare вместо собственных балансировщиков
Мониторинг через Datadog (бесплатный тариф для стартапов)
Автомасштабирование через простые скрипты, а не Kubernetes

Обоснование было убийственно простым: "Для 10к пользователей в день сложность Kubernetes не окупается. Простые VM с Docker Compose решат задачу за 1/10 стоимости и времени."

Параметр	GPT-5.2	Kimi K2.5
Месячная стоимость	1200$	420$
Время развёртывания	2 недели	2 дня
Сложность поддержки	Высокая	Низкая

Kimi K2.5 сделала то, что не смог GPT-5.2: пожертвовала техническим перфекционизмом ради практической реализуемости. Это тот самый shared expert из её архитектуры, который отвечает за системное мышление.

Claude Sonnet 4.5: педантичный аудитор

Sonnet подошёл к задаче как к экзамену по безопасности. Первые 10 минут он задавал вопросы про compliance:

"Где будут храниться пароли?"
"Как организовано логирование для аудита?"
"Есть ли требования GDPR или 152-ФЗ?"

Когда я сказал "предположим, что нет", Sonnet обиделся. Нет, серьёзно — ответил: "Без требований к безопасности невозможно проектировать инфраструктуру. Это безответственно."

В итоге он выдал архитектуру, которая:

Соответствует ISO 27001
Имеет трёхуровневую модель безопасности
Включает SIEM-систему для мониторинга угроз
Стоит 800$ в месяц (только на security-компоненты)

Sonnet идеален для банков и госструктур. Для стартапа — это стрельба из пушки по воробьям.

Автономное выполнение: где модели споткнулись

Вторая часть теста — автономное выполнение. Я дал каждой модели доступ к тестовому серверу через SSH и попросил развернуть простой стек: Nginx + PostgreSQL.

Результаты предсказуемо печальные:

Все три модели пытались установить пакеты, которые не существуют в репозиториях. GPT-5.2 использовал устаревший синтаксис systemd. Kimi K2.5 забыл открыть порт в firewall. Sonnet потратил 15 минут на настройку SELinux для тестового стенда.

Это подтверждает выводы из нашего разбора ABC-Bench: AI-агенты блестяще проектируют, но проваливаются на исполнении.

Стоимость vs качество: холодные цифры

Давайте посчитаем, во что обошлось тестирование:

Модель	Стоимость теста	Токенов потрачено	Цена за 1K output
GPT-5.2 Pro	4.20$	8,750	0.48$
Kimi K2.5	0.85$	9,200	0.09$
Claude Sonnet 4.5	6.30$	7,800	0.90$

Kimi K2.5 в 5 раз дешевле GPT-5.2 и в 10 раз дешевле Sonnet. При этом качество архитектурных решений — сравнимое, а в плане прагматизма — превосходящее.

💡

Через AITunnel Kimi K2.5 доступна по цене 0.09$ за 1K output токенов — это самый выгодный вариант для DevOps-задач на январь 2026 года.

Когда какую модель использовать (практические рекомендации)

После месяца тестов вот моя матрица выбора:

1Kimi K2.5 — для стартапов и прагматичных решений

Используйте, когда: бюджет ограничен, нужно быстрое решение, можно пожертвовать "идеальностью" ради работающей системы. K2.5 отлично справляется с оптимизацией затрат и простыми архитектурами.

2GPT-5.2 Pro — для enterprise и сложных систем

Используйте, когда: бюджет не важен, нужна максимальная отказоустойчивость, система будет масштабироваться до миллионов пользователей. Garlic идеален для проектирования, но ужасен для экономии.

3Claude Sonnet 4.5 — для compliance и безопасности

Используйте, когда: работаете с персональными данными, нужны сертификаты соответствия, безопасность важнее стоимости. Sonnet превратит ваш кластер в крепость, но это будет дорогая крепость.

Главный урок: AI не заменяет инженера, а меняет его роль

После всех тестов я понял одну простую вещь. AI-агенты не готовы полностью автономно разворачивать инфраструктуру. Они делают глупые ошибки, не понимают контекста, не умеют импровизировать.

Но они блестяще справляются с другой задачей — генерацией и оценкой архитектурных решений. Вместо того чтобы тратить недели на сравнение технологий, я теперь:

Даю задачу Kimi K2.5 — получаю прагматичное решение
Отправляю его на ревью GPT-5.2 — получаю список потенциальных проблем
Проверяю безопасность через Sonnet — получаю рекомендации по харденингу

Итоговое решение принимаю я, но на его подготовку уходит не неделя, а три часа.

Это и есть реальная ценность AI-агентов в DevOps — не автономное выполнение, а ускорение принятия решений. Они не заменят инженера, но сделают его в 10 раз эффективнее.

Если вы до сих пор используете одну модель для всех задач — вы переплачиваете. Начните с Kimi K2.5 для черновика, дополняйте GPT-5.2 для глубины, подключайте Sonnet для compliance. И не забывайте, что автономные агенты всё ещё ломаются в Kubernetes, поэтому финальное слово всегда должно оставаться за человеком.

AI-агенты в бою: как Kimi K2.5, GPT-5.2 и Sonnet ломают и строят инфраструктуру