Каждый AI-инженер, запускающий проект в продакшн, похож на адвоката, который защищает клиента, зная, что присяжные ошибаются в 30% случаев. Только присяжные здесь — это компромиссы, которые режут бюджет, скорость или качество. Вы не можете выиграть по всем фронтам. Но можете ошибиться так, что проект умрет на третьем спринте.
За последние два года (2024-2026) рынок AI-инструментов превратился в минное поле. С одной стороны — GPT-4o, Claude 3.5 Sonnet, Llama 4, Mistral Large 2. С другой — обещания open-source, что "всё можно сделать самому за копейки". А между ними — сотни фреймворков, от Vellum до LangGraph, каждый кричит: "Выбирай меня!".
В этой статье я разложу 6 решений, которые вам придется принять, и дам цифры, за которые можно держаться, когда босс спрашивает: "А почему так дорого?"
Решение №1. Build vs Buy: когда писать свою модель — идиотизм
Самый частый вопрос: "Зачем платить OpenAI, если можно обучить свою Llama?" Ответ — смотри на затраты, а не на гордость.
| Критерий | Buy (API GPT-4o) | Build (Fine-tuned Llama 4 70B) |
|---|---|---|
| Time to MVP | 1 день | 3-6 недель |
| Инфраструктура | $0 | $15k-50k на GPU |
| Cost на 1M токенов | $10 (input) + $30 (output) | $2-5 (variable) |
| Контроль данных | Нет (через API) | Полный |
Цифры на май 2026: API GPT-4o стоит $15/1M input токенов, $60/1M output. Для 100k запросов в день — примерно $1800/мес. Fine-tuned Llama 4 70B на 8xA100 стоит $12-15/час. При загрузке 24/7 — $8,640-10,800/мец только за железо. Плюс зарплата инженера (2-3 человека на поддержку) + стоимость датасета (если не ваш).
Типичная ошибка: Компания тратит $50k на обучение Llama, чтобы сэкономить $2k в месяц на API. Окупаемость — 2 года. При этом качество ниже, а latency выше. Build имеет смысл только при volume > 10M запросов/мес и жёстких требованиях к privacy (финансы, медицина).
Как понять, что пора: посчитайте TCO (Total Cost of Ownership). Включите не только железо, но и время дата-сайентиста, который полгода будет чистить данные. Если объем запросов меньше 1 млн в месяц — используйте готовые AI-инструменты из нашего обзора.
Решение №2. Fine-tuning vs Prompt Engineering: когда дрова не нужны
Promt engineering — самый дешевый способ улучшить качество. Fine-tuning — самый надежный. Разница — в контроле.
Я видел проекты, где команда 3 месяца тюнила Llama 2 ради +5% accuracy, хотя тот же результат давал грамотный system prompt с 5 примерами few-shot. И наоборот: чат-бот поддержки, который через API выдавал тонны галлюцинаций, не спасали никакие промпты — пришлось fine-tune на логах.
Правило большого пальца: Если задача decision boundary (классификация, извлечение сущностей, маршрутизация) — fine-tuning окупается. Если creative generation (письма, шутки, креатив) — сначала промпт, потом RAG, и только если всё плохо — fine-tuning.
В 2026 году появился третий путь — adapter LoRA с обучением за 1-2 часа на коллабе. Это дешево ($50-200 за эксперимент), но качество всё равно уступает полному fine-tune. Пример: для юридического ассистента мы добились 92% F1 на контрактах через GPT-4o + chain-of-thought prompt. Fine-tuning Llama 4 с LoRA дал 95% F1, но стоил $300 за обучение и $800/мес инференса. Спрашивается: стоят ли 3% прироста таких затрат?
Решение №3. Throughput vs Latency: вы не можете иметь всё
Здесь нет правильного ответа — есть SLA. Если ваш чат-бот должен отвечать за 200ms — forget open-source 70B модели. Только API или дистиллированные модели с падением качества.
Реальные цифры (May 2026):
- GPT-4o mini: latency ~450ms, throughput ~500 req/min на одном endpoint
- Llama 4 8B (quant 4bit): latency ~120ms, throughput ~200 req/min на A100
- Mixtral 8x22B: latency ~800ms, throughput ~60 req/min
Как выбирать: нарисуйте распределение ваших нагрузок. Если пик 100 req/sec при среднем 10 — вам нужно масштабирование. Serverless (AWS Bedrock, GCP Vertex) справляется с пиками лучше, но дороже в 2-3 раза на единицу. Выделенные эндпоинты — дешевле, но требуют reservations и не терпят резких скачков.
Лайфхак: ставьте load balancer перед несколькими моделями. Для простых запросов — дешевый Llama 4 8B, для сложных — GPT-4o. Это снижает среднюю задержку на 40% и экономит 30% бюджета. Фреймворк Vellum умеет рулить таким роутингом из коробки.
Решение №4. RAG vs Fine-tuning: битва за контекст
Изначально RAG (Retrieval-Augmented Generation) выглядел спасением: не надо переучивать модель, просто добавляем документы в контекст. Но на практике RAG добавляет стоимость векторизации + latency на поиск + проблемы с окном контекста. Fine-tuning — дорого, но после обучения запросы идут без задержки на ретривал.
Сравнение (на примере поддержки продукта с 5000 FAQ и документацией):
| Метод | Accuracy (F1) | Latency p50 | Стоимость/мес |
|---|---|---|---|
| GPT-4o + zero-shot | 72% | 400ms | $500 |
| GPT-4o + RAG (Pinecone) | 89% | 850ms | $1200 |
| Fine-tuned Llama 4 8B | 85% | 150ms | $800 |
RAG побеждает по accuracy, но проигрывает по latency. Если ваш пользователь готов ждать 1 секунду — RAG. Если нет — fine-tune. Оптимальный вариант — гибрид: RAG для редких вопросов, fine-tuned модель для 80% типовых. Как настроить такой конвейер — читайте в статье про архитектурные подходы в Enterprise.
Решение №5. Automation vs Human Oversight: кто нажимает красную кнопку
Случай 2025: Gemini чуть не удалил продакшен-базу. Случай 2026: AI-ресепшн в банке одобрил кредит мошеннику. Не автоматизируйте всё сразу.
Есть простая матрица: риск х стоимость ошибки. Если ошибка стоит денег/жизней/репутации — ставьте человека в контур. Если нет — отпускайте в автоном.
Пример: Чат-бот техподдержки. Можно автоматизировать 80% запросов (сброс пароля, статус заказа). Но 20% (спорные возвраты, жалобы) должны эскалироваться человеку. Сделайте flow-based routing: модель классифицирует сложность, и если уверенность < 0.95 — отправляет оператору. Так вы сохраняете NPS и не тратите бюджет на дорогой fine-tune для редких кейсов.
По данным Datadog (Q1 2026), компании, которые внедряют human-in-the-loop с порогом уверенности, снижают cost per transaction на 35% по сравнению с полным авто или полным ручным режимом.
Решение №6. Cost vs Quality: перестаньте платить за токены
Самая коварная ловушка — думать, что качество линейно растёт с размером модели. Это неправда. Llama 4 8B vs Llama 4 70B — разница в accuracy 5-7%, но стоимость инференса отличается в 6-8 раз.
Оптимизируйте не модель, а количество токенов. Каждый лишний символ в промпте — деньги. Обрезайте контекст, удаляйте стоп-слова, используйте сжатие (например, LLMLingua — сжимает промпт на 40% без потери качества).
Ещё один трюк — caching повторяющихся запросов. Если ваш ассистент отвечает на одинаковые вопросы (тарифы, график работы), кешируйте ответы на уровне API. Это сократит cost до 50%.
Фреймворки, которые помогают балансировать cost и quality в 2026: LangSmith (дашборд стоимости), Helicon (продвинутый роутинг по моделям), Portkey (fallback-стратегия: если дешевая модель выдала low confidence — переключиться на дорогую).
Как не утонуть в решениях
У вас нет времени тестировать все комбинации. Используйте экспериментальный фреймворк:
- Определите метрику — не accuracy, а бизнес-метрику (конверсия, время решения тикета, NPS).
- Зафиксируйте бюджет — сколько вы готовы платить за 1% прироста.
- Запустите A/B тест — сравните 2-3 варианта (например, GPT-4o fine-tuned vs Llama 4 + RAG) на 10% трафика.
- Примите решение за 2 недели — если нет статистически значимой разницы, берите самый дешевый.
Вспомните статью про цели и метрики AI-проектов — там детально описано, как не провалиться на старте.
Неочевидный совет: Через год вы с высокой вероятностью будете переписывать половину решений. Не влюбляйтесь в архитектуру. Готовьтесь к замене модели, фреймворка, провайдера. Закладывайте абстракции (единый интерфейс для LLM), чтобы в пятницу воткнуть Gemini вместо GPT, если он станет дешевле. AI-инфраструктура — это не бетон, это песок.