Публикация AiManual

Масштабирование AI-систем: от GPT-wrapper до распределённой архитектуры

Как превратить простой API-вызов в миллион RPS? Разбираем кэширование, rate limiting, роутинг запросов и распределенный вывод. Гайд для DevOps и архитекторов AI

8 мин чтения 03.06.2026

Коротко

Что будет в материале

01
Проблема: твой GPT-wrapper умер, не родившись
02
Архитектура-убийца: что ломается первым
03
Решение: четыре слоя, которые вытащат тебя из болота
04
Типовые ошибки при переходе к распределенной архитектуре

Проблема: твой GPT-wrapper умер, не родившись

Помнишь 2024 год? Берешь GPT-4, оборачиваешь в FastAPI, добавляешь промпт-шаблон и — вуаля! — стартап за $10 млн. Сегодня, 3 июня 2026, такие проекты лопаются как мыльные пузыри. Венчурные фонды (Sequoia, a16z) публично сказали: «хватит». Деньги идут в инфраструктуру, а не в тонкие обертки. Читай Конец эры LLM-оберток.

Но даже если ты не строишь очередной «SuperChat», проблема масштаба остается. Твой AI-сервис (специализированная модель, обработка документов, код-ассистент) начал расти. Было 100 запросов в день — стало 1000 в секунду. И тут ты понимаешь: сырой вызов к LLM через HTTP не тянет. Латенси растет, память течет, бэкенд падает.

Реальность 2026: самая большая боль — не качество ответа, а время ответа и стоимость. Пока модель «думает», пользователь уходит к конкуренту. А каждый токен стоит денег.

Архитектура-убийца: что ломается первым

Типичная архитектура новичка — монолит:

Frontend шлет запрос на FastAPI/Flask.
Бэкенд вызывает OpenAI API (или свою модель через ollama/vLLM).
Ждет ответа, парсит, отдает.

Это работает для 10 RPS. На 100 RPS — треск. Почему?

Блокирующие I/O — каждый запрос висит, ждет ответ модели. Thread pool кончится.
Rate limiting у провайдера — превысил лимит, получил 429. Или счёт на $10k за час.
Кэш? Нет, каждый раз генерируем заново, даже если запрос идентичный.
Отсутствие роутинга — все запросы летят на одну модель, хотя часть могла бы обрабатываться маленькой fast-моделью.

Звучит знакомо? Добро пожаловать в ад «тонкого wrapper'а». Выход — распределенная архитектура, где каждый слой решает свою задачу.

Решение: четыре слоя, которые вытащат тебя из болота

Я выделяю четыре ключевых уровня, которые превращают хрупкий сервис в промышленную систему. Никакой магии — проверено на CI/CD в бою.

1Ingress & Rate Limiting

Первый рубеж. Никакой сервер не выдержит, если снаружи не стоит «шлюз». Используй NGINX + Lua или Kong (или Envoy — если любишь геморрой с конфигами). На этом уровне происходит:

Лимитирование — по IP, по API-ключу, по эндпоинту.
Аутентификация — JWT, OAuth2.
Анализ паттернов — легитимный трафик или DDoS с одного IP.

Rate limiting в 2026 — это не просто «100 запросов в минуту». Нужны алгоритмы из коробки: Token Bucket, Sliding Window Log. Пример конфига NGINX с Lua:

location /api/v1/chat {
  access_by_lua_block {
    local limit = require "resty.limit.req"
    local lim, err = limit.new("my_limit", 100, 10)
    if not lim then
      ngx.exit(500)
    end
    local delay, err = lim:incoming(ngx.var.binary_remote_addr, true)
    if not delay then
      ngx.exit(429)
    end
  }
  proxy_pass http://backend;
}

Важно: лимиты должны адаптироваться под время суток и авторизацию пользователя. Иначе премиум-клиенты будут страдать из-за бесплатных.

2Кэширование ответов

Глупо генерировать один и тот же ответ дважды. Но LLM — не база данных: один и тот же промпт может дать разные ответы (из-за температуры). Поэтому кэширование для AI — искусство компромисса.

Точное совпадение промпта — кэшируем hash (SHA256) промпта + параметров (model, temperature, max_tokens). Используй Redis или Memcached с TTL (обычно 30-60 секунд, чтобы не застаревать).
Семантический кэш — более сложный, но эффективный. Сравниваем эмбеддинги запросов, и если cosine similarity > 0.95, отдаем кэш. Это решает проблему вариаций в формулировках. Для этого нужен Qdrant или Annoy.

Ошибка: многие кэшируют без учета контекста (сессия пользователя). Если диалоговый контекст разный — кэш ломает UX. Решение — кэшировать только для одинаковых сессий.

3Асинхронный брокер и очередь

Если пользователь может подождать 3-5 секунд — используй синхронный вызов. Но при 1000 RPS каждый вызов висит долго, пул потоков забит. Решение — Message Queue (RabbitMQ, NATS, Redis Streams). Запрос приходит, кладется в очередь, воркеры забирают и обрабатывают. Ответ пользователь получает через WebSocket или long polling.

Это развязывает «производство» и «потребление». Модели могут работать с разной скоростью, а ты можешь горизонтально масштабировать воркеры. Плюс — graceful degradation при скачках нагрузки.

Пример на Python с Celery и Redis:

# tasks.py
from celery import Celery

app = Celery('ai_tasks', broker='redis://redis:6379/0')

@app.task
def generate_response(prompt, model):
    # вызов модели через vLLM или OpenAI
    result = call_model(prompt, model)
    return result

# в FastAPI
def chat_endpoint(prompt):
    task = generate_response.delay(prompt, 'gpt-4o')
    return {'task_id': task.id}

Подводный камень: что делать с ошибкой модели? Ответ уже ждет пользователь. Нужны retry с exponential backoff и dead letter queue.

4Роутинг запросов и каскад моделей

Ты не обязан все запросы слать на самую мощную модель. Идея 2026 года — «каскад моделей». Простые запросы (приветствие, перевод одного слова) обрабатывает маленькая модель (например, Phi-3-mini или Genesis-152M). Сложные — большая GPT-5.5 или Claude 4.

Это снижает латенси на 60-80% и экономит бюджет. Но нужен роутер — модель-диспетчер, который решает, куда отправить запрос. Отличный пример — Orchestrator-8B от NVIDIA. Он не генерирует ответ, а классифицирует и направляет.

Реализация:

Первый слой — быстрый классификатор (логистическая регрессия или tiny BERT) по эмбеддингу запроса.
Если уверенность высокая — направляем на маленькую модель.
Если низкая — на каскад: сначала маленькая, она генерирует ответ, и если score < порога, то переотправляем на большую.

Этот подход требует тщательного мониторинга. Иначе модель-диспетчер начнет ошибаться, и качество упадет. Но в бою это дает серьезный профит.

Типовые ошибки при переходе к распределенной архитектуре

Видел десятки команд, которые наступали на эти грабли. Запиши:

Ошибка	Почему это плохо	Как исправить
Кэширование не учитывает токены	Кэш живет бесконечно, ответы устаревают	Добавить TTL и инвалидацию по версии модели
Синхронный вызов при очереди	Пользователь ждет, хотя мог бы получить результат быстрее через WebSocket	Перейти на async-паттерн с колбэком или SSE
Rate limiting жестко фиксирован	Premium-клиенты уходят из-за общих лимитов	Внедрить tiered limits через API Gateway
Нет деградации при сбое модели	Ошибка в LLM убивает весь сервис	Circuit breaker + fallback на меньшую модель

Нагрузочное тестирование: как не обжечься

Ты собрал новую архитектуру. Прежде чем запускать в прод — надо проверить. Но обычный load testing с httperf или wrk не подходит: LLM работают долго, одно соединение может висеть 30 секунд.

Инструменты:

Locust — пишется на Python, поддерживает пользовательские сценарии и wait time.
k6 — легковесный, хорошо интегрируется с Grafana.
Vegeta — для простых конфигураций.

Главные метрики:

P50, P95, P99 latency — время ответа включая ожидание модели.
Error rate — 429, 500, таймауты.
Throughput — RPS, которые сервис может держать.
Cost per request — особенно если используешь платные API.

Совет: не тестируй локально с mock'ом модели. Реальный профиль нагрузки дают только настоящие инференсы. Сними метрики с production-трафика (используй Jaeger или Zipkin для трейсинга) и повтори сценарий.

Распределенный инференс: GPU-кластеры и тени

Когда запросов становится миллионы в сутки, один инстанс модели не справляется. Нужен распределенный инференс. Здесь есть два подхода.

Горизонтальное масштабирование через Load Balancer

Запускаешь несколько реплик модели (за бойлерплейтом vLLM или TGI). Ставишь перед ними балансировщик (NGINX, HAProxy, или K8s Service). Проблема: если модель — 70B параметров, каждая реплика требует ~140GB VRAM. Одна A100 80GB не поместится, нужны tensor parallel на нескольких GPU. А это сложно с сетью. Решение — использовать Ray Serve или Seldon Core.

Теневое (shadow) развертывание

Когда хочешь протестировать новую модель, не убивая старую. Запрос идет на обе, но пользователю отдается ответ старой. Новая работает «в тени». Сравниваем качество, latency, ошибки. Только после этого переключаем трафик. Это требует канареечного деплоя и фильтрации трафика.

💡

Полезно почитать про Эволюцию AI через ограничения — там рассказывается, как квантованные модели экономят память и ускоряют инференс, что критично для масштабирования.

Когда распределенная архитектура избыточна?

Да, есть случаи, когда не нужно городить огород. Если у тебя 100 пользователей в день и они готовы ждать 15 секунд — синхронный вызов к модели через FastAPI проще и дешевле. Добавь только Redis-кэш и лимиты. А все остальное — преждевременная оптимизация.

Как понять, что пора переходить?

P99 latency > 10 секунд и продолжает расти.
Ошибки 429/500 составляют > 1%.
Стоимость вызовов превышает $5000/мес и можно сэкономить через роутинг.
Команда DevOps больше не справляется с ручным управлением.

В статье Композируемый и суверенный ИИ хорошо описан переход от пилота к промышленности — как раз про это.

Подписаться на канал