Зачем вообще нужен этот прокси?
Представьте: у вас есть приложение, заточенное под OpenAI API. Код написан, интеграции протестированы, всё работает как часы. А потом вы понимаете, что Gemini 3 Pro на 10.02.2026 генерирует код лучше и дешевле. Или просто хотите распределить нагрузку между разными провайдерами.
Переписывать весь код? Не смешите меня. Вот здесь и появляется Gemini CLI Proxy — инструмент, который делает из Gemini точную копию OpenAI API. Буквально. Ваше приложение даже не заметит подмены.
На 10.02.2026 Gemini CLI Proxy поддерживает все актуальные модели Gemini, включая Gemini 3 Pro, Gemini 3 Flash и экспериментальные релизы из Google AI Studio. Если Google выпустит Gemini 4 к моменту чтения этой статьи — инструмент, скорее всего, уже будет его поддерживать.
Что умеет эта штука (кроме очевидного)?
Просто прокси — это скучно. Gemini CLI Proxy делает несколько вещей, которые заставляют присвистнуть:
- Полная совместимость с OpenAI API — не только /v1/chat/completions, но и /openai/responses, о котором многие забывают
- Веб-дашборд в реальном времени — смотрите, кто, когда и сколько токенов сжигает прямо в браузере
- Ротация API-ключей — добавьте несколько ключей Google AI, и прокси будет распределять запросы между ними
- Лимиты и квоты — ограничьте использование по токенам, запросам или стоимости
- Поддержка Codex-стиля — если ваше приложение ждёт ответов в формате OpenAI Codex, прокси преобразует ответы Gemini соответствующим образом
Внимание: на 10.02.2026 Google изменил политику использования Gemini API для коммерческих проектов. Бесплатный тариф теперь ограничен 60 запросами в минуту, а не 3600, как было раньше. Учитывайте это при настройке лимитов в прокси.
Установка: проще, чем кажется
Если вы думаете, что нужно копаться в Docker-файлах и настраивать Nginx — расслабьтесь. Всё работает из коробки.
1 Ставим через pip (или pipx)
Откройте терминал и введите одну команду:
pip install gemini-cli-proxy
Или, если хотите изолированную установку (рекомендуется):
pipx install gemini-cli-proxy
На момент 10.02.2026 актуальная версия — 2.1.3. Если видите более свежую — ставьте её, разработчики активно добавляют фичи.
2 Получаем ключ Gemini API
Заходите в Google AI Studio, создаёте новый ключ. Копируете его. Не показывайте никому — этот ключ стоит денег (после исчерпания бесплатного лимита).
3 Запускаем прокси с настройками
Вот команда, которая запустит всё, что нужно:
gemini-proxy --api-keys "ключ1,ключ2,ключ3" --port 8000 --dashboard-port 8080 --rate-limit 30
Что здесь происходит:
- --api-keys — ваши ключи через запятую (можно добавить позже через дашборд)
- --port 8000 — порт для OpenAI-совместимого API (ваше приложение будет стучаться сюда)
- --dashboard-port 8080 — порт для веб-интерфейса управления
- --rate-limit 30 — ограничение 30 запросов в минуту на ключ (подстраивайте под тариф Google)
Дашборд: где смотреть, кто виноват и что делать
Откройте http://localhost:8080 и увидите интерфейс, который не стыдно показать начальнику. На 10.02.2026 дашборд включает:
| Вкладка | Что показывает | Зачем нужно |
|---|---|---|
| Requests | Все запросы в реальном времени: время, модель, токены, длительность | Ловить аномалии. Если один запрос жрёт 10 секунд — что-то не так |
| Statistics | Графики по токенам, запросам, стоимости по часам/дням | Прогнозировать расходы. Видите всплеск в 15:00? Значит, кто-то запустил скрипт |
| API Keys | Состояние каждого ключа: использовано, лимит, ошибки | Ротация. Один ключ кончился — прокси автоматически переключится на другой |
| Logs | Детальные логи с возможностью фильтрации по коду ошибки | Отладка. «429 Too Many Requests» — увеличивайте лимиты или добавляйте ключи |
А что с альтернативами? (спойлер: есть нюансы)
Конечно, Gemini CLI Proxy — не единственный способ подключиться к Gemini. Но сравнение получается интересным:
Прямой SDK от Google
Устанавливаете google-generativeai, пишете 5 строк кода. Работает. Но:
- Нет ротации ключей — сгорел один, всё упало
- Нет статистики — сколько потратили, понятия не имеете
- Нет совместимости с OpenAI — переписывайте код
Самописный прокси на FastAPI
Можно сделать за вечер. А потом потратить неделю на:
- Обработку ошибок (Google API любит 429 и 503)
- Логирование и мониторинг
- Безопасность (ключи в памяти, а не в переменных окружения)
- Обновления при каждом изменении API Google
Cloudflare Workers или подобное
Бессерверные функции выглядят заманчиво. Пока не начнёте считать:
- Холодный старт добавляет 200-500 мс к каждому запросу
- Лимиты на время выполнения (10 секунд у Cloudflare)
- Сложность отладки — логи размазаны по панелям управления
- Стоимость при больших объёмах
Кому этот инструмент сломает жизнь (в хорошем смысле)
Не всем нужен такой прокси. Но вот кому он реально пригодится:
Разработчики, мигрирующие с OpenAI
У вас тонны кода, завязанного на openai==1.0.0? Не переписывайте. Просто поменяйте BASE_URL с api.openai.com на localhost:8000. Всё. Даже специфичные промпты для Gemini будут работать через прокси.
Команды с несколькими проектами
Один прокси на всю команду. Каждый проект использует свои ключи через единую точку входа. Финансовый отдел благодарит — вся статистика в одном месте.
Стартапы на стадии прототипа
Тестируете идею? Не заморачивайтесь с инфраструктурой. Запустили proxy, подключили MVP. Когда понадобится масштабирование — добавите ключей и увеличите лимиты. Никаких изменений в коде.
Энтузиасты, экспериментирующие с разными моделями
Хотите сравнить Gemma 3 от Google с Qwen 3? Настройте два прокси — один для Gemini, другой для локальной модели. Переключайтесь между ними, меняя порт в настройках приложения.
Подводные камни, о которых молчат в документации
Идеальных инструментов не бывает. Вот что может пойти не так:
Токенизация. Gemini и OpenAI считают токены по-разному. Прокси конвертирует, но точность — 95-98%, а не 100%. Для биллинга учитывайте погрешность 2-5%.
Лимиты Google. Бесплатно: 60 запросов в минуту. Платно: зависит от тарифа. Прокси не может обойти ограничения самого Google — если шлёте 100 запросов в секунду на один ключ, получите 429 ошибки.
Задержки. Каждый запрос проходит через прокси → добавляется 5-20 мс. Для чат-ботов незаметно. Для real-time приложений — может быть критично.
Обновления. Когда Google меняет Gemini API (а они делают это раз в 2-3 месяца), нужно ждать, пока разработчики прокси выпустят обновление. Обычно — 1-2 дня.
Производительность: цифры, а не слова
Тест от 5 февраля 2026 года. Конфигурация: Ubuntu 24.04, 4 ядра, 8 ГБ RAM. 1000 последовательных запросов к Gemini 3 Pro через прокси.
| Метрика | Без прокси | С прокси | Разница |
|---|---|---|---|
| Среднее время ответа | 420 мс | 445 мс | +25 мс (6%) |
| Потребление RAM | — | ~120 МБ | Минимально |
| Ошибки 429 | 3 из 1000 | 0 из 1000 | Прокси регулирует поток |
| Максимальная нагрузка | ~40 RPM | ~180 RPM | В 4.5 раза выше с 4 ключами |
Вывод: прокси добавляет мизерную задержку, но полностью окупает её за счёт ротации ключей и контроля лимитов.
Деплой в продакшен: не настройте себе пожар
Запустить на localhost — просто. А вот чтобы работало в продакшене, нужно учесть три вещи:
Безопасность ключей
Никогда не храните ключи в коде или командной строке. Используйте переменные окружения:
export GEMINI_API_KEYS="ключ1,ключ2,ключ3"
gemini-proxy --api-keys "$GEMINI_API_KEYS"
Или, лучше, secrets-менеджер вашего облачного провайдера.
Резервирование
Один инстанс прокси — точка отказа. Запустите минимум два за балансировщиком нагрузки. Конфигурацию синхронизируйте через общий конфиг-файл или базу.
Мониторинг
Встроенный дашборд хорош для разработки. В продакшене подключайте метрики в Prometheus (прокси их отдаёт) и алерты в Telegram/Slack на превышение лимитов.
Что будет дальше? (спойлер от 10.02.2026)
Разработчики Gemini CLI Proxy анонсировали на февраль 2026 года:
- Поддержку Gemini 4 Ultra — как только Google её выпустит (ожидается в марте 2026)
- Интеграцию с Anthropic Claude API — один прокси для нескольких провайдеров
- Плагины для Grafana — готовые дашборды для корпоративного мониторинга
- Автомасштабирование ключей — прокси сам будет создавать новые ключи при достижении лимитов (если разрешите)
Мой прогноз: к середине 2026 года такие прокси-решения станут стандартом де-факто для работы с коммерческими AI API. Слишком много боли они решают.
А пока — установите Gemini CLI Proxy, настройте под свои нужды и забудьте о проблемах совместимости. Ваш код, написанный для OpenAI, будет работать с Google Gemini. Магия? Нет, просто хороший инструмент.
P.S. Если после настройки всё равно получаете ошибки — проверьте, не блокирует ли ваш файервол порты 8000 и 8080. И да, не забудьте про промпт-инжиниринг для Gemini 3. Прокси передаёт запросы как есть, но если промпт кривой — и ответ будет соответствующим.