Платить за API GPT-5 стало нереально? Встречайте — альтернатива

Если вы в последний год строили что-то на OpenAI API, то знаете этот холодный пот. Счет приходит. Цены на инференс GPT-5 (актуальная флагманская модель на 03.02.2026) кусаются так, что хочется перейти на калькулятор. 20-30 центов за сложный промпт — это норма. Для стартапа с тысячей пользователей — конец.

Все ищут выход. Роутеры экономят копейки. Локальный запуск требует железо стоимостью с квартиру. А что если собрать все свободные видеокарты мира в одну сеть и продавать их мощность по цене электричества?

Именно это и делает Gonka. Децентрализованная сеть для LLM-инференса, которая по заявлениям авторов, рубит стоимость в 10 раз. Не на 10%, а в 10 раз. Звучит как очередной крипто-скам? Давайте разбираться.

Контекст: Gonka (ранее — Gonka Network) анонсировала закрытый раунд инвестиций на $50 млн от Bitfury и ряда крипто-фондов в январе 2026 года. Сеть находится в ранней альфа-стадии, но уже обрабатывает тестовые запросы.

Как это работает? Не майнинг, а «спринты»

Обычные децентрализованные вычисления (типа Golem) работают так: есть задача, ее дробят, шлют на ноды, собирают результат. С LLM это не прокатит — задержки убьют всю магию.

Gonka использует свою разработку — Transformer-based Proof-of-Work (TPoW). Вместо того чтобы гонять хеши SHA-256, ноды в сети выполняют полезную работу: предсказывают следующие токены в последовательности. По сути, делают то, для чего и созданы LLM.

Но главная фишка — Sprint механизм. Когда в сеть приходит запрос на инференс (например, от вашего приложения), система не ищет одну мощную ноду. Она создает временный кластер из нескольких соседних нод с низкой задержкой (пings < 50 мс). Этот кластер — «спринтер» — обрабатывает ваш запрос как единое целое, распределяя слои трансформера между участниками.

Компонент	Как работает в Gonka	Альтернатива в классическом облаке
Вычислительные ноды	Любые GPU с 8+ GB VRAM (от геймерской RTX 4070 до датацентровых H100)	Выделенные инстансы A100/H100 в AWS/GCP
Оркестрация	Алгоритм Sprint, динамическое формирование кластеров	Kubernetes + специализированные оркестраторы (например, от Inferact)
Модели	Поддерживаются модели в формате GGUF, Safetensors. Заявлена совместимость с Llama 3.1 70B, Mixtral 8x22B, Qwen2.5 72B.	Проприетарные модели (GPT-5, Claude 3.5) или свои, развернутые на vLLM.
Оплата	Нативная крипто-единица GNK или стейблкоины (USDC). Тарификация за токен.	Кредитная карта, доллары/евро. Тарификация за токен или за время GPU.

Цены, которые заставляют пересчитать бюджет

Вот что действительно цепляет. Согласно их публичной тарифной сетке (актуально на февраль 2026):

Llama 3.1 70B (инференс): ~$0.00015 за 1K выходных токенов
Mixtral 8x22B: ~$0.0004 за 1K выходных токенов
Qwen2.5 72B (инструктивная версия): ~$0.0002 за 1K выходных токенов

Теперь сравним с OpenAI GPT-4o-mini (как одна из самых доступных моделей у них): $0.0015 за 1K выходных токенов. Разница в 10 раз. Сравнение с GPT-5 даже проводить страшно — там цифры на порядок выше.

Откуда такая разница? В Gonka нет:

Зарплат 500 инженерам по надежности
Аренды дата-центров уровня Tier IV
Маржи в 80-90%, которую закладывают публичные облака

Есть только стоимость электричества для оператора ноды + небольшая комиссия сети. Все. Рыночная экономика в чистом виде.

Важно: Цены в Gonka плавающие и зависят от спроса/предложения в сети. Ночью в европейском регионе может быть дешевле на 30%. В часы пик — дороже. Есть риск, что при массовом наплыве пользователей экономия сократится.

А что с качеством и скоростью? Пока не идеально

Я протестировал ранний альфа-доступ через их Discord-бот. Запрос на генерацию кода на Python (аналог задачи для GPT-4) на модели Llama 3.1 70B.

Что понравилось:

Цена — смешная. За 10 запросов списали GNK на эквивалент $0.003.
Качество кода — сопоставимо с тем, что дает локальный Llama через Ollama. Ничего сверхъестественного, но работает.

Что бесит:

Задержки (latency). Первый токен может приходить через 2-3 секунды. Весь ответ (200 токенов) — 8-12 секунд. Для чат-интерфейса это смерть. Для фоновой обработки — терпимо.
Стабильность. Раз в 10-15 запросов соединение с «спринтом» рвется. Приходится повторять.
Нет потоковой передачи (streaming). Ответ приходит пачкой. Ждать 10 секунд и видеть сразу весь текст — непривычно.

Инженеры Gonka в техническом документе обещают снизить задержки до <1.5 с к концу 2026 года за счет оптимизации протокола Sprint и привлечения нод с более быстрым межсоединением (InfiniBand).

Кому подойдет Gonka прямо сейчас?

Не всем. Если вам нужен мгновенный чат-бот для поддержки клиентов — забудьте. Смотрите в сторону классических стратегий развертывания или даже железных ускорителей от NVIDIA.

А вот эти сценарии — идеальны:

Пакетная обработка данных. Нужно проанализировать 10 000 отзывов, извлечь сущности, классифицировать. Задержка в 10 секунд на отзыв не критична, а экономия на счете — огромна.
Эксперименты с большими open-source моделями. Хотите попробовать Qwen2.5 72B, но нет 2х A100? Gonka дает доступ за копейки.
Резервный канал инференса. Основной поток — через дорогой и стабильный OpenAI. Пиковые нагрузки или фоновые задачи — скидываем на Gonka.
Стартапы на pre-seed стадии. Когда каждый доллар на счету, а функциональность «умного» анализа текста нужна уже вчера.

Конкуренты? Их почти нет в этой нише

Прямых аналогов с таким же подходом (децентрализованный инференс с TPoW) на рынке нет. Но есть соседи по полке:

Together.ai, Fireworks.ai — предлагают инференс open-source моделей в облаке. Дешевле OpenAI, но дороже Gonka в 3-5 раз. Зато стабильнее и с нормальным API.
Прямой локальный хостинг через vLLM/Inferact — дает полный контроль и низкую задержку, но требует капитальных затрат на железо и экспертизу.
Классические облака (AWS Bedrock, GCP Vertex AI) — дорого, но «как у взрослых». SLA, мониторинг, интеграции.

Gonka занимает уникальную позицию: максимально дешево, максимально гибко (любая модель из сообщества), но с компромиссом по стабильности.

💡

Совет: Не стройте на Gonka бизнес-критичные процессы в 2026 году. Используйте ее для cost-optimization уже работающих потоков или для прототипирования. Мониторьте их статус-панель — там видна загрузка сети и среднее время ответа.

Что будет дальше? Риски и потенциал

С $50 млн от Bitfury Gonka явно планирует не просто существовать, а масштабироваться. Их роадмап на 2026-2027:

Внедрение механизма «устойчивых спринтов» — предварительно созданных кластеров для снижения задержки.
Поддержка проприетарных модельных форматов (возможно, даже своих).
Прямые интеграции с фреймворками типа LangChain, LlamaIndex.
Создание децентрализованного маркетплейса моделей, где авторы смогут зарабатывать на своих чекпоинтах.

Главные риски:

Регуляторный. Запуск моделей без фильтров в децентрализованной сети — красная тряпка для законодателей.
Технологический. Сможет ли Sprint-механика работать при 100 000 одновременных запросов? Пока не ясно.
Экономический. Если стоимость GNK-токена взлетит в 100 раз, станет ли инференс дороже облачного? Возможно.

Мой прогноз? К концу 2026 года Gonka займет нишу «бюджетного инференса для не-time-sensitive задач». Они не убьют OpenAI, но заставят крупных игроков серьезно задуматься о ценообразовании. А для инженеров и стартаперов появится еще один инструмент в арсенале — когда нужно масштабироваться без масштабных затрат.

Попробовать сейчас можно через их Discord. Только не удивляйтесь, если бот иногда будет «думать» 15 секунд. Зато счет за эти раздумья будет смешным.

Gonka: как децентрализованная сеть снижает стоимость LLM-инференса в 10 раз