Платить за API GPT-5 стало нереально? Встречайте — альтернатива
Если вы в последний год строили что-то на OpenAI API, то знаете этот холодный пот. Счет приходит. Цены на инференс GPT-5 (актуальная флагманская модель на 03.02.2026) кусаются так, что хочется перейти на калькулятор. 20-30 центов за сложный промпт — это норма. Для стартапа с тысячей пользователей — конец.
Все ищут выход. Роутеры экономят копейки. Локальный запуск требует железо стоимостью с квартиру. А что если собрать все свободные видеокарты мира в одну сеть и продавать их мощность по цене электричества?
Именно это и делает Gonka. Децентрализованная сеть для LLM-инференса, которая по заявлениям авторов, рубит стоимость в 10 раз. Не на 10%, а в 10 раз. Звучит как очередной крипто-скам? Давайте разбираться.
Контекст: Gonka (ранее — Gonka Network) анонсировала закрытый раунд инвестиций на $50 млн от Bitfury и ряда крипто-фондов в январе 2026 года. Сеть находится в ранней альфа-стадии, но уже обрабатывает тестовые запросы.
Как это работает? Не майнинг, а «спринты»
Обычные децентрализованные вычисления (типа Golem) работают так: есть задача, ее дробят, шлют на ноды, собирают результат. С LLM это не прокатит — задержки убьют всю магию.
Gonka использует свою разработку — Transformer-based Proof-of-Work (TPoW). Вместо того чтобы гонять хеши SHA-256, ноды в сети выполняют полезную работу: предсказывают следующие токены в последовательности. По сути, делают то, для чего и созданы LLM.
Но главная фишка — Sprint механизм. Когда в сеть приходит запрос на инференс (например, от вашего приложения), система не ищет одну мощную ноду. Она создает временный кластер из нескольких соседних нод с низкой задержкой (пings < 50 мс). Этот кластер — «спринтер» — обрабатывает ваш запрос как единое целое, распределяя слои трансформера между участниками.
| Компонент | Как работает в Gonka | Альтернатива в классическом облаке |
|---|---|---|
| Вычислительные ноды | Любые GPU с 8+ GB VRAM (от геймерской RTX 4070 до датацентровых H100) | Выделенные инстансы A100/H100 в AWS/GCP |
| Оркестрация | Алгоритм Sprint, динамическое формирование кластеров | Kubernetes + специализированные оркестраторы (например, от Inferact) |
| Модели | Поддерживаются модели в формате GGUF, Safetensors. Заявлена совместимость с Llama 3.1 70B, Mixtral 8x22B, Qwen2.5 72B. | Проприетарные модели (GPT-5, Claude 3.5) или свои, развернутые на vLLM. |
| Оплата | Нативная крипто-единица GNK или стейблкоины (USDC). Тарификация за токен. | Кредитная карта, доллары/евро. Тарификация за токен или за время GPU. |
Цены, которые заставляют пересчитать бюджет
Вот что действительно цепляет. Согласно их публичной тарифной сетке (актуально на февраль 2026):
- Llama 3.1 70B (инференс): ~$0.00015 за 1K выходных токенов
- Mixtral 8x22B: ~$0.0004 за 1K выходных токенов
- Qwen2.5 72B (инструктивная версия): ~$0.0002 за 1K выходных токенов
Теперь сравним с OpenAI GPT-4o-mini (как одна из самых доступных моделей у них): $0.0015 за 1K выходных токенов. Разница в 10 раз. Сравнение с GPT-5 даже проводить страшно — там цифры на порядок выше.
Откуда такая разница? В Gonka нет:
- Зарплат 500 инженерам по надежности
- Аренды дата-центров уровня Tier IV
- Маржи в 80-90%, которую закладывают публичные облака
Есть только стоимость электричества для оператора ноды + небольшая комиссия сети. Все. Рыночная экономика в чистом виде.
Важно: Цены в Gonka плавающие и зависят от спроса/предложения в сети. Ночью в европейском регионе может быть дешевле на 30%. В часы пик — дороже. Есть риск, что при массовом наплыве пользователей экономия сократится.
А что с качеством и скоростью? Пока не идеально
Я протестировал ранний альфа-доступ через их Discord-бот. Запрос на генерацию кода на Python (аналог задачи для GPT-4) на модели Llama 3.1 70B.
Что понравилось:
- Цена — смешная. За 10 запросов списали GNK на эквивалент $0.003.
- Качество кода — сопоставимо с тем, что дает локальный Llama через Ollama. Ничего сверхъестественного, но работает.
Что бесит:
- Задержки (latency). Первый токен может приходить через 2-3 секунды. Весь ответ (200 токенов) — 8-12 секунд. Для чат-интерфейса это смерть. Для фоновой обработки — терпимо.
- Стабильность. Раз в 10-15 запросов соединение с «спринтом» рвется. Приходится повторять.
- Нет потоковой передачи (streaming). Ответ приходит пачкой. Ждать 10 секунд и видеть сразу весь текст — непривычно.
Инженеры Gonka в техническом документе обещают снизить задержки до <1.5 с к концу 2026 года за счет оптимизации протокола Sprint и привлечения нод с более быстрым межсоединением (InfiniBand).
Кому подойдет Gonka прямо сейчас?
Не всем. Если вам нужен мгновенный чат-бот для поддержки клиентов — забудьте. Смотрите в сторону классических стратегий развертывания или даже железных ускорителей от NVIDIA.
А вот эти сценарии — идеальны:
- Пакетная обработка данных. Нужно проанализировать 10 000 отзывов, извлечь сущности, классифицировать. Задержка в 10 секунд на отзыв не критична, а экономия на счете — огромна.
- Эксперименты с большими open-source моделями. Хотите попробовать Qwen2.5 72B, но нет 2х A100? Gonka дает доступ за копейки.
- Резервный канал инференса. Основной поток — через дорогой и стабильный OpenAI. Пиковые нагрузки или фоновые задачи — скидываем на Gonka.
- Стартапы на pre-seed стадии. Когда каждый доллар на счету, а функциональность «умного» анализа текста нужна уже вчера.
Конкуренты? Их почти нет в этой нише
Прямых аналогов с таким же подходом (децентрализованный инференс с TPoW) на рынке нет. Но есть соседи по полке:
- Together.ai, Fireworks.ai — предлагают инференс open-source моделей в облаке. Дешевле OpenAI, но дороже Gonka в 3-5 раз. Зато стабильнее и с нормальным API.
- Прямой локальный хостинг через vLLM/Inferact — дает полный контроль и низкую задержку, но требует капитальных затрат на железо и экспертизу.
- Классические облака (AWS Bedrock, GCP Vertex AI) — дорого, но «как у взрослых». SLA, мониторинг, интеграции.
Gonka занимает уникальную позицию: максимально дешево, максимально гибко (любая модель из сообщества), но с компромиссом по стабильности.
Что будет дальше? Риски и потенциал
С $50 млн от Bitfury Gonka явно планирует не просто существовать, а масштабироваться. Их роадмап на 2026-2027:
- Внедрение механизма «устойчивых спринтов» — предварительно созданных кластеров для снижения задержки.
- Поддержка проприетарных модельных форматов (возможно, даже своих).
- Прямые интеграции с фреймворками типа LangChain, LlamaIndex.
- Создание децентрализованного маркетплейса моделей, где авторы смогут зарабатывать на своих чекпоинтах.
Главные риски:
- Регуляторный. Запуск моделей без фильтров в децентрализованной сети — красная тряпка для законодателей.
- Технологический. Сможет ли Sprint-механика работать при 100 000 одновременных запросов? Пока не ясно.
- Экономический. Если стоимость GNK-токена взлетит в 100 раз, станет ли инференс дороже облачного? Возможно.
Мой прогноз? К концу 2026 года Gonka займет нишу «бюджетного инференса для не-time-sensitive задач». Они не убьют OpenAI, но заставят крупных игроков серьезно задуматься о ценообразовании. А для инженеров и стартаперов появится еще один инструмент в арсенале — когда нужно масштабироваться без масштабных затрат.
Попробовать сейчас можно через их Discord. Только не удивляйтесь, если бот иногда будет «думать» 15 секунд. Зато счет за эти раздумья будет смешным.