Gonka: децентрализованный LLM-инференс в 10 раз дешевле | AiManual
AiManual Logo Ai / Manual.
03 Фев 2026 Инструмент

Gonka: как децентрализованная сеть снижает стоимость LLM-инференса в 10 раз

Обзор Gonka — децентрализованной сети для запуска LLM с Transformer Proof-of-Work. Сравнение с OpenAI, снижение затрат на 90%, инвестиции Bitfury.

Платить за API GPT-5 стало нереально? Встречайте — альтернатива

Если вы в последний год строили что-то на OpenAI API, то знаете этот холодный пот. Счет приходит. Цены на инференс GPT-5 (актуальная флагманская модель на 03.02.2026) кусаются так, что хочется перейти на калькулятор. 20-30 центов за сложный промпт — это норма. Для стартапа с тысячей пользователей — конец.

Все ищут выход. Роутеры экономят копейки. Локальный запуск требует железо стоимостью с квартиру. А что если собрать все свободные видеокарты мира в одну сеть и продавать их мощность по цене электричества?

Именно это и делает Gonka. Децентрализованная сеть для LLM-инференса, которая по заявлениям авторов, рубит стоимость в 10 раз. Не на 10%, а в 10 раз. Звучит как очередной крипто-скам? Давайте разбираться.

Контекст: Gonka (ранее — Gonka Network) анонсировала закрытый раунд инвестиций на $50 млн от Bitfury и ряда крипто-фондов в январе 2026 года. Сеть находится в ранней альфа-стадии, но уже обрабатывает тестовые запросы.

Как это работает? Не майнинг, а «спринты»

Обычные децентрализованные вычисления (типа Golem) работают так: есть задача, ее дробят, шлют на ноды, собирают результат. С LLM это не прокатит — задержки убьют всю магию.

Gonka использует свою разработку — Transformer-based Proof-of-Work (TPoW). Вместо того чтобы гонять хеши SHA-256, ноды в сети выполняют полезную работу: предсказывают следующие токены в последовательности. По сути, делают то, для чего и созданы LLM.

Но главная фишка — Sprint механизм. Когда в сеть приходит запрос на инференс (например, от вашего приложения), система не ищет одну мощную ноду. Она создает временный кластер из нескольких соседних нод с низкой задержкой (пings < 50 мс). Этот кластер — «спринтер» — обрабатывает ваш запрос как единое целое, распределяя слои трансформера между участниками.

Компонент Как работает в Gonka Альтернатива в классическом облаке
Вычислительные ноды Любые GPU с 8+ GB VRAM (от геймерской RTX 4070 до датацентровых H100) Выделенные инстансы A100/H100 в AWS/GCP
Оркестрация Алгоритм Sprint, динамическое формирование кластеров Kubernetes + специализированные оркестраторы (например, от Inferact)
Модели Поддерживаются модели в формате GGUF, Safetensors. Заявлена совместимость с Llama 3.1 70B, Mixtral 8x22B, Qwen2.5 72B. Проприетарные модели (GPT-5, Claude 3.5) или свои, развернутые на vLLM.
Оплата Нативная крипто-единица GNK или стейблкоины (USDC). Тарификация за токен. Кредитная карта, доллары/евро. Тарификация за токен или за время GPU.

Цены, которые заставляют пересчитать бюджет

Вот что действительно цепляет. Согласно их публичной тарифной сетке (актуально на февраль 2026):

  • Llama 3.1 70B (инференс): ~$0.00015 за 1K выходных токенов
  • Mixtral 8x22B: ~$0.0004 за 1K выходных токенов
  • Qwen2.5 72B (инструктивная версия): ~$0.0002 за 1K выходных токенов

Теперь сравним с OpenAI GPT-4o-mini (как одна из самых доступных моделей у них): $0.0015 за 1K выходных токенов. Разница в 10 раз. Сравнение с GPT-5 даже проводить страшно — там цифры на порядок выше.

Откуда такая разница? В Gonka нет:

  • Зарплат 500 инженерам по надежности
  • Аренды дата-центров уровня Tier IV
  • Маржи в 80-90%, которую закладывают публичные облака

Есть только стоимость электричества для оператора ноды + небольшая комиссия сети. Все. Рыночная экономика в чистом виде.

Важно: Цены в Gonka плавающие и зависят от спроса/предложения в сети. Ночью в европейском регионе может быть дешевле на 30%. В часы пик — дороже. Есть риск, что при массовом наплыве пользователей экономия сократится.

А что с качеством и скоростью? Пока не идеально

Я протестировал ранний альфа-доступ через их Discord-бот. Запрос на генерацию кода на Python (аналог задачи для GPT-4) на модели Llama 3.1 70B.

Что понравилось:

  • Цена — смешная. За 10 запросов списали GNK на эквивалент $0.003.
  • Качество кода — сопоставимо с тем, что дает локальный Llama через Ollama. Ничего сверхъестественного, но работает.

Что бесит:

  • Задержки (latency). Первый токен может приходить через 2-3 секунды. Весь ответ (200 токенов) — 8-12 секунд. Для чат-интерфейса это смерть. Для фоновой обработки — терпимо.
  • Стабильность. Раз в 10-15 запросов соединение с «спринтом» рвется. Приходится повторять.
  • Нет потоковой передачи (streaming). Ответ приходит пачкой. Ждать 10 секунд и видеть сразу весь текст — непривычно.

Инженеры Gonka в техническом документе обещают снизить задержки до <1.5 с к концу 2026 года за счет оптимизации протокола Sprint и привлечения нод с более быстрым межсоединением (InfiniBand).

Кому подойдет Gonka прямо сейчас?

Не всем. Если вам нужен мгновенный чат-бот для поддержки клиентов — забудьте. Смотрите в сторону классических стратегий развертывания или даже железных ускорителей от NVIDIA.

А вот эти сценарии — идеальны:

  1. Пакетная обработка данных. Нужно проанализировать 10 000 отзывов, извлечь сущности, классифицировать. Задержка в 10 секунд на отзыв не критична, а экономия на счете — огромна.
  2. Эксперименты с большими open-source моделями. Хотите попробовать Qwen2.5 72B, но нет 2х A100? Gonka дает доступ за копейки.
  3. Резервный канал инференса. Основной поток — через дорогой и стабильный OpenAI. Пиковые нагрузки или фоновые задачи — скидываем на Gonka.
  4. Стартапы на pre-seed стадии. Когда каждый доллар на счету, а функциональность «умного» анализа текста нужна уже вчера.

Конкуренты? Их почти нет в этой нише

Прямых аналогов с таким же подходом (децентрализованный инференс с TPoW) на рынке нет. Но есть соседи по полке:

  • Together.ai, Fireworks.ai — предлагают инференс open-source моделей в облаке. Дешевле OpenAI, но дороже Gonka в 3-5 раз. Зато стабильнее и с нормальным API.
  • Прямой локальный хостинг через vLLM/Inferact — дает полный контроль и низкую задержку, но требует капитальных затрат на железо и экспертизу.
  • Классические облака (AWS Bedrock, GCP Vertex AI) — дорого, но «как у взрослых». SLA, мониторинг, интеграции.

Gonka занимает уникальную позицию: максимально дешево, максимально гибко (любая модель из сообщества), но с компромиссом по стабильности.

💡
Совет: Не стройте на Gonka бизнес-критичные процессы в 2026 году. Используйте ее для cost-optimization уже работающих потоков или для прототипирования. Мониторьте их статус-панель — там видна загрузка сети и среднее время ответа.

Что будет дальше? Риски и потенциал

С $50 млн от Bitfury Gonka явно планирует не просто существовать, а масштабироваться. Их роадмап на 2026-2027:

  • Внедрение механизма «устойчивых спринтов» — предварительно созданных кластеров для снижения задержки.
  • Поддержка проприетарных модельных форматов (возможно, даже своих).
  • Прямые интеграции с фреймворками типа LangChain, LlamaIndex.
  • Создание децентрализованного маркетплейса моделей, где авторы смогут зарабатывать на своих чекпоинтах.

Главные риски:

  • Регуляторный. Запуск моделей без фильтров в децентрализованной сети — красная тряпка для законодателей.
  • Технологический. Сможет ли Sprint-механика работать при 100 000 одновременных запросов? Пока не ясно.
  • Экономический. Если стоимость GNK-токена взлетит в 100 раз, станет ли инференс дороже облачного? Возможно.

Мой прогноз? К концу 2026 года Gonka займет нишу «бюджетного инференса для не-time-sensitive задач». Они не убьют OpenAI, но заставят крупных игроков серьезно задуматься о ценообразовании. А для инженеров и стартаперов появится еще один инструмент в арсенале — когда нужно масштабироваться без масштабных затрат.

Попробовать сейчас можно через их Discord. Только не удивляйтесь, если бот иногда будет «думать» 15 секунд. Зато счет за эти раздумья будет смешным.