$80 миллионов на то, чтобы железо не простаивало
Еще один стартап в AI-инфраструктуре привлек сумасшедшие деньги. На этот раз $80 миллионов. Gimlet Labs обещает решить одну из самых раздражающих проблем в инференсе - bottlenecks. Но как? Multi-silicon inference cloud. Звучит как маркетинговая чушь, но давайте разберемся.
Bottleneck - это когда ваши дорогие GPU Blackwell на 80% простаивают, потому что память не успевает загружать данные. Знакомо? Gimlet Labs говорит, что это можно исправить.
Проблема: железо, которое не синхронизировано
Вы развернули модель типа Covenant-72B на кластере с последними GPU. Но инференс тормозит. Почему? Потому что система - это не только вычислительные ядра. Это память, сеть, диски. И если одна часть отстает, вся цепочка рушится.
Традиционные облака предлагают вам инстансы с определенным железом: вот GPU, вот CPU, вот ускорители. Вы выбираете один тип и молитесь, чтобы он подошел под вашу нагрузку. Но AI-модели разные: одни требуют много вычислений, другие - много памяти, третьи - и то, и другое. И нагрузка меняется в реальном времени.
Решение: динамическое распределение по всему кремнию
Gimlet Labs не заставляет вас выбирать. Их облако объединяет разные типы процессоров: GPU NVIDIA Blackwell, CPU AMD Epyc, специализированные ускорители вроде Cerebras CS-3 или Google TPU v5. И система в реальном времени анализирует, какая часть задачи куда лучше ляжет.
Технология похожа на то, что делают в Discovery VK для рекомендательных систем, но на уровне инфраструктуры. Или на оптимизации, которые Peer Direct сделал для Gaudi, но автоматически и для любого железа.
Почему это актуально в 2026?
Потому что железо стало разнообразнее. NVIDIA доминирует, но Microsoft Maia 200, Cerebras, AMD - все выпускают чипы для AI. И каждый хорош для своего. Использовать только один тип - все равно что есть суп вилкой.
К тому же, модели растут. Covenant-72B - не предел. А стоимость железа, как показывает статья про AI-железо как валюту, может быть непредсказуемой. Multi-silicon подход позволяет гибко перераспределять нагрузку, экономя деньги.
А что под капотом?
Gimlet Labs использует собственный оркестратор, который мониторит загрузку каждого ядра, памяти, сети. И перебрасывает задачи, как диспетчер в аэропорту. Если GPU перегружены, часть вычислений уходит на CPU. Если модель требует много памяти, ее части хранятся в распределенном кэше.
Они утверждают, что их система снижает задержки на 40% и увеличивает utilization железа с типичных 30-40% до 70-80%. Цифры громкие, но если они правы, это меняет правила игры.
Utilization - ключевой показатель. Чем выше, тем дешевле каждый инференс. В облаках вы платите за время аренды, а не за эффективность. Gimlet Labs продает эффективность.
Станет ли это стандартом?
Вопрос в том, смогут ли они интегрироваться с существующими стеками. Разработчики привыкли к Kubernetes, Docker, стандартным API. Gimlet Labs предлагает свой интерфейс, но обещает совместимость с популярными фреймворками вроде TensorFlow Serving, vLLM 0.4.0, и Triton Inference Server 3.0 (на 2026 год это последние стабильные версии).
Кроме того, есть конкуренты. Крупные облака - AWS, Google Cloud, Microsoft Azure - тоже работают над оптимизацией железа. Например, AWS и NVIDIA с Blackwell уже предлагают специализированные инстансы. Но они не смешивают типы чипов так динамично.
Gimlet Labs bets на то, что гибридный подход выиграет. И инвесторы, вложившие $80M, видимо, верят в это.
Что делать сейчас?
Если вы управляете AI-инфраструктурой, посмотрите на utilization вашего железа. Если он ниже 50%, вы теряете деньги. Возможно, пора задуматься о multi-silicon подходе, даже если не через Gimlet Labs.
Некоторые компании, как эксперты из статьи про локальный AI, предпочитают свои серверы. Но и там можно применять подобные принципы.
Мой прогноз: к концу 2026 года multi-silicon inference станет мейнстримом для компаний с большими нагрузками. А те, кто продолжит использовать однородное железо, будут платить на 30% больше за тот же инференс. Gimlet Labs или нет - но идея правильная.
Только не ждите, что это будет просто. Переход на такую систему потребует пересмотра архитектуры. Но как говорится, лучше сейчас, чем когда счета за облако превысят доходы.