Bolt Graphics GPU с DDR5 SODIMM: расширяемая память для LLM

Тот самый GPU, который ломает шаблон

Bolt Graphics — молодая компания, которая, кажется, прочитала мысли сообщества локальных LLM. Они анонсировали GPU с двумя слотами DDR5 SODIMM на борту. Да, вы не ослышались: видеокарта, в которую можно вставить обычную оперативную память от ноутбука. И это не шутка.

Идея до боли проста: вместо того, чтобы покупать новую карту с 48 ГБ за космические деньги, вы берете модули DDR5 по 32 ГБ каждый и получаете до 64 ГБ (и потенциально больше, если использовать двухранговые модули). Для тех, кто мучается с 10 ГБ на RTX 3080, это звучит как сказка. Но так ли все радужно?

Скорость vs объем: компромисс, о котором молчат

DDR5 — не GDDR7. Пропускная способность даже у лучших модулей (например, DDR5-9600) в разы ниже, чем у видеопамяти той же RTX 4090. Для LLM это критично? Зависит от задачи.

На практике инференс (генерация текста) требует много пропускной способности памяти — каждый токен читает веса модели. Если ваша карта упирается в узкое горлышко DDR5, скорость генерации может упасть с 50 токенов/с до 5-10. Не критично для чат-ботов, но для real-time работы — боль.

Но есть нюанс: объем важнее скорости, когда модель не влезает в VRAM. Если 64 ГБ DDR5 позволяют запустить 70B-модель в 4-битном квантовании (нужно ~35 ГБ), а без апгрейда вы бы не запустили ее вообще, то 5 токенов/с — это победа. Как мы уже писали в гайде по минимальным требованиям VRAM, квантование расширяет границы возможного, но даже после него многие большие модели не помещаются в 24 ГБ.

Bolt Graphics заявляет, что их архитектура использует кэширование и intelligent prefetching, чтобы сгладить разницу в скорости. Хотите верьте, хотите нет.

Кому это вообще нужно?

Ответ: всем, кто мечтал запустить Llama 4 (которая, к слову, уже вышла в версии 405B) локально, но не готов выкладывать $30 000 за серверный NVIDIA H100.

Представьте: вы разрабатываете AI-ассистента для работы с документами с контекстом 256K токенов. Для такого нужно ~80 ГБ памяти. Сейчас единственный путь — Apple M3 Ultra с unified memory (до 192 ГБ), но он стоит как иномарка. Bolt Graphics GPU с парой модулей DDR5 по 64 ГБ даст 128 ГБ за куда меньшие деньги.

Кроме того, это открывает путь для локального дообучения (fine-tuning) небольших моделей (LoRA, QLoRA) прямо на домашнем ПК. Мы уже обсуждали в статье про модифицированные GPU, насколько это геморройно. Здесь же — просто купил планку памяти и вставил.

А что с драйверами и софтом?

Bolt Graphics использует свою архитектуру, несовместимую с CUDA. Это значит, что привычные llama.cpp, Ollama, LM Studio работать не будут. Компания обещает собственный стек с поддержкой PyTorch, TensorFlow и ONNX. Но насколько он зрелый — большой вопрос.

Сообщество уже волнуется: повторит ли Bolt путь Intel с их Arc (кривые драйвера на старте) или сделает как AMD (хорошо, но с задержкой). Пока можно только гадать.

Когда ждать и за сколько?

По последним данным на июнь 2026 года, серийное производство запланировано на Q4 2027. Да, далековато. Но инженерные образцы уже показывают обнадеживающие результаты на тестах llama.cpp (неофициальный форк). Ориентировочная цена флагманской модели с двумя слотами — $1499. Без памяти. Сами модули DDR5 докупаете отдельно.

Для сравнения: RTX 4090 с 24 ГБ стоит примерно $1600, а связка двух 3090 через NVLink — около $2000+ и требует танцев с бубном. Bolt дает 64+ ГБ сразу и без даунвольта.

Что в итоге? Осторожный оптимизм

Bolt Graphics GPU с DDR5 SODIMM — это не серебряная пуля. Но это первый шаг к тому, чтобы видеопамять перестала быть монолитным и неапгрейдимым компонентом. Если компания не провалит софт и выпустит карту в срок, она может стать must-have для энтузиастов LLM.

Мой совет: не делайте предзаказ. Дождитесь независимых тестов, особенно скорости инференса на больших моделях (70B+). Если Bolt справится с узким горлышком DDR5, мы станем свидетелями революции. Если нет — получим дорогую игрушку для запуска Qwen 2.5 с контекстом 1M токенов (и это тоже круто, но для узкого круга).

А пока — следите за новостями. И помните: проблема нехватки VRAM решается не только кошельком, но и инженерной смекалкой. Bolt показал, что смекалка не умерла.

Подписаться на канал

Bolt Graphics показала GPU с DDR5 SODIMM: наконец-то видеопамять можно апгрейдить?