Память исчезает. Скорость — тоже
Если вы думали, что цены на видеокарты уже достигли дна абсурда, то у SK Hynix для вас плохие новости. На прошлой неделе их финансовый директор, выступая перед инвесторами, фактически похоронил надежды на доступное железо для ИИ до конца десятилетия. Дефицит памяти, особенно HBM и GDDR7, — это не временная аномалия. Это новая реальность до 2030 года. И локальным LLM в этой реальности придется туго.
Спойлер: ваш план собрать сервер на четырех RTX 6090 (когда они выйдут) обойдется дороже, чем аренда небольшого дата-центра в 2024 году. Если вы вообще найдете эти карты в продаже.
Что на самом деле сказал рынок
Заявление SK Hynix — не просто слова. Это публичное признание того, что спрос на память для ИИ (читай: для обучение GPT-5, Gemini 3.0 и им подобных монстров) превысит предложение на 30-40% как минимум до 2028 года. А после — дефицит просто трансформируется. Из острого станет хроническим. Потому что фабрик не построили вчера. И даже если начать сегодня, к 2030 они только-только выйдут на полную мощность.
Это бьет точно в цель. HBM3e — это кровь современных ускорителей вроде NVIDIA H200 или AMD MI350. Без него нет скорости. А без скорости запустить локально Llama 4 400B или Mistral 3 Ultra — это как пытаться загрузить фильм в 4K через dial-up модем. Теоретически возможно. Практически — мучительно.
| Тип памяти | Пик дефицита | Прогноз роста цен (2026-2028) | Что пострадает |
|---|---|---|---|
| HBM3e / HBM4 | 2027-2029 | 50-80% | Серверные GPU, AI-ускорители |
| GDDR7 | 2026-2027 | 30-50% | Игровые и энтузиастские карты (RTX 6090, RX 9900) |
| DDR5 | 2026 | 15-25% | Системная память для AI-PC и рабочих станций |
Результат? Цены на готовые системы взлетят. Ожидайте, что конфигурация для запуска 70-миллиардных параметров моделей (стандарт для 2026 года) будет стоить на 60% дороже, чем аналогичная мощность в 2025-м. Об этом мы уже писали в материале про рост цен на GPU на 60%. Теперь прогноз выглядит даже оптимистичным.
Локальные LLM: возвращение в облако?
Ирония ситуации в том, что хайп вокруг локального ИИ породил сам себя. Компании вроде Meta, выпуская открытые веса Llama 4, дали инструменты. Сообщество подхватило. Но железо для этого инструментария вдруг стало золотым. И теперь выбор прост: либо ты платишь за железо вперед на годы (что по карману только корпорациям), либо возвращаешься к облачным API, где цены тоже кусаются, но хоть CAPEX нулевой.
Забудьте про запуск «тяжелых» моделей на домашнем ПК. Мечты о том, что у каждого на столе будет персонализированный ИИ-ассистент уровня GPT-5, работающий оффлайн, разбиваются о жесткий HBM-голод. Даже квантование и новые форматы, вроде IQ4, помогают, но не спасают. Потому что модели растут быстрее, чем эффективность сжатия.
Кто выживет? Стратегии адаптации
Сообществу хомлабов и стартапов придется стать изворотливее. Вот что будет работать в ближайшие 4 года:
- Гибридные схемы. Не весь конвейер должен работать локально. Используйте локальную модель (например, квантованную Qwen 3 32B) для предобработки и рутинных задач, а тяжелые вычисления отправляйте в облако через API. Это снизит требования к памяти.
- Фокус на эффективность, а не размер. Гонка за параметрами закончилась. Актуальные модели 2026 года, вроде Mistral 3 Small или Llama 4 8B, показывают, что можно добиться многого с меньшим footprint. Оптимизация под конкретную задачу станет ключевым навыком.
- Альтернативное железо. Внимательно смотрите на архитектуры, не зависящие от HBM. Например, Apple с ее Unified Memory в M4 Ultra или перспективные чипы на базе RRAM и MRAM. Это долгий путь, но он того стоит.
Крупные игроки вроде NVIDIA уже реагируют. Их стратегия замедления релизов игровых карт (о чем мы уже рассказывали) — прямое следствие этого кризиса. Ресурсы памяти перебрасываются на прибыльные AI-ускорители. Для нас, конечных пользователей, это значит одно: выбор станет скуднее.
Итог: новая математика стоимости
Дефицит памяти переписывает экономику локального ИИ. Раньше считали стоимость за токен. Теперь считают стоимость за гигабайт VRAM в час владения. И эта цифра растет экспоненциально.
Что делать сегодня? Пересмотрите свои дорожные карты. Если вы рассчитывали на масштабирование локальной инфраструктуры к 2028 году — у вас проблемы. Инвестируйте в оптимизацию ПО, а не в закупку железа. Изучайте методы, снижающие требования к памяти, например, более агрессивное квантование или переоценку реальных потребностей в VRAM.
Кризис памяти до 2030 — это не апокалипсис. Это фильтр. Он отделит тех, кто играет в ИИ, от тех, кто строит на нем бизнес. Вторые найдут способ. Даже если для этого придется забыть о гигапараметрах и вспомнить об алгоритмической элегантности.
Прогноз основан на публичных заявлениях SK Hynix, анализе рынка полупроводников на март 2026 года и данных от ключевых производителей GPU. Актуальность информации гарантируется на 17.03.2026.