2025: год, когда железо для ИИ стало политикой
Помните 2024? Очереди за RTX 4090, спекулянты на eBay, молитвы о появлении карты с 48 ГБ VRAM. Все это кажется детской забавой. В 2025 году рынок чипов для ИИ превратился в геополитическое поле боя, где решения принимаются не в Санта-Кларе, а в Вашингтоне и Пекине.
Ирония в том, что пока энтузиасты локальных LLM обсуждали квантование Q4_K_M и контекстные окна, реальные битвы шли за доступ к TSMC и лицензии на экспорт. Результат? Цены на железо для локального ИИ стали непредсказуемыми, как криптовалюта в 2021.
Ключевой факт 2025: экспортные ограничения на AI-чипы ужесточились в январе. Теперь под запрет попадают не только флагманские H200, но и некоторые конфигурации L40S. Да, те самые, которые использовались в серверах для инференса.
NVIDIA: монополист в осаде
В теории у NVIDIA все прекрасно. Vera Rubin (кодовое имя Blackwell Next) показала на 40% лучшую энергоэффективность при инференсе LLM. H200 с 141 ГБ HBM3e стал стандартом для облачных провайдеров. А вот на практике...
Практика выглядит так: цены на RTX 4090 на вторичном рынке достигли $3500 в начале года. Новые поставки в розницу? Шутка. Весь объем уходил корпоративным клиентам и дата-центрам. Потому что маржинальность там в 3 раза выше.
Самое смешное (если это можно так назвать): пока все обсуждали Vera Rubin, реальные проблемы были у L40S. Эти карты идеально подходили для локального инференса - 48 ГБ GDDR6, умеренное энергопотребление. И именно их экспортные ограничения ударили сильнее всего.
Intel: неожиданный претендент
Если бы в январе 2025 кто-то сказал, что Intel станет спасителем энтузиастов локального ИИ, его бы подняли на смех. Но Panther Lake изменил правила игры.
Не процессор, конечно. А встроенный NPU Xe4 с 128 TOPS и поддержкой Intel Arc технологий. Внезапно оказалось, что для запуска квантованных 7B-13B моделей не нужна дискретная карта. Достаточно ноутбука за $1200.
| Платформа | Доступность в 2025 | Цена за токен (Llama 3.2 3B) | Проблемы |
|---|---|---|---|
| NVIDIA RTX 4090 | Дефицит, +60% к MSRP | ~$0.0001 | Цена, доступность, энергопотребление |
| Intel Panther Lake (NPU) | Широкая, с Q2 2025 | ~$0.0003 | Только малые модели, ограниченный контекст |
| AMD RX 7900 XTX | Нормальная, цена стабильна | ~$0.00015 | ROCm 6.x все еще требует танцев |
Intel сыграла на двух фронтах: дешевые ноутбуки для массового рынка и серверные решения на базе Gaudi 3, которые внезапно стали альтернативой NVIDIA для европейских и азиатских компаний (не попавших под санкции).
Groq: темная лошадка, которая всех удивила
Помните Groq? Стартап, который в 2024 все считали маргинальным. В 2025 они выпустили LPU (Language Processing Unit) второго поколения. И все зашептались.
Не потому что он был быстрее NVIDIA. А потому что он был ДОСТУПНЕЕ. Groq не использовал HBM - слишком дорого, слишком дефицитно. Вместо этого - массив SRAM и оптимизированный под трансформеры конвейер.
Ключевое отличие Groq LPU v2: он не попадал под экспортные ограничения. Потому что формально это не GPU, не TPU, а специализированный процессор для инференса. Юридическая лазейка, которая сработала.
Результат? Китайские компании массово закупали системы на базе Groq. Европейские стартапы, не способные получить H200, обращались к ним. Цена за токен в облачном сервисе Groq стала на 30% ниже, чем у конкурентов. Потому что их железо стоило дешевле в производстве.
Эффект домино для локальных LLM
Как все это повлияло на вас, если вы просто хотите запустить Llama 3.2 70B у себя дома?
- Цены на б/у карты взлетели. RTX 3090, которая в 2024 стоила $800, теперь просят $1400. Потому что 24 ГБ VRAM - это роскошь
- Сообщество переориентировалось на малые модели. Зачем бороться за 70B, если 3B-13B модели на Panther Lake работают достаточно хорошо для большинства задач?
- Рост популярности облачного инференса. Когда железо дома стоит как автомобиль, проще арендовать. Даже ноутбук не тянет - не проблема, если есть стабильный интернет
- AMD получила второй шанс. Пока NVIDIA билась с ограничениями, AMD улучшила ROCm. Установка под Linux теперь занимает 15 минут, а не 2 дня
Самое парадоксальное: железный голод ИИ привел к расцвету программной оптимизации. Разработчики llama.cpp выжали из имеющегося железа на 40% больше производительности. Квантование стало не опцией, а необходимостью.
Что будет дальше? (Спойлер: ничего хорошего)
Если вы думаете, что в 2026 станет легче - забудьте. Цены на GPU взлетят еще на 60% - это консервативный прогноз. Почему?
- Экспортные ограничения не снимут. Скорее ужесточат
- TSMC заявляет: мощности загружены на 3 года вперед. Новые фабрики строятся, но вводятся в строй только к 2027
- Китай ускоряет разработку собственных чипов. Но качество пока не дотягивает до NVIDIA
- Корпоративный спрос растет быстрее потребительского. Прибыль там выше
Единственный свет в туннеле - специализированные процессоры вроде Groq LPU. И возможно, Qualcomm с их AI250, который обещает энергоэффективность в 5 раз выше, чем у текущих решений.
Практический совет на 2026: если у вас есть рабочая карта с 12+ ГБ VRAM - не продавайте. Если нет - присмотритесь к ноутбукам на Panther Lake или системам с RX 7900 XTX. Ждать следующего поколения NVIDIA? Готовьте $3000+ и много терпения.
Итог 2025 года прост: рынок железа для локального ИИ перестал быть технической проблемой. Теперь это политическая и экономическая игра, где правила меняются ежеквартально. И если вы не готовы платить премиум за устаревшее железо - придется довольствоваться облачными решениями или малыми моделями.
Печально? Да. Но именно это заставляет сообщество становиться изобретательнее. Когда нет денег на железо, приходится оптимизировать код. Может, в этом и есть скрытое преимущество.