Парадокс 24 ГБ: почему эта цифра стала магической
RTX 3090 вышла в 2020. Шесть лет спустя, в 2026, она все еще королева локальных LLM. Ирония в том, что инженеры NVIDIA не планировали создавать идеальную платформу для нейросетей. Просто 24 ГБ - это максимальный объем GDDR6X, который можно было запихнуть в потребительскую карту в 2020 году.
Случайность стала стандартом. Теперь вся экосистема вертится вокруг этого числа.
Если вы читали мою статью "Сколько VRAM реально нужно для локальных LLM", то знаете: мы прошли путь от наивных расчетов к практической математике. В 2026 году 24 ГБ - это не потолок, а золотая середина.
Gemma 3 27B: Google наконец-то сделала домашку
Gemma 2 была разочарованием. Слишком осторожная, слишком посредственная. В Google это поняли и в начале 2026 выпустили Gemma 3 27B - первую модель, которая реально конкурирует с Llama.
Что изменилось:
- Архитектура: гибридная MoE с 8 экспертами, но только 2 активных на токен
- Контекст: 128K с поддержкой RoPE-интерполяции до 1M
- Тренировочные данные: 15 триллионов токенов, включая код на 40 языках
- Специализация: математика и рассуждения (они наконец-то починили эту часть)
На бумаге 27 миллиардов параметров. На практике - благодаря MoE, активных параметров всего ~14B. Это ключевой момент.
Сколько памяти нужно для Gemma 3 27B?
Здесь начинается интересное. Официальные требования Google: 48 ГБ для FP16. Но кто в 2026 году запускает модели в FP16 на потребительских картах?
| Формат | Размер | Качество | Скорость (токенов/с) |
|---|---|---|---|
| Q4_K_M (GGUF) | ~16 ГБ | 98% от FP16 | 35-45 на RTX 4090 |
| Q3_K_S (GGUF) | ~12 ГБ | 95% от FP16 | 40-50 на RTX 4090 |
| AWQ 4-bit | ~17 ГБ | 99% от FP16 | 30-40 на RTX 4090 |
| EXL2 3.5bpw | ~14 ГБ | 96% от FP16 | 45-55 на RTX 4090 |
Мой выбор для 24 ГБ: EXL2 3.5bpw. Почему? Потому что в 2026 году exllamav2 достигла такого уровня оптимизации, что разница между 4-bit и 3.5-bit почти незаметна, а память экономит существенно.
Не пытайтесь запустить Gemma 3 27B в FP16 на одной RTX 3090. Даже с offload на CPU скорость будет 1-2 токена в секунду. Это мучительно медленно. Квантование - не компромисс, а необходимость.
GLM 4.7 Flash: китайский ответ, который работает
Пока Google и Meta соревновались в размере моделей, Zhipu AI пошла другим путем. GLM 4.7 Flash - это 7 миллиардов параметров, но с трюками, которые заставляют модель работать как 20B.
Секрет в двух вещах:
- Улучшенная архитектура внимания: они переработали механизм KV cache, что снижает потребление памяти на 40% при том же контексте
- Динамическое квантование: модель сама решает, какие слои квантовать сильнее, а какие оставить точными
Результат: GLM 4.7 Flash в Q4 занимает всего 4.5 ГБ. Да, вы не ослышались. На RTX 3090 можно запустить 5 экземпляров одновременно.
Но главное - качество. В тестах на китайском языке она бьет Llama 3.1 8B. На английском - немного отстает, но все равно впечатляет.
Что еще влезает в 24 ГБ в 2026 году?
Список вырос. Сильно вырос. Если в 2024 году мы радовались 13B моделям, то сейчас:
Модели 20-30B параметров (с квантованием)
- Qwen 2.5 32B в Q3_K_L: ~20 ГБ, отличная поддержка длинного контекста (256K)
- Llama 3.2 28B в EXL2 4.0bpw: ~18 ГБ, лучшая для кодинга из средних моделей
- DeepSeek-V3 28B в AWQ: ~19 ГБ, бесплатный аналог GPT-4o с отличным зрением
- Mistral NeMo 24B в GGUF Q4: ~15 ГБ, специализирована на RAG и работе с документами
Неочевидный выбор: две модели одновременно
Вот хак, о котором мало говорят. Вместо одной большой модели можно запустить две специализированных:
- Phi-4 8B (7 ГБ в Q4) для быстрых ответов и классификации
- GLM 4.7 Flash (4.5 ГБ) для работы с китайскими текстами
- И еще 12.5 ГБ остается под эмбеддинг-модель и кэш
Это работает через инструменты вроде FastChat, которые умеют распределять запросы между разными моделями.
Прогноз на 2026: куда движется индустрия
Я вижу три тренда, которые определят вторую половину 2026:
1. Смерть больших плотных моделей
70B, 120B, 400B - все это уходит в прошлое. Почему? Потому что MoE доказала свою эффективность. Запустить Gemma 3 27B (фактически 14B активных параметров) проще, чем Llama 3.1 70B в сильном квантовании. А качество сравнимо.
2. Аппаратная специализация
RTX 5090 выйдет в конце 2026. Угадайте, сколько у нее будет памяти? Правильно, 24 ГБ. NVIDIA поняла, что этот объем стал стандартом де-факто для локальных LLM.
Но важнее не объем, а пропускная способность. Blackwell архитектура в потребительских картах даст 2-3 ТБ/с против 1 ТБ/с у Ada Lovelace. Это ускорит инференс в 1.5-2 раза при том же объеме памяти.
3. Квантование становится умнее
В 2025 мы использовали статическое квантование: все слои сжимались одинаково. В 2026 появилось адаптивное квантование, где модель анализирует входные данные и решает, какие части нуждаются в большей точности.
Практический результат: модели 30B параметров будут занимать 10-12 ГБ без потери качества.
Практический гайд: как выбрать модель для своих задач
1 Определите приоритет: качество или скорость?
Если нужны точные, детальные ответы - берите Gemma 3 27B в Q4. Если важна скорость (чат-бот, классификация) - Phi-4 8B или GLM 4.7 Flash.
2 Проверьте поддержку языков
Для английского: Llama 3.2, Gemma 3, Qwen 2.5. Для китайского: GLM 4.7 Flash, Qwen 2.5. Для русского: пока лучше всего работает Qwen 2.5 32B с дообучением.
3 Тестируйте на своих данных
Скачайте 2-3 модели в GGUF формате. Запустите через llama.cpp. Дайте им одинаковый промпт с вашими реальными данными. Не доверяйте бенчмаркам - они часто не отражают реальные сценарии.
4 Оптимизируйте под железо
Для NVIDIA: EXL2 или AWQ форматы. Для AMD или CPU: GGUF. Не пытайтесь запускать EXL2 на AMD - это пустая трата времени.
Ошибки, которые все еще совершают в 2026
- Гнаться за самым большим контекстом. 128K звучит круто, но на практике 95% задач укладывается в 8K. А память под длинный контекст можно было бы использовать для более качественной модели.
- Запускать модели в FP16. Серьезно, это 2026 год. Q4_K_M дает 98% качества при половине размера. Разницу заметит только другой ИИ.
- Игнорировать MoE-архитектуры. Gemma 3 27B показала, что MoE - это не будущее, а настоящее. Игнорировать это - остаться в прошлом.
- Не обновлять llama.cpp. В январе 2026 вышла версия с поддержкой динамического квантования. Если вы используете версию полугодовой давности, вы теряете 20-30% производительности.
Что будет с RTX 3090 в 2027?
Карте будет семь лет. Семь лет в мире GPU - это вечность. Но я предсказываю: 3090 останется релевантной до 2028 года.
Почему? Потому что 24 ГБ - это магическое число. Потому что все новые модели оптимизируются под этот объем. Потому что даже NVIDIA в RTX 6090 (если такая будет) оставит 24 ГБ для совместимости с экосистемой.
Ваша 3090 - не устаревшее железо. Это платформа, вокруг которой выросла целая индустрия. И в 2026 году для нее больше вариантов, чем когда-либо.
Мой совет: не гонитесь за новым железом. Освойте то, что есть. Научитесь правильно квантовать, экспериментируйте с разными форматами, комбинируйте модели. 24 ГБ в 2026 - это не ограничение. Это пространство для творчества.
И последнее: если вы все еще думаете о переходе на две карты, прочитайте мой разбор RTX Pro 6000 vs RTX 4090. Там есть цифры, которые заставят вас пересмотреть приоритеты.