Выбор модели в 2025 - это не проще, а сложнее. И вот почему

Помните 2023? Llama 2 или ничего. Потом Mistral ворвался на сцену. Сейчас, в 2025, у вас сотни вариантов. Китайские модели вроде GLM-4.7 бьют рекорды. Европейские стартапы выпускают узкоспециализированные нейросети. Американские гиганты не сдаются. Парадокс: чем больше свободы, тем сложнее выбор. Сообщество r/LocalLLaMA - это тысячи инженеров, которые ежедневно жгут VRAM в поисках идеального баланса. Их вердикт - не про размер параметров, а про то, какая модель реально работает на вашем железе для ваших задач.

Забудьте про бенчмарки как единственный критерий. Модель, которая лидирует в тестах на рассуждение, может ползать как улитка на вашей RTX 4060 или сожрать всю оперативку. Реальный опыт использования - вот что важно.

Как мы считали: методология от тех, кто в теме

Мы не запускали тысячи автоматических тестов. Мы собрали опыт из сотен тредов на Reddit, обсуждений в Discord и личных экспериментов. Критерии простые и приземленные:

Качество ответов (IQ): Не абстрактные цифры, а способность понять сложный промпт, не сломаться на многоэтапной задаче, не начать галлюцинировать на 10-м ответе.
Скорость генерации: Токенов в секунду. Не в идеальных условиях, а с вашим типичным промптом и настройками. 20 токенов/с - это уже диалог. 5 - это мучение.
Требования к памяти: VRAM - главный ограничитель. Сколько нужно для разных квантований (Q4, Q5, Q8)? Учитывается ли системная RAM как fallback?
Поддержка контекста: Длина окна - это хорошо. Но как модель его использует? Некоторые забывают, что было в начале, даже при 4K токенах.
Стабильность: Модель не должна "сходить с ума" после нескольких часов работы или выдавать рандомные символы.
Поддержка инструментов (Tool Calling): Критично для создания AI-агентов. Какие модели реально умеют работать с функциями?

Рейтинг 2025: не одна лучшая, а лучшая для каждой задачи

Вот сводная таблица, которая сэкономит вам недели экспериментов. Цифры рейтинга - усредненная оценка от сообщества по шкале от 1 до 10.

Категория	Модель-победитель	Размер (типовая квант.)	Минимум VRAM	Рейтинг	За что любят
Универсальная	Minimax M2.1 Pro	34B (Q4_K_M)	24 GB	9.2	Безупречная логика, двуязычность (EN/CN)
Баланс скорость/качество	GLM-4.7 Chat	32B (Q5_K_M)	20 GB	8.9	Скорость + стабильность, мультиязык
Кодинг	DeepSeek Coder V3 33B	33B (Q4_K_S)	22 GB	9.1	Понимание контекста кода, редкие ошибки
Малая, но мощная	Qwen2.5 7B	7B (Q6_K)	8 GB	8.0	Работает на ноутбуке, адекватные ответы
Tool Calling	Llama 3.3 70B	70B (Q4_0)	48 GB+	8.7	Надежность агента, широкая экосистема

1 Универсальные модели: когда нужен один "швейцарский нож"

Вы не хотите возиться с десятком моделей. Вам нужна одна, которая справится с диалогом, анализом текста, простой логикой и, возможно, наброском кода. Раньше тут царствовала Llama. Сейчас - Minimax M2.1 Pro.

Почему она? Китайская разработка, но с феноменальным английским. Сообщество отмечает ее "здравомыслие" - модель редко уходит в откровенный бред, даже на сложных запросах. Требует VRAM, да. Но если у вас есть RTX 4090 (24 GB) или две карты попроще - это ваш выбор. Альтернатива - GLM-4.7 Chat. Чуть быстрее, чуть меньше жрет память, но некоторые пользователи замечают более поверхностные ответы на нетривиальные вопросы.

# Пример запуска GLM-4.7 в llama.cpp (вам нужен GGUF файл модели)
./main -m glm-4.7-chat-32b-q5_k_m.gguf -p "Расскажи о квантовых вычислениях" -n 512 -t 8

💡

Нет 24 GB VRAM? Попробуйте Qwen2.5 14B в квантовании Q4. Она умещается в 12 GB и показывает удивительно хорошие результаты для своего размера. Подробнее о запуске на ограниченном железе - в нашем гайде "7 маленьких LLM на ноутбуке с 16 ГБ ОЗУ".

2 Модели для кодинга: здесь важны детали, а не размер

Писать код - это не просто генерировать синтаксически правильный текст. Это понимать контекст, видеть edge cases, не предлагать устаревшие методы. DeepSeek Coder V3 33B в 2025 году сделал то, что не удалось многим: он редко предлагает уязвимый или неоптимальный код. Его 33 миллиарда параметров настроены именно на программирование.

Альтернатива - Qwen2.5 Coder 32B. Чуть более "послушная" в плане следования инструкциям, но иногда слишком осторожная. Если ваш стек - Python/JavaScript, то DeepSeek предпочтительнее. Для более экзотических языков проверьте обе.

Не верьте слепо сгенерированному коду! Все модели, даже лучшие, могут допускать ошибки или предлагать небезопасные решения. Всегда проверяйте и тестируйте.

3 Малые модели (7B-14B): искусство компромисса

У вас ноутбук с RTX 4060 (8 GB) или вы хотите запускать модель в фоне, не убивая систему. Здесь царят модели размером 7-14 миллиардов параметров. Лидер - Qwen2.5 7B в квантовании Q6_K. Почему Q6? Потому что на таком размере потеря качества от квантования заметна сильнее, а память позволяет.

Что она умеет? Писать внятные emails, перефразировать текст, отвечать на простые вопросы. Не ждите от нее глубокого анализа или сложных рассуждений. Она - быстрый помощник, а не эксперт. Для запуска таких моделей идеально подходит Ollama - одна команда, и модель работает.

# Установка и запуск Qwen2.5 7B через Ollama
ollama pull qwen2.5:7b
ollama run qwen2.5:7b

Как выбрать: практический алгоритм от инженера

Определите главную задачу. Кодинг? Диалог? Анализ документов? Не бывает "просто попробовать" - это путь к разочарованию.
Посчитайте доступную VRAM. Не ту, что в спецификациях, а реальную свободную после загрузки системы и всех фоновых задач. Используйте nvidia-smi или диспетчер задач.
Выберите размер и квантование. Правило простое: для модели 34B в Q4_K_M нужно примерно 24 GB. Для 7B в Q6_K - около 8 GB. Если память на грани - берите более агрессивное квантование (Q4 вместо Q5).
Выберите фреймворк. Для простоты - Ollama. Для максимальной производительности и контроля - llama.cpp или vLLM.
Протестируйте на своих данных. Не на "Привет, как дела?", а на реальном примере из вашей работы. Используйте промпты для тестирования.

Частые косяки, которые ломают весь опыт

Игнорирование системной памяти. Если VRAM заканчивается, llama.cpp может слить модель в RAM. Это в 10-20 раз медленнее. Диалог превратится в слайд-шоу.
Погоня за самой большой моделью. 70B модель не в 10 раз умнее 7B. Но она в 10 раз медленнее и требует в 6 раз больше памяти. Закон убывающей отдачи работает.
Неправильные параметры генерации. Температура (temperature) 0.1 сделает ответы скучными и повторяющимися. 1.2 - случайными и бредовыми. Начинайте с 0.7.
Отсутствие системы промптов. Бросать модели сырой текст и ждать шедевра - наивно. Учитесь формулировать задачи. Это отдельный навык.

Вопросы из чатов, которые все задают

Что такое квантование и какое выбрать?

Квантование - это сжатие весов модели с потерей точности. Q4 - 4 бита на вес (сильное сжатие), Q8 - 8 бит (минимальная потеря). Q4_K_M - золотая середина для большинства задач. Q5_K_M - если память позволяет. Q2_K - только для самых отчаянных экспериментов на слабом железе, качество страдает заметно.

Почему моя новая RTX 5090 не дает прироста скорости в 2 раза?

Потому что производительность локальных LLM чаще всего упирается не в вычислительную мощность GPU, а в пропускную способность памяти (memory bandwidth). RTX 5090 быстрее 4090, но не радикально. Главный выигрыш - в большем объеме VRAM, который позволяет запускать менее квантованные версии моделей.

Minimax M2.1 или GLM-4.7? Они же оба китайские 32-34B модели.

Да, но "характер" разный. M2.1 - более вдумчивая, склонная к анализу, лучше справляется с многошаговыми задачами. GLM-4.7 - более быстрая и отзывчивая, лучше для диалога и задач, где важна скорость ответа. Скачайте обе в GGUF и проверьте на своих промптах. Разница субъективна, но заметна.

Когда ждать следующего прорыва?

Сообщество ждет появления моделей, оптимизированных под новые NPU (нейропроцессоры) в потребительских CPU и GPU. Это может изменить правила игры, снизив зависимость от дорогой VRAM. Также следите за архитектурой Mamba и ее последователями - они обещают сравнимую с трансформерами качество при линейной, а не квадратичной сложности.

Выбор модели в 2025 - это не поиск святого Грааля, а подбор инструмента под конкретную работу. Не та модель, которая побеждает в бенчмарках, а та, которая стабильно работает на вашем железе и решает ваши задачи. Начните с Qwen2.5 7B, если железо скромное. Переходите на GLM-4.7 или Minimax M2.1, если есть ресурсы. И помните: лучшая модель - та, которую вы уже запустили и используете.

Лучшие локальные LLM 2025 года: рейтинг по категориям и размеру памяти от сообщества r/LocalLLaMA