Тест локальных LLM на RTX 5090: Goliath, Dolphin и другие несенсорные модели | AiManual
AiManual Logo Ai / Manual.
29 Дек 2025 Гайд

Лучшие разблокированные локальные LLM для мощных видеокарт: тест на RTX 5090

Обзор и бенчмарк лучших разблокированных локальных LLM для RTX 5090. Сравнение Goliath 120B, Dolphin 2.9.2 Mixtral, Qwen2.5 72B. Настройка, производительность,

Почему эра локальных LLM наконец наступила (и почему RTX 5090 — это game-changer)

Ещё год назад запуск модели размером более 70 миллиардов параметров на домашнем компьютере был уделом энтузиастов с экзотическими конфигурациями. Сегодня, с выходом RTX 5090, ситуация кардинально изменилась. 24 ГБ GDDR7 памяти — это не просто цифра. Это возможность запускать модели, которые раньше требовали облачных кластеров, сохраняя при этом полную приватность и контроль над данными.

Ключевой момент: «Разблокированные» (uncensored) модели — это не просто версии без фильтров. Это модели, обученные на более широких и разнообразных датасетах, которые лучше понимают контекст, менее склонны к отказу отвечать и демонстрируют более креативное мышление. Они идеальны для исследователей, разработчиков и продвинутых пользователей.

В этой статье мы не просто перечислим модели. Мы проведём реальный тест на RTX 5090, покажем метрики производительности (токенов в секунду), потребление памяти и дадим практические рекомендации по настройке. Если вы выбираете модель для локального запуска на мощной видеокарте, этот материал — ваша отправная точка.

Критерии отбора: что делает локальную LLM «лучшей» для RTX 5090?

Не каждая большая модель подходит для локального запуска. Наши критерии:

  • Качество ответов (IQ): Оценка по стандартным бенчмаркам (MMLU, HumanEval) и субъективная оценка связности, глубины и креативности.
  • Эффективность памяти: Модель должна умещаться в 24 ГБ VRAM с разумным контекстом (8K+ токенов) без сильной деградации качества при квантовании.
  • Скорость генерации: Минимум 10-15 токенов в секунду для интерактивного использования. Меньше — и диалог становится мучительным.
  • «Разблокированность»: Способность обсуждать сложные, спорные или нишевые темы без шаблонных отказов.
  • Поддержка инструментов (tool calling): Критически важно для автоматизации. Модель должна уметь вызывать функции.

Участники тестирования: кто сошёлся в битве гигантов?

Мы отобрали четырёх главных претендентов, представляющих разные архитектуры и подходы.

Модель Архитектура / Размер Ключевая особенность Версия для теста
Goliath 120B Merge (Mixtral/LLaMA) / 120B Лучший баланс интеллекта и «свободы мысли» Q4_K_M (4-битное квантование)
Dolphin 2.9.2 Mixtral 8x22B MoE / 39B (активных ~22B) Невероятная скорость и отличная «разблокированность» Q4_K_M
Qwen2.5 72B Instruct Decoder-only / 72B Лидер по поддержке длинного контекста (128K) и инструментов Q4_K_M
Nous Hermes 2 Mixtral 8x7B MoE / 13B (активных ~7B) Эталон скорости и эффективности для меньших задач Q5_K_M (5-битное квантование)
💡
MoE (Mixture of Experts) архитектура, как у Mixtral, — настоящая находка для локального запуска. Модель «активирует» только часть своих параметров для каждого токена, что даёт качество большой модели при скорости и потреблении памяти меньшей. Dolphin 2.9.2 — лучшая реализация этой идеи в «разблокированном» формате.

Тестовая стенка и методология

Железо: NVIDIA GeForce RTX 5090 (24 ГБ GDDR7), Intel Core i9-14900K, 64 ГБ DDR5 RAM.
Софт: Ollama (v0.5.2) с бэкендом CUDA 12.4. LM Studio в качестве запасного варианта.
Бенчмарки: Собственный скрипт, измеряющий скорость генерации на промптах разной длины, потребление VRAM, а также качество ответов на набор из 50 сложных и провокационных вопросов (от философии до программирования).

# Пример команды для запуска теста скорости в Ollama
ollama run dolphin-mixtral:latest "Пожалуйста, напиши подробное эссе на 500 слов о влиянии квантовых вычислений на будущее криптографии."

# Мониторинг VRAM
nvidia-smi --query-gpu=memory.used --format=csv -l 1

Результаты: цифры и субъективные впечатления

Модель Скорость (токенов/с) Пик VRAM Качество ответов (1-10) «Разблокированность»
Goliath 120B (Q4) ~8.5 22.5 ГБ 9.5 Отличная
Dolphin Mixtral 8x22B (Q4) ~42 18 ГБ 8.5 Превосходная
Qwen2.5 72B (Q4) ~12 20 ГБ 9.0 Хорошая
Nous Hermes 2 Mixtral (Q5) ~65 11 ГБ 7.5 Средняя

1 Победитель по интеллекту и глубине: Goliath 120B

Это монстр. Его ответы поражают детализацией, логичностью и почти полным отсутствием «галлюцинаций». Для сложного анализа, творческого письма или исследовательских задач — это лучший выбор. Скорость в 8.5 токенов в секунду приемлема для неинтерактивных задач (генерируешь запрос и идёшь пить кофе). Он жадный до памяти, но RTX 5090 справляется с ним в 4-битном формате с запасом.

2 Победитель по скорости и балансу: Dolphin 2.9.2 Mixtral 8x22B

Наш фаворит для ежедневного использования. 42 токена в секунду — это уже комфортный интерактивный чат. Качество ответов очень высокое, а «разблокированность» на высоте: модель готова обсуждать что угодно, не сползая в токсичность. Идеальна для мозговых штурмов, быстрого кодинга и диалогов. Потребляет меньше памяти, чем конкуренты, благодаря MoE.

3 Специалист по инструментам и длинному контексту: Qwen2.5 72B

Если ваш проект — это автоматизация с использованием tool calling или работа с документами в десятки тысяч токенов, то Qwen2.5 не имеет равных. Его способности к пониманию контекста феноменальны. «Разблокированность» чуть ниже, чем у Dolphin, но для большинства продакшен-задач это даже плюс.

Внимание на квантование: Использование 4-битного (Q4_K_M) формата для гигантов вроде Goliath — необходимость. Потеря качества минимальна (часто незаметна), а выигрыш в памяти и скорости — колоссальный. Для меньших моделей (Mixtral 8x7B) можно позволить себе Q5 или даже Q6.

Пошаговый план: как запустить выбранную модель на RTX 5090

1 Подготовка системы

Убедитесь, что у вас установлены свежие драйверы NVIDIA (550.xx и выше) и CUDA Toolkit 12.4. Для Windows рекомендуется WSL2 с Ubuntu 22.04 для максимальной совместимости с Ollama.

# Для WSL2: проверка доступа к GPU
nvidia-smi

2 Установка Ollama и загрузка модели

Ollama — самый простой способ. Установите и запустите команду pull для нужной модели.

curl -fsSL https://ollama.com/install.sh | sh
ollama pull dolphin-mixtral:latest  # Или goliath:latest, qwen2.5:72b

3 Настройка параметров запуска (Modelfile)

Для тонкой настройки создайте Modelfile. Это особенно важно для управления контекстом и температурой — аналогично настройке темперамента в ChatGPT.

FROM dolphin-mixtral:latest
PARAMETER temperature 0.8  # Более креативные ответы
PARAMETER num_ctx 16384    # Увеличиваем контекстное окно
PARAMETER num_gpu 40       # Сколько слоёв загружать на GPU (больше = быстрее, но больше VRAM)

4 Запуск и интеграция

Запустите модель и подключитесь к ней через API (порт 11434) из вашего любимого фронтенда (Open WebUI, Continue.dev, ваше приложение).

ollama run dolphin-mixtral:latest
# API будет доступно на http://localhost:11434/api/generate

Распространённые ошибки и их решение

  • «Out of memory» при запуске: Слишком высокое значение num_gpu в Modelfile. Уменьшайте его шагами по 5. Для Goliath 120B Q4_K_M на RTX 5090 безопасное значение — около 80-90.
  • Медленная генерация после первых токенов: Включён встроенный RAG или поиск по документам. Проверьте настройки вашего фронтенда. Или же модель начала использовать оперативную память (своппинг), что убивает скорость.
  • Модель «тупит» или даёт короткие ответы: Слишком низкая температура (например, 0.1). Поднимите до 0.7-0.9 для более развёрнутых и творческих ответов.
  • Проблемы с tool calling в Qwen2.5: Убедитесь, что используете именно Instruct-версию модели и правильно формируете промпт с описанием функций в формате JSON Schema.

Выводы и итоговые рекомендации

RTX 5090 — это первый потребительский GPU, который делает работу с моделями уровня 70B+ параметров по-настоящему практичной. Выбор модели зависит от задачи:

  1. Для максимального качества и глубины (исследование, анализ): Goliath 120B. Смиритесь со скоростью 8-10 токенов/с.
  2. Для ежедневного интерактивного использования и креатива: Dolphin 2.9.2 Mixtral 8x22B. Лучший баланс на рынке.
  3. Для автоматизации и работы с длинными документами: Qwen2.5 72B Instruct. Инструменты и контекст 128K — его сильная сторона.
  4. Если у вас не RTX 5090, а что-то менее мощное: Обратитесь к нашему сравнению железа для AI-разработки.

Эра локальных, мощных и свободных от цензуры ИИ-ассистентов официально началась. Ваши данные остаются вашими, а возможности ограничены только вашим железом и воображением. Удачных экспериментов!