Запуск LLM на старом компьютере: гайд для Dell T7910 с llama.cpp | AiManual
AiManual Logo Ai / Manual.
28 Дек 2025 Гайд

Запуск современных LLM на старом железе: подробный гайд на примере Dell T7910

Пошаговое руководство по запуску современных языковых моделей на старом сервере Dell T7910. Квантизация, оптимизация памяти, выбор видеокарты и практические сов

Почему старый сервер — это не мусор, а золотая жила для AI

В эпоху, когда каждый второй блогер кричит о необходимости RTX 4090 для запуска локальных LLM, я хочу рассказать вам о другом пути. Пути апсайклинга, экономии и инженерной смекалки. Dell T7910 — это не просто старый рабочий сервер 2015 года выпуска. Это платформа с двумя процессорными сокетами LGA 2011-3, поддержкой до 1 ТБ DDR4 памяти и возможностью установки двух полноразмерных видеокарт. И всё это можно купить на вторичном рынке за стоимость одной новой игровой видеокарты.

💡
Ключевая мысль: Производительность LLM в 2025 году определяется не только тактовой частотой ядер, но и объёмом оперативной памяти и пропускной способностью шины. Старые серверные платформы часто выигрывают у современных десктопов именно по этим параметрам.

Проблема: современные модели не помещаются в память

Современные LLM, такие как Llama 3.1 70B или GLM-4.7, в полной версии требуют 140+ ГБ оперативной памяти. Даже на хорошо укомплектованном T7910 с 256 ГБ DDR4 это невозможно. Но здесь на помощь приходит технология квантизации, которая позволяет сжать модель в 2-4 раза с минимальной потерей качества. Если вы не знакомы с этим понятием, рекомендую прочитать нашу статью «Что такое квантизация GGUF?».

Важно: Квантизация — это компромисс между размером, скоростью и качеством. Для творческих задач (написание текстов, диалог) подойдёт Q4_K_M, для аналитических (код, логика) лучше использовать Q3_K_XL.

Решение: llama.cpp + правильная конфигурация железа

llama.cpp — это не просто ещё один фреймворк. Это специально оптимизированный C++ код, который умеет эффективно распределять вычисления между CPU, GPU и даже работать в чисто CPU-режиме. В нашем обзоре фреймворков мы подробно разбирали, почему для старого железа это лучший выбор.

1 Анализ и подготовка железа Dell T7910

Прежде чем устанавливать софт, нужно понять, с чем мы работаем. Вот типичная конфигурация T7910, которую можно собрать в 2025 году:

Компонент Рекомендация Стоимость (б/у)
Процессоры 2× Xeon E5-2690 v4 (14 ядер, 28 потоков) ~12 000 руб.
Оперативная память 256 ГБ DDR4 2400 MHz (8×32 ГБ) ~18 000 руб.
Видеокарта RTX 3090 (24 ГБ) или RTX 4060 Ti 16 ГБ ~45 000 / 35 000 руб.
Накопитель NVMe 1 ТБ через PCIe-адаптер ~5 000 руб.

Почему именно такая конфигурация? Два процессора дают 56 потоков для распараллеливания вычислений. 256 ГБ памяти позволяют загружать несколько моделей одновременно или работать с очень большими контекстами. RTX 3090 — оптимальна по соотношению цена/память, но если бюджет ограничен, RTX 4060 Ti 16 ГБ тоже отлично справится.

2 Установка и настройка программного обеспечения

Я рекомендую использовать Ubuntu Server 22.04 LTS — стабильную и хорошо поддерживаемую систему. После базовой установки:

# Обновление системы и установка зависимостей
sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential cmake git wget curl

# Установка драйверов NVIDIA (если есть видеокарта)
sudo apt install -y nvidia-driver-550 nvidia-cuda-toolkit

# Клонирование и сборка llama.cpp с поддержкой CUDA
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
cmake .. -DLLAMA_CUBLAS=ON
make -j$(nproc)

# Установка Python-обёртки для удобства
cd ..
pip install -r requirements.txt
💡
Совет: Если сборка с CUDA завершается с ошибкой, возможно, у вас слишком старая версия CUDA Toolkit. В этом случае соберите llama.cpp без GPU-ускорения (-DLLAMA_CUBLAS=OFF), производительность на CPU всё равно будет приемлемой благодаря количеству ядер.

3 Загрузка и квантизация модели

Не загружайте готовые GGUF-файлы с сомнительных сайтов. Лучше скачать оригинальную модель и сделать квантизацию самостоятельно. Для примера возьмём Llama 3.1 8B:

# Скачивание оригинальной модели (требуется Hugging Face token)
python3 -m llama.cpp.download --repo_id meta-llama/Llama-3.1-8B

# Конвертация в формат GGUF (FP16)
python3 convert.py meta-llama/Llama-3.1-8B/

# Квантизация до Q4_K_M (оптимальный баланс)
./quantize ./models/llama-3.1-8b/ggml-model-f16.gguf \
    ./models/llama-3.1-8b/ggml-model-Q4_K_M.gguf Q4_K_M

В результате вы получите файл размером около 5 ГБ вместо исходных 16 ГБ. Для моделей большего размера, например, Llama 3.1 70B, используйте квант Q3_K_XL, чтобы уместить модель в оперативную память.

4 Запуск модели с оптимальными параметрами

Теперь самое интересное — запуск. Ключевые параметры для T7910:

# Запуск на CPU + GPU с распределением слоёв
./main -m ./models/llama-3.1-8b/ggml-model-Q4_K_M.gguf \
    -p "Расскажи о квантовой физике" \
    -n 512 \
    -t 56 \
    -ngl 99 \
    -c 8192 \
    --mlock \
    --no-mmap

Разберём ключевые флаги:

  • -t 56 — используем все 56 логических потоков процессоров
  • -ngl 99 — загружаем максимальное количество слоёв на GPU (если видеокарта есть)
  • -c 8192 — размер контекста (можно увеличить до 32K, если хватает памяти)
  • --mlock — блокировка модели в RAM, предотвращает свопинг
  • --no-mmap — отключает memory mapping, что может ускорить работу на старых системах

Нюансы и возможные ошибки

Даже с подробным гайдом вы можете столкнуться с проблемами. Вот самые частые из них и способы решения:

Проблема Причина Решение
«Out of memory» при загрузке модели Не хватает оперативной памяти или VRAM Уменьшите количество слоёв на GPU (-ngl 20), используйте более агрессивную квантизацию (Q2_K), добавьте файл подкачки 64 ГБ
Низкая скорость генерации (менее 1 токена/с) Модель работает только на CPU или используется медленная память Проверьте, что CUDA работает (nvidia-smi), увеличьте значение -ngl, убедитесь, что память работает в многоканальном режиме
Система зависает при запуске Перегрев или недостаточное питание Проверьте температуру процессоров (должна быть ниже 85°C), убедитесь, что блок питания T7910 (1300W) справляется с нагрузкой от видеокарты

Если вы столкнулись с ошибкой выделения памяти на AMD картах, вам поможет наша статья «Проблема с загрузкой больших LLM на AMD Strix Halo».

Альтернативный путь: виртуализация и распределение

Если вам нужно запускать несколько моделей одновременно или изолировать окружения, рассмотрите вариант с виртуализацией. Proxmox VE или ESXi позволят создать несколько виртуальных машин, каждая со своей LLM. На T7910 с 256 ГБ RAM это вполне реально:

  • ВМ 1: 64 ГБ RAM, Llama 3.1 8B для быстрых ответов
  • ВМ 2: 128 ГБ RAM, GLM-4.7 32B для сложных задач
  • ВМ 3: 64 ГБ RAM, Stable Diffusion для генерации изображений (см. наш гайд по Stable Diffusion)

Практические результаты: чего ожидать от T7910

После недели тестирования различных конфигураций, вот какие результаты я получил:

Модель Квантизация Скорость (токенов/с) Потребление RAM
Llama 3.1 8B Q4_K_M 24.5 (CPU+GPU) ~6 ГБ
GLM-4.7 32B Q3_K_XL 8.2 (CPU+GPU) ~22 ГБ
Llama 3.1 70B Q2_K 2.1 (только CPU) ~42 ГБ

Для сравнения: современный игровой ПК с RTX 4090 покажет 80+ токенов/с на Llama 3.1 8B, но будет стоить в 3-4 раза дороже. T7910 предлагает уникальное соотношение цены, возможностей масштабирования и надёжности.

Итог: Dell T7910 — это не устаревший хлам, а полноценная платформа для экспериментов с локальными LLM. Суммарные вложения в 80 000 рублей (против 300 000+ за новый мощный ПК) позволяют запускать модели до 70B параметров с приемлемой скоростью. Это идеальный вариант для исследователей, разработчиков и энтузиастов, которые хотят погрузиться в мир локального AI без разорения.

Если вы планируете масштабировать свою систему дальше, изучите нашу статью о стратегиях масштабирования локальных LLM. А для тестирования разных моделей используйте коллекцию промптов.