Зачем админу своя нейросеть в 2026 году

Ты тратишь полдня на написание скрипта для мониторинга дисков. Или разбираешься, почему nginx внезапно перестал отдавать статику. Или пытаешься вспомнить синтаксис iptables для конкретного кейса. Знакомо? Вот именно.

Год назад локальные модели были игрушкой для гиков. Сегодня — это рабочий инструмент, который экономит реальное время. Особенно в системном администрировании, где 80% задач — это рутина, которую можно автоматизировать.

Но большинство гайдов предлагают либо дорогие решения (DGX, H100), либо сложные облачные схемы. А я покажу, как собрать систему за разумные деньги, которая будет работать локально, не зависеть от интернета и решать конкретные задачи админа.

Важный момент на 2026 год: модели для кодинга стали значительно лучше. Если в 2024 году CodeLlama 13B еле-еле справлялся с bash-скриптами, то сегодня 7B-модели пишут рабочий код для 90% типовых задач администрирования.

GPU: что купить, если бюджет ограничен

Здесь всё зависит от твоего бюджета и аппетитов. Но есть одно правило: не гонись за самым новым железом. Для локальных моделей важнее память, а не вычислительная мощность.

1 Вариант 1: Бюджет до 500$

Ищешь б/у RTX 3090. Да, именно 3090, а не 4090. Почему? 24 ГБ памяти. На 2026 год это золотой стандарт для бюджетных сборок. За эти деньги помещается модель до 13B параметров в полной точности или 30B в 4-битной квантованности.

Где искать? Аукционы после майнингового краха 2025 года. Серьёзно, там можно найти карты в отличном состоянии за 60% от первоначальной цены. Подробнее об этом я писал в статье про майнерские карты.

💡

Проверяй не только память, но и систему охлаждения. Майнеры часто меняют термопасту, но забывают про термопрокладки на VRAM. Если карта греется выше 95°C под нагрузкой — проходи мимо.

2 Вариант 2: Бюджет 1000-1500$

RTX 4090 или RTX 6000 Ada. У 4090 те же 24 ГБ, но выше производительность. RTX 6000 Ada даёт 48 ГБ — это уже серьёзно. На такой памяти можно запускать модели до 70B параметров.

Но есть нюанс: для админских задач 70B-модель — это overkill. Разница в качестве кода между 13B и 70B есть, но она не оправдывает двукратную разницу в цене. Если только ты не планируешь тонко настраивать модели под свои нужды — тогда да, память важна.

3 А что насчёт альтернатив?

Mac Mini M2/M3 Pro. 32-64 ГБ унифицированной памяти. Звучит заманчиво, но есть подводные камни:

Поддержка моделей хуже (особенно для llama.cpp)
Нет CUDA — многие инструменты работают через Rosetta с потерями производительности
Сложнее с контейнеризацией

Для сравнения разных подходов посмотри мой разбор в статье про апгрейд для 30B моделей.

Модели: какие именно качать в 2026

Здесь всё меняется каждые три месяца. Но на февраль 2026 года актуальна такая картина:

Модель	Размер	Для каких задач	Минимальная VRAM
DeepSeek-Coder-V3 6.7B	6.7B	Python, bash, конфиги	8 ГБ (Q4)
CodeQwen2.5-Coder 7B	7B	Системные скрипты, Docker	8 ГБ (Q4)
WizardCoder-Python-13B	13B	Сложная автоматизация	12 ГБ (Q4)
Phind-CodeLlama-34B-v3	34B	Проектирование систем	24 ГБ (Q4)

Мой выбор для старта — DeepSeek-Coder-V3 6.7B в Q4_K_M квантованности. Почему?

Занимает ~4 ГБ памяти
Быстрая инференс (20-30 токенов/сек на RTX 3090)
Отлично понимает контекст системного администрирования
Поддерживает длинный контекст (128к токенов)

Не бери сырые модели без тонкой настройки. WizardCoder или Phind-CodeLlama уже обучены на миллионах примеров кода и дают значительно лучшие результаты для программирования.

NixOS: почему именно она и как настроить

Ты мог подумать: «Зачем NixOS, если есть Ubuntu?». Отвечаю: воспроизводимость. Когда твоя AI-система сломается после обновления драйверов (а она сломается), на NixOS ты откатишься к рабочему состоянию одной командой.

1 Базовая конфигурация

Создаёшь configuration.nix:

{ config, pkgs, ... }:

{
  # Включаем поддержку NVIDIA
  services.xserver.videoDrivers = [ "nvidia" ];
  
  hardware.nvidia = {
    modesetting.enable = true;
    powerManagement.enable = true;
    open = false;
    nvidiaSettings = true;
    package = config.boot.kernelPackages.nvidiaPackages.stable;
  };
  
  # CUDA и cuDNN
  hardware.opengl = {
    enable = true;
    driSupport = true;
    driSupport32Bit = true;
    extraPackages = with pkgs; [
      nvidia-vaapi-driver
    ];
  };
  
  environment.systemPackages = with pkgs; [
    cudaPackages.cudatoolkit
    cudaPackages.cudnn
    python311
    python311Packages.torch
    python311Packages.transformers
    ollama
    text-generation-webui
  ];
  
  # Для llama.cpp
  boot.kernelModules = [ "nvidia" "nvidia_modeset" "nvidia_uvm" "nvidia_drm" ];
}

2 Устанавливаем Ollama

Ollama — самый простой способ запускать модели локально. После установки через Nix:

# Скачиваем модель
ollama pull deepseek-coder:6.7b

# Запускаем с GPU
OLLAMA_NUM_GPU=1 ollama run deepseek-coder:6.7b

# Тестовый запрос
>>> Напиши bash-скрипт, который найдёт 10 самых больших файлов в /var/log и отправит отчёт на email

💡

Ollama автоматически использует GPU если он доступен. Проверь через nvidia-smi — должен быть процесс ollama с использованием памяти.

3 Настройка llama.cpp для максимальной производительности

Если Ollama слишком абстрактна, собираем llama.cpp сами:

# Клонируем с поддержкой CUDA
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_CUBLAS=1

# Конвертируем модель в GGUF формат
python3 convert.py ~/models/deepseek-coder-6.7b --outtype q4_0

# Запускаем с GPU
./main -m ./models/deepseek-coder-6.7b-q4_0.gguf \
  -n 512 \
  --temp 0.1 \
  --repeat_penalty 1.1 \
  -p "### Instruction: Напиши скрипт для бэкапа MySQL\n### Response:" \
  -ngl 99  # Все слои на GPU

Интеграция в рабочий процесс админа

Вот где начинается магия. Ты не просто запускаешь модель в консоли — ты встраиваешь её в свои инструменты.

Сценарий 1: Генерация скриптов через CLI

Создаёшь простой bash-скрипт ai-script:

#!/bin/bash

PROMPT="Напиши bash-скрипт для: $@"

RESPONSE=$(curl -s http://localhost:11434/api/generate -d '{
  "model": "deepseek-coder:6.7b",
  "prompt": "'"$PROMPT"'",
  "stream": false
}' | jq -r '.response')

echo "#!/bin/bash"
echo "# Сгенерировано AI $(date)"
echo ""
echo "$RESPONSE"

Теперь вместо гугления пишешь:

ai-script "мониторинг использования CPU с отправкой в Telegram при превышении 90%" > monitor.sh
chmod +x monitor.sh

Сценарий 2: Плагин для VSCode/Vim

Устанавливаешь continue для VSCode или llm.nvim для Neovim. Настраиваешь endpoint на локальный Ollama. Теперь прямо в редакторе:

# Пишешь комментарий:
# TODO: добавить обработку ошибок при недоступности БД

# Выделяешь код, нажимаешь Ctrl+I
# Модель дописывает обработку исключений

Сценарий 3: Автоматический анализ логов

Скрипт, который парсит /var/log/syslog, находит ошибки и предлагает решения:

#!/usr/bin/env python3

import subprocess
import requests
import json

# Берём последние 100 строк логов
logs = subprocess.check_output(
    ["tail", "-n", "100", "/var/log/syslog"]
).decode()

# Отправляем в модель
response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "deepseek-coder:6.7b",
        "prompt": f"Проанализируй логи системы и предложи решения для ошибок:\n{logs}",
        "stream": False
    }
)

print(json.loads(response.text)["response"])

Ошибки, которые все совершают (и как их избежать)

Ошибка 1: Скачивать самые большие модели. «А вдруг пригодится?» — не пригодится. 70B модель на 24 ГБ VRAM будет работать в 1-2 токена в секунду. Это непригодно для интерактивного использования.

Ошибка 2: Забывать про квантованность. Полная точность (FP16) для 7B модели — 14 ГБ. Квантованная Q4_K_M — 4 ГБ. Разница в качестве минимальна, в скорости — огромна.

Ошибка 3: Не настраивать охлаждение. GPU под нагрузкой 24/7 — это не игровая сессия на 2 часа. Убедись, что в корпусе хорошая вентиляция, а карта не троттлится.

Ошибка 4: Доверять модели слепо. Всегда проверяй сгенерированные скрипты перед запуском. Особенно те, что работают с rm -rf или изменяют системные файлы.

А если нужна реальная мощь?

Бывают задачи, где 24 ГБ памяти не хватает. Например:

Тонкая настройка 70B+ моделей под свои нужды
Запуск Vision-моделей для анализа графиков мониторинга
Параллельная работа нескольких моделей

Тогда смотри в сторону аренды. В 2026 году появились агрегаторы, которые находят свободные мощности в дата-центрах. Как я писал в статье про аренду H200 и A100, можно получить карты в 2-3 раза дешевле рыночной цены.

Или вариант для команды — совместная покупка. Четверо админов скидываются на сервер с 4x RTX 6000 Ada. Каждый получает доступ к 48 ГБ памяти за четверть цены. Подробности в материале про совместную покупку железа.

Что дальше? Будущее локальных AI для админов

Через год этот гайд устареет. Модели станут лучше, железо — дешевле. Но принципы останутся:

Берёшь достаточно памяти, а не максимальные FLOPS
Выбираешь специализированные модели для кодинга, а не общие
Настраиваешь воспроизводимую среду (NixOS, Docker)
Интегрируешь в рабочий процесс, а не используешь как игрушку

Следующий шаг — автономные агенты. Не просто «напиши скрипт», а «проанализируй логи за неделю, найди аномалии, предложи и внедри исправления». Для этого понадобятся уже более сложные системы, возможно, с несколькими специализированными моделями.

Но начинать нужно с малого. RTX 3090 за 500$, DeepSeek-Coder 6.7B, NixOS. Через неделю ты будешь удивляться, как раньше жил без этого.

💡

Самая большая ошибка — откладывать на «когда будут деньги/время/подходящая модель». Начинай сегодня с того, что есть. Даже на CPU с 7B моделью в Q2 квантованности можно генерировать простые скрипты. Главное — начать использовать.

Бюджетный AI для админа: как собрать систему, которая пишет скрипты за тебя