Когда интернет отключают, а ответы нужны сейчас
Представьте: вы в стране, где ChatGPT заблокирован, Gemini недоступен, а доступ к любым зарубежным AI-сервисам перекрыт на уровне провайдера. Традиционные VPN работают с перебоями, а иногда и их блокируют. Но вам нужно перевести документ, написать код, проанализировать данные. Что делать?
Ответ лежит не в обходе блокировок, а в их полном игнорировании. Локальные LLM - это ваш личный AI, который работает без единого запроса в интернет. Никаких цензоров, никаких фильтров, никаких ограничений по географии.
Важно: эта статья носит исключительно образовательный характер. Использование технологий должно соответствовать законодательству вашей страны.
Почему именно Gemma3 и Qwen3 в 2026 году?
Выбор моделей для локального запуска - это всегда компромисс между качеством, размером и скоростью. На 25 января 2026 года ситуация выглядит так:
| Модель | Версия | Размер | Требования VRAM | Ключевая фишка |
|---|---|---|---|---|
| Gemma3 | 12B (uncensored) | ~7.5 GB (4-bit) | 8 GB+ | Минимальная цензура, отличное качество кода |
| Qwen3 | 8B Instruct | ~4.5 GB (4-bit) | 6 GB+ | Поддержка русского, китайского, английского |
Gemma3 12B - это обновленная версия модели от Google, которая в 2026 году получила значительные улучшения в кодировании и логическом мышлении. Uncesored-версия означает, что разработчики убрали большинство встроенных фильтров и ограничений.
Qwen3 8B от Alibaba - это мультиязычная модель, которая отлично понимает контекст на русском. В отличие от многих западных моделей, она не пытается навязывать определенную точку зрения, а просто отвечает на вопросы.
Подготовка: что нужно перед началом
Не начинайте скачивать 50 GB моделей, пока не проверили эти три пункта:
- Место на диске: Вам нужно минимум 30 GB свободного места. Модели, инструменты, кэш - всё это занимает место.
- Оперативная память: 16 GB RAM - это минимум для комфортной работы. 32 GB - идеально.
- Видеопамять: 8 GB VRAM достаточно для Gemma3 12B в 4-bit. Для Qwen3 8B хватит и 6 GB.
Если у вас нет мощной видеокарты, не отчаивайтесь. Llama.cpp умеет работать и на CPU, просто будет медленнее. На современном процессоре (Ryzen 7 / Core i7 и новее) вы всё равно получите 5-10 токенов в секунду - достаточно для диалога.
Шаг за шагом: собираем автономный AI
1 Устанавливаем llama.cpp - наш основной движок
Llama.cpp - это не просто библиотека, это целая экосистема для запуска моделей. В 2026 году она поддерживает практически все форматы: GGUF, GGML, даже некоторые оригинальные форматы PyTorch.
Откройте терминал и выполните:
# Клонируем репозиторий с последними изменениями
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
# Собираем с поддержкой CUDA (если есть NVIDIA карта)
make LLAMA_CUDA=1
# Или для CPU-версии (если видеокарты нет или мало памяти)
make
После сборки у вас появится исполняемый файл main - это и есть наш локальный AI. Но пока он пустой, как коробка без игрушки.
Совет: Если сборка вызывает ошибки, проверьте, что у вас установлены build-essential (Linux) или Visual Studio Build Tools (Windows). В 2026 году llama.cpp стала стабильнее, но проблемы с зависимостями всё ещё случаются.
2 Скачиваем модели: где найти и как проверить
Вот самая хитрая часть. Официальные репозитории моделей могут быть заблокированы. Но есть обходные пути.
Для Gemma3 12B uncensored ищите на Hugging Face по тегу gemma-3-12b-uncensored-gguf. Самый популярный вариант в 2026 году - квантование Q4_K_M. Он даёт хороший баланс между качеством и размером.
Для Qwen3 8B используйте поиск qwen3-8b-instruct-gguf. Обратите внимание на дату загрузки - берите самые свежие файлы (январь 2026 или позднее).
Как скачать, если основной сайт недоступен?
- Используйте зеркала Hugging Face (hf-mirror.com)
- Ищите торренты с моделями (да, такое есть, но проверяйте хэши!)
- Попросите друга из другой страны скачать и переслать через Resilio Sync или подобное
После скачивания проверьте целостность файла:
# Для Linux/Mac
md5sum gemma-3-12b-uncensored.Q4_K_M.gguf
# Сравните с хэшем из описания на Hugging Face
# Если хэши не совпадают - файл повреждён при скачивании
3 Первый запуск: от теста до реального диалога
Переместите скачанный файл модели в папку с llama.cpp. Теперь запустите тестовый запрос:
# Для Gemma3 с использованием видеокарты
./main -m gemma-3-12b-uncensored.Q4_K_M.gguf \
-p "Переведи на английский: Привет, как дела?" \
-n 50 \
--color \
-c 2048 \
-ngl 40
# Ключевые параметры:
# -m - путь к модели
# -p - промпт (запрос)
# -n - количество токенов для генерации
# -c - размер контекста (сколько помнит модель)
# -ngl - сколько слоёв загружать на GPU (больше = быстрее, но нужно больше VRAM)
Если всё работает, вы увидите ответ модели. Медленный, но работающий.
Теперь создайте простой скрипт для удобства:
#!/bin/bash
# Файл: run_ai.sh
MODEL="gemma-3-12b-uncensored.Q4_K_M.gguf"
CONTEXT=4096
GPU_LAYERS=40
./main -m $MODEL \
--interactive \
--interactive-first \
-c $CONTEXT \
-ngl $GPU_LAYERS \
--color \
-r "User:" \
--in-prefix " "
Запустите chmod +x run_ai.sh и затем ./run_ai.sh. Теперь вы можете общаться с моделью в интерактивном режиме.
Оптимизация: как выжать максимум из своего железа
Стандартные настройки llama.cpp не всегда оптимальны. Вот что я настраиваю после сотни запусков:
| Проблема | Решение | Параметр |
|---|---|---|
| Медленная генерация | Увеличить batch size | -b 512 или --batch-size 512 |
| Съедает всю RAM | Ограничить потоки CPU | -t 4 (вместо автоматического определения) |
| Плохое качество ответов | Настроить температуру | --temp 0.7 (меньше = консервативнее) |
| Модель "забывает" начало | Включить внимания сдвиг | --rope-freq-base 10000 |
Мой идеальный конфиг для Gemma3 12B на карте с 8 GB VRAM:
./main -m gemma-3-12b-uncensored.Q4_K_M.gguf \
--interactive \
-c 4096 \
-ngl 35 \ # Оставляем 1-2 GB VRAM про запас
-b 512 \
-t 6 \ # 6 потоков CPU
--temp 0.8 \
--top-p 0.95 \
--repeat-penalty 1.1 \
--mlock \ # Держать модель в RAM (быстрее)
--no-mmap \ # Не использовать mmap (стабильнее)
-r "User:"
Чего не хватает в локальных моделях (и как это исправить)
Локальные LLM - не волшебная таблетка. У них есть ограничения:
- Нет актуальных знаний: Модель заморожена на дате своего обучения (обычно 2024-2025). Решение: используйте RAG (Retrieval Augmented Generation) с локальной базой документов.
- Медленный поиск: Нет быстрого доступа к интернету. Решение: предварительно скачивайте нужные данные (википедию, документацию) и индексируйте с помощью ChromaDB или Qdrant.
- Ограниченный контекст: 4K-8K токенов против 128K у облачных моделей. Решение: используйте суммаризацию длинных текстов и иерархическое внимание.
Для RAG я использую связку llama.cpp + локальная LLM для Obsidian. Сначала индексирую документы, потом задаю вопросы по ним.
Ошибки, которые все совершают (и как их избежать)
Ошибка 1: Скачивают первую попавшуюся модель без проверки версии. В январе 2026 года уже есть Gemma3 12B, но многие до сих пор качают Gemma2. Проверяйте даты!
Ошибка 2: Забывают про квантование. Оригинальная Gemma3 12B весит 24 GB. В 4-bit - всего 7.5 GB. Разница в качестве минимальна, а в скорости и требованиях - огромна.
Ошибка 3: Пытаются запустить 12B модель на 4 GB VRAM. Не выйдет. Либо берите меньшую модель (Qwen3 8B), либо используйте CPU + RAM, либо делайте очень агрессивное квантование (2-bit).
Ошибка 4: Не настраивают систему охлаждения. LLM нагружают видеокарту на 100% на долгое время. Если у вас ноутбук - поставьте его на подставку с вентиляцией. Десктоп - проверьте, что кулеры чистые.
А что насчет альтернатив? Ollama, vLLM, MLX
Llama.cpp - не единственный игрок. В 2026 году есть несколько интересных вариантов:
- Ollama: Проще в установке, но менее гибкая. Подробнее в нашем сравнении Ollama с другими системами.
- vLLM: Быстрее для инференса, но требует больше памяти. Хорошо для продакшена.
- MLX: Экосистема Apple для запуска на M-чипах. Если у вас Mac - это ваш выбор.
Но для нашей задачи (автономность, минимальные требования, работа в ограниченных условиях) llama.cpp всё ещё король. Она работает везде: от старого ноутбука до Raspberry Pi.
Будущее локальных LLM в условиях цензуры
К 2026 году тренд ясен: модели становятся меньше, но умнее. Gemma3 12B по качеству близка к GPT-4 2024 года, но работает локально. Qwen3 8B понимает русский лучше многих специализированных моделей.
Что будет дальше?
- Модели 3-bit и 2-bit: Качество почти не страдает, а размер уменьшается в разы.
- Специализированные версии: Модели, обученные только на код, только на медицинские тексты, только на юридические документы.
- Полная офлайн-экосистема: Не только генерация текста, но и поиск по документам, анализ данных, даже генерация изображений (Stable Diffusion локально).
Самая интересная разработка 2026 года - это локальные мультимодальные модели, которые понимают и текст, и изображения, и аудио. Пока они требуют много ресурсов, но через год-два будут работать на среднем ПК.
Если сегодня вы настроили Gemma3 или Qwen3 - вы уже на шаг впереди. Когда интернет отключат в следующий раз, у вас будет свой личный AI, который работает без разрешений, без ограничений, без цензоров. Просто нажмите Enter и спросите.