Когда интернет отключают, а ответы нужны сейчас

Представьте: вы в стране, где ChatGPT заблокирован, Gemini недоступен, а доступ к любым зарубежным AI-сервисам перекрыт на уровне провайдера. Традиционные VPN работают с перебоями, а иногда и их блокируют. Но вам нужно перевести документ, написать код, проанализировать данные. Что делать?

Ответ лежит не в обходе блокировок, а в их полном игнорировании. Локальные LLM - это ваш личный AI, который работает без единого запроса в интернет. Никаких цензоров, никаких фильтров, никаких ограничений по географии.

Важно: эта статья носит исключительно образовательный характер. Использование технологий должно соответствовать законодательству вашей страны.

Почему именно Gemma3 и Qwen3 в 2026 году?

Выбор моделей для локального запуска - это всегда компромисс между качеством, размером и скоростью. На 25 января 2026 года ситуация выглядит так:

Модель	Версия	Размер	Требования VRAM	Ключевая фишка
Gemma3	12B (uncensored)	~7.5 GB (4-bit)	8 GB+	Минимальная цензура, отличное качество кода
Qwen3	8B Instruct	~4.5 GB (4-bit)	6 GB+	Поддержка русского, китайского, английского

Gemma3 12B - это обновленная версия модели от Google, которая в 2026 году получила значительные улучшения в кодировании и логическом мышлении. Uncesored-версия означает, что разработчики убрали большинство встроенных фильтров и ограничений.

Qwen3 8B от Alibaba - это мультиязычная модель, которая отлично понимает контекст на русском. В отличие от многих западных моделей, она не пытается навязывать определенную точку зрения, а просто отвечает на вопросы.

💡

Если у вас слабое железо (менее 8 GB VRAM), начинайте с Qwen3 8B. Она работает даже на некоторых интегрированных видеокартах при использовании llama.cpp с квантованием до 4-bit.

Подготовка: что нужно перед началом

Не начинайте скачивать 50 GB моделей, пока не проверили эти три пункта:

Место на диске: Вам нужно минимум 30 GB свободного места. Модели, инструменты, кэш - всё это занимает место.
Оперативная память: 16 GB RAM - это минимум для комфортной работы. 32 GB - идеально.
Видеопамять: 8 GB VRAM достаточно для Gemma3 12B в 4-bit. Для Qwen3 8B хватит и 6 GB.

Если у вас нет мощной видеокарты, не отчаивайтесь. Llama.cpp умеет работать и на CPU, просто будет медленнее. На современном процессоре (Ryzen 7 / Core i7 и новее) вы всё равно получите 5-10 токенов в секунду - достаточно для диалога.

Шаг за шагом: собираем автономный AI

1 Устанавливаем llama.cpp - наш основной движок

Llama.cpp - это не просто библиотека, это целая экосистема для запуска моделей. В 2026 году она поддерживает практически все форматы: GGUF, GGML, даже некоторые оригинальные форматы PyTorch.

Откройте терминал и выполните:

# Клонируем репозиторий с последними изменениями
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# Собираем с поддержкой CUDA (если есть NVIDIA карта)
make LLAMA_CUDA=1

# Или для CPU-версии (если видеокарты нет или мало памяти)
make

После сборки у вас появится исполняемый файл main - это и есть наш локальный AI. Но пока он пустой, как коробка без игрушки.

Совет: Если сборка вызывает ошибки, проверьте, что у вас установлены build-essential (Linux) или Visual Studio Build Tools (Windows). В 2026 году llama.cpp стала стабильнее, но проблемы с зависимостями всё ещё случаются.

2 Скачиваем модели: где найти и как проверить

Вот самая хитрая часть. Официальные репозитории моделей могут быть заблокированы. Но есть обходные пути.

Для Gemma3 12B uncensored ищите на Hugging Face по тегу gemma-3-12b-uncensored-gguf. Самый популярный вариант в 2026 году - квантование Q4_K_M. Он даёт хороший баланс между качеством и размером.

Для Qwen3 8B используйте поиск qwen3-8b-instruct-gguf. Обратите внимание на дату загрузки - берите самые свежие файлы (январь 2026 или позднее).

Как скачать, если основной сайт недоступен?

Используйте зеркала Hugging Face (hf-mirror.com)
Ищите торренты с моделями (да, такое есть, но проверяйте хэши!)
Попросите друга из другой страны скачать и переслать через Resilio Sync или подобное

После скачивания проверьте целостность файла:

# Для Linux/Mac
md5sum gemma-3-12b-uncensored.Q4_K_M.gguf

# Сравните с хэшем из описания на Hugging Face
# Если хэши не совпадают - файл повреждён при скачивании

3 Первый запуск: от теста до реального диалога

Переместите скачанный файл модели в папку с llama.cpp. Теперь запустите тестовый запрос:

# Для Gemma3 с использованием видеокарты
./main -m gemma-3-12b-uncensored.Q4_K_M.gguf \
  -p "Переведи на английский: Привет, как дела?" \
  -n 50 \
  --color \
  -c 2048 \
  -ngl 40

# Ключевые параметры:
# -m - путь к модели
# -p - промпт (запрос)
# -n - количество токенов для генерации
# -c - размер контекста (сколько помнит модель)
# -ngl - сколько слоёв загружать на GPU (больше = быстрее, но нужно больше VRAM)

Если всё работает, вы увидите ответ модели. Медленный, но работающий.

Теперь создайте простой скрипт для удобства:

#!/bin/bash
# Файл: run_ai.sh
MODEL="gemma-3-12b-uncensored.Q4_K_M.gguf"
CONTEXT=4096
GPU_LAYERS=40

./main -m $MODEL \
  --interactive \
  --interactive-first \
  -c $CONTEXT \
  -ngl $GPU_LAYERS \
  --color \
  -r "User:" \
  --in-prefix " "

Запустите chmod +x run_ai.sh и затем ./run_ai.sh. Теперь вы можете общаться с моделью в интерактивном режиме.

Оптимизация: как выжать максимум из своего железа

Стандартные настройки llama.cpp не всегда оптимальны. Вот что я настраиваю после сотни запусков:

Проблема	Решение	Параметр
Медленная генерация	Увеличить batch size	`-b 512` или `--batch-size 512`
Съедает всю RAM	Ограничить потоки CPU	`-t 4` (вместо автоматического определения)
Плохое качество ответов	Настроить температуру	`--temp 0.7` (меньше = консервативнее)
Модель "забывает" начало	Включить внимания сдвиг	`--rope-freq-base 10000`

Мой идеальный конфиг для Gemma3 12B на карте с 8 GB VRAM:

./main -m gemma-3-12b-uncensored.Q4_K_M.gguf \
  --interactive \
  -c 4096 \
  -ngl 35 \  # Оставляем 1-2 GB VRAM про запас
  -b 512 \
  -t 6 \  # 6 потоков CPU
  --temp 0.8 \
  --top-p 0.95 \
  --repeat-penalty 1.1 \
  --mlock \  # Держать модель в RAM (быстрее)
  --no-mmap \  # Не использовать mmap (стабильнее)
  -r "User:"

Чего не хватает в локальных моделях (и как это исправить)

Локальные LLM - не волшебная таблетка. У них есть ограничения:

Нет актуальных знаний: Модель заморожена на дате своего обучения (обычно 2024-2025). Решение: используйте RAG (Retrieval Augmented Generation) с локальной базой документов.
Медленный поиск: Нет быстрого доступа к интернету. Решение: предварительно скачивайте нужные данные (википедию, документацию) и индексируйте с помощью ChromaDB или Qdrant.
Ограниченный контекст: 4K-8K токенов против 128K у облачных моделей. Решение: используйте суммаризацию длинных текстов и иерархическое внимание.

Для RAG я использую связку llama.cpp + локальная LLM для Obsidian. Сначала индексирую документы, потом задаю вопросы по ним.

Ошибки, которые все совершают (и как их избежать)

Ошибка 1: Скачивают первую попавшуюся модель без проверки версии. В январе 2026 года уже есть Gemma3 12B, но многие до сих пор качают Gemma2. Проверяйте даты!

Ошибка 2: Забывают про квантование. Оригинальная Gemma3 12B весит 24 GB. В 4-bit - всего 7.5 GB. Разница в качестве минимальна, а в скорости и требованиях - огромна.

Ошибка 3: Пытаются запустить 12B модель на 4 GB VRAM. Не выйдет. Либо берите меньшую модель (Qwen3 8B), либо используйте CPU + RAM, либо делайте очень агрессивное квантование (2-bit).

Ошибка 4: Не настраивают систему охлаждения. LLM нагружают видеокарту на 100% на долгое время. Если у вас ноутбук - поставьте его на подставку с вентиляцией. Десктоп - проверьте, что кулеры чистые.

А что насчет альтернатив? Ollama, vLLM, MLX

Llama.cpp - не единственный игрок. В 2026 году есть несколько интересных вариантов:

Ollama: Проще в установке, но менее гибкая. Подробнее в нашем сравнении Ollama с другими системами.
vLLM: Быстрее для инференса, но требует больше памяти. Хорошо для продакшена.
MLX: Экосистема Apple для запуска на M-чипах. Если у вас Mac - это ваш выбор.

Но для нашей задачи (автономность, минимальные требования, работа в ограниченных условиях) llama.cpp всё ещё король. Она работает везде: от старого ноутбука до Raspberry Pi.

Будущее локальных LLM в условиях цензуры

К 2026 году тренд ясен: модели становятся меньше, но умнее. Gemma3 12B по качеству близка к GPT-4 2024 года, но работает локально. Qwen3 8B понимает русский лучше многих специализированных моделей.

Что будет дальше?

Модели 3-bit и 2-bit: Качество почти не страдает, а размер уменьшается в разы.
Специализированные версии: Модели, обученные только на код, только на медицинские тексты, только на юридические документы.
Полная офлайн-экосистема: Не только генерация текста, но и поиск по документам, анализ данных, даже генерация изображений (Stable Diffusion локально).

Самая интересная разработка 2026 года - это локальные мультимодальные модели, которые понимают и текст, и изображения, и аудио. Пока они требуют много ресурсов, но через год-два будут работать на среднем ПК.

Если сегодня вы настроили Gemma3 или Qwen3 - вы уже на шаг впереди. Когда интернет отключат в следующий раз, у вас будет свой личный AI, который работает без разрешений, без ограничений, без цензоров. Просто нажмите Enter и спросите.

Локальные LLM против интернет-цензуры: как настроить Gemma3 и Qwen3 для обхода блокировок