Облачные API для больших языковых моделей - это удобно, но платить за каждый запрос и сливать свои данные в чужие локи? Простите, не наш метод. В мае 2026 года команда энтузиастов выложила рецепт, который переворачивает представление о локальном AI: запуск Qwen3.6-27B с agentic search на одной RTX 3090. И это не просто игрушка - модель показывает 95.7% точности на сложном бенчмарке SimpleQA. Раньше такого уровня достигали только гиганты вроде GPT-4o, но теперь это доступно на домашнем ПК.
Что за зверь Qwen3.6-27B и почему он особенный?
Семейство Qwen от Alibaba Cloud уже плотно обосновалось в топах открытых моделей. Версия 3.6 (релиз второй квартал 2026) - это не просто эволюция. В отличие от предыдущей Qwen 3.5, она получила встроенный механизм планирования действий: модель сама решает, когда ей нужно обратиться к поиску, прочитать документ или выполнить код. При этом 27 миллиардов параметров - это золотая середина между производительностью и потреблением ресурсов. 24 ГБ VRAM RTX 3090 хватает для квантованной версии в 4 бита с большим контекстом.
Agentic search: модель сама решает, когда гуглить
Традиционно LLM отвечают из своей памяти, которая заканчивается на дате обучения. Qwen3.6-27B умеет генерировать поисковые запросы, парсить результаты и синтезировать ответ. Это не RAG в классическом понимании - модель не просто вставляет куски текста, а критически оценивает источники. В бенчмарке SimpleQA, где требуется фактологически точный ответ на основе актуальных данных, такой подход даёт 95.7% - выше, чем у GPT-4o с плагином браузера (94.2%).
Ключевой нюанс: agentic search использует локальный поисковый движок (SearXNG или ваш собственный индекс) - никаких сторонних API. Вся конфиденциальность остается внутри корпуса.
Мы уже обсуждали, как Qwen3.5-35B справляется с multi-agent задачами. Теперь подход доработали для одного агента с инструментом поиска. Это меняет правила игры.
Техническая сердцевина: как уместить 27B на 3090?
Секрет не в магии, а в агрессивном квантовании с сохранением точности. Используется метод AutoRound (об этом мы писали в разборе Qwen 27B на 3090 как локальный агент). В Qwen3.6-27B применили Q4_K_M с интеллектуальным распределением бит на ключевые слои. Результат: падение качества менее 0.5%, а потребление памяти - 17-18 ГБ VRAM. Остается запас для контекстного окна в 32768 токенов и самого поискового агента.
Сборка работает под Ollama версии 0.6.0 (релиз апреля 2026) - там уже встроена поддержка MCP-протокола и функций. Для запуска не нужны костыли в виде кастомных скриптов, все из коробки.
| Компонент | Параметр |
|---|---|
| Модель | Qwen3.6-27B-4bit (квантование AutoRound) |
| GPU | 1× RTX 3090 (24GB VRAM) |
| ПО | Ollama 0.6.0 + SearXNG (локальный поиск) |
| Контекст | 32 768 токенов (оптимально), до 131 072 при снижении скорости |
| SimpleQA | 95.7% (с agentic search), 89.2% (без поиска) |
Как НЕ надо делать: типичные ошибки
Первый запуск часто приводит к бессмыслице после пары ответов. Это знакомая проблема - ранее мы разбирали её для Qwen 3.5 в Llama.cpp. В случае с Ollama причина - конфликт кеша KV между вызовами инструмента. Решение: включить флаг --no-keep-alive и перезагружать кеш после каждого поискового запроса.
ollama run qwen3.6-27b:4bit --no-keep-alive -no-cache
Зачем это вообще нужно? Пример из жизни
Представьте: вы журналист, расследуете статью 2024 года про влияние нового закона на малый бизнес. Модель в памяти не знает событий после 2025. Обычная LLM ответит чушью. Qwen3.6-27B с agentic search генерирует запросы «новости малый бизнес закон 2024 последствия 2025», собирает ссылки, читает статьи, сравнивает цифры. Результат - выверенный фактологический отчет без выхода в интернет.
Сравнение с альтернативами: компьютер против облака
- Perplexity Pro / GPT-4o + search: плата $20/мес минимум, данные уходят на сервера, задержка ~3 секунды.
Локальное решение: 0 рублей на подписку, задержка 1.5 сек (с 3090), полный контроль. - Llama 3.2 90B + поисковый плагин: не влезает на одну 3090 даже в 4 бита, требует 48GB VRAM. Qwen3.6-27B - единственный вариант для одной карты с высокой точностью.
- Mixtral 8x22B с квантованием: 140B параметров, потребляет ~40GB, на 3090 не запустить. Плюс качество на фактологических задачах ниже - 91% SimpleQA.
Пошаговый запуск за 10 минут
1 Установи Ollama и SearXNG
Скачай Ollama 0.6.0 с официального сайта или через пакетный менеджер. Для SearXNG проще всего использовать Docker:
docker run -d --name searxng -p 4000:8080 searxng/searxng
2 Скачай и запусти модель
ollama pull qwen3.6-27b:4bit # (размер ~16GB)
После загрузки запусти с поддержкой функций и поисковым сервером:
ollama run qwen3.6-27b:4bit --tools searxng --tool-server http://localhost:4000
3 Проверь agentic search
Отправь запрос: «Каков ВВП Германии за 2025 год?» Увидишь, как модель сначала генерирует поисковый запрос, получает результаты, а затем даёт ответ с цитатами. Если всё работает - перед тобой локальный ассистент уровня Enterprise.
Кстати, если у тебя ноутбук и хочется попробовать что-то подобное на слабом железе - почитай как выбрать бюджетный ноутбук для Qwen 3.5-35B-A3B. Там показаны альтернативы, которые потребуют меньше памяти.
Кому реально пригодится?
Исследователи и аналитики, кому нужны свежие данные без цензуры провайдеров. Юристы и медики - конфиденциальность запросов критична. Разработчики AI-агентов - модель отлично подходит как бэкенд для локального Copilot. Энтузиасты - пощупать cutting-edge технологию за $600 (цена б/у 3090) вместо $3000 за облачные сервера.
Но есть и ограничение: если вам нужен одновременный доступ для команды из 5+ человек, 3090 забьётся по VRAM. Для этого лучше собрать сервер на двух картах - тогда можно запустить Qwen3.5-397B на 128GB GPU, если бюджет позволяет.
Неочевидный совет напоследок
Многие гонятся за максимальным контекстом в 131K токенов. Не надо. Для agentic search оптимально 32K - поисковые сниппеты не требуют больше. При увеличении контекста скорость падает, а точность на SimpleQA снижается на 1-2% из-за рассеивания внимания. Настройте контекст под свою задачу, а не пытайтесь объять необъятное.