Зачем сравнивать локальное железо и облако в 2026 году?

Потому что ответ неочевиден. Два года назад локальные модели отставали на порядок. Сейчас все сложнее. Qwen 3.5-32B с агрессивным квантованием помещается в 16 ГБ VRAM и работает с бешеной скоростью. Облачная Kimi K2.5, с другой стороны, предлагает архитектуру Mixture of Experts с триллионом параметров за копейки за токен. Где реальная выгода? Не в абстрактных бенчмарках, а в вашей конкретной задаче.

Внимание: Все тесты проводились 25 марта 2026 года. Версии софта и моделей актуальны именно на эту дату. Если вы читаете это позже, цифры могут устареть.

Тестовый стенд: что у нас под капотом

Локальная часть:

Видеокарта: AMD Radeon RX 7800 XT с 16 ГБ GDDR6. Да, именно AMD. Потому что в 2026 году Vulkan и ROCm догнали CUDA для инференса.
Модель: Qwen 3.5-32B-Instruct, квантованная в формат unsloth/q2_K_XL через llama.cpp. Размер файла: ~12.5 ГБ. Почему этот формат? Он дает лучший баланс качества и скорости при 2-битном квантовании.
Софт: LM Studio версии 0.3.9 с включенной поддержкой Vulkan backend. Операционная система: Windows 11 24H2 с последними драйверами Adrenalin 26.3.1.

Облачная часть:

Сервис: Официальный API Moonshot AI для Kimi K2.5 (актуальный на март 2026).
Тариф: Pay-as-you-go, $0.12 за 1 млн входных токенов, $0.48 за 1 млн выходных.
Подключение: Стабильный канал 500 Мбит/с, пинг до серверов Moonshot ~45 мс.

💡

Если вы пытаетесь запустить Qwen 3.5-35B-A3B на ноутбуке, сначала прочитайте наш разбор железа. 35B версия требует другого подхода к квантованию и больше памяти.

1 Настройка LM Studio для AMD GPU: включаем Vulkan

Вот где большинство спотыкается. LM Studio по умолчанию использует CUDA или Metal. Для AMD карт нужно явно указать Vulkan. Если этого не сделать, скорость упадет в 5-10 раз.

Как НЕ надо делать: просто скачать модель и нажать "Загрузить". Получите 2-3 токена в секунду и решите, что локальный запуск - это ад.

Правильный путь:

Откройте LM Studio и перейдите в Settings -> Advanced.
В поле "Additional Launch Parameters" впишите: -ngl 99 --vulkan
-ngl 99 загружает все слои модели в VRAM (сколько поместится). --vulkan включает Vulkan backend.
Сохраните и перезапустите LM Studio.

Проверьте, что у вас установлены последние Vulkan Runtime Libraries. Без них флаг --vulkan не сработает. Скачайте с официального сайта Khronos.

2 Загрузка правильной квантованной модели

Не качайте первую попавшуюся Qwen 3.5 из списка. Формат квантования решает все. На 25.03.2026 лучший выбор для 16 ГБ карты - unsloth/q2_K_XL.

Почему?

q2_K_XL: 2-битное квантование с блоками повышенной точности для важных весов. Потери качества минимальны, выигрыш в памяти колоссальный.
unsloth: Библиотека для эффективного финетюнинга и квантования. Их версии моделей оптимизированы под скорость.

В LM Studio в поиске моделей введите: Qwen 3.5 32B unsloth q2_K_XL. Скачивание займет ~13 ГБ дискового пространства.

💡

Для сравнения: полная версия Kimi K2.5 в облаке имеет эффективные 48B параметров. Но за счет MoE-архитектуры активируется только часть. Подробности в нашем бенчмарке Kimi K2.5 на мощном железе.

Тест скорости: холодные цифры против живого ощущения

Промпт для теста (адаптированный из Open LLM Leaderboard):

Система: Ты - полезный ассистент. Отвечай кратко и по делу.

Пользователь: Объясни, как работает квантование Large Language Models, в трех предложениях. Начни ответ с "Квантование LLM - это".

Метрики локального Qwen 3.5:

Параметр	Значение	Комментарий
Скорость генерации (tokens/sec)	118-124	Пиковое значение, стабильно 120 t/s
Время до первого токена (TTFT)	420 мс	Включая загрузку промпта
Потребление VRAM	14.8 ГБ / 16 ГБ	Под завязку, но без свопа
Длина контекста (тест)	4096 токенов	Максимум для стабильной работы

Метрики облачного Kimi K2.5 через API:

Параметр	Значение	Комментарий
Скорость генерации (tokens/sec)	72-85	Зависит от нагрузки серверов
Время до первого токена (TTFT)	1100-1400 мс	Сеть + очередь облака
Стоимость запроса	~$0.00015	За тестовый промпт + ответ
Длина контекста	128000 токенов	Без падения скорости

Что это значит на практике? Локальный Qwen 3.5 в 1.5 раза быстрее в генерации и в 3 раза быстрее выдает первый токен. Но только на коротких контекстах. Как только вы переваливаете за 4K токенов, LM Studio начинает сбрасывать часть контекста в ОЗУ, и скорость падает до 40-50 t/s. Kimi K2.5 сохраняет стабильную скорость даже на 100K контексте.

Тест точности: кто умнее на реальных задачах?

Скорость - это хорошо, но бесполезна, если модель генерирует бред. Я взял три типа задач:

Кодинг: "Напиши функцию Python, которая проверяет, является ли строка палиндромом, игнорируя пробелы и регистр"
Логика: "Если Аня старше Бориса, а Борис старше Василия, то кто младше всех? Объясни цепочку рассуждений."
Креатив: "Придумай слоган для нового сервиса доставки, который использует дроны. В слогане должно быть слово 'небо'."

Результаты субъективны, но вот выводы:

Кодинг: Qwen 3.5 выдает рабочий код быстрее, но иногда забывает про обработку крайних случаев. Kimi K2.5 пишет более детальный код с комментариями, даже если не просили.
Логика: Обе модели справились. Kimi K2.5 дала более развернутое объяснение, Qwen 3.5 - краткий ответ.
Креатив: Kimi K2.5 явно выигрывает. Слоганы разнообразнее, менее шаблонные. Qwen 3.5 выдает что-то вроде "Небо - предел нашей доставки".

💡

Для чистого кодинга на локальной машине также стоит посмотреть обзор специализированных кодер-моделей. Qwen 3.5 - модель общего назначения.

Экономика: когда облако выгоднее?

Давайте посчитать. Стоимость видеокарты RX 7800 XT на март 2026 - около 700$. Плюс электричество, плюс время на настройку.

Облачный Kimi K2.5: 1$ дает вам примерно 8.3 млн входных токенов и 2.1 млн выходных.

Чтобы "отбить" стоимость видеокарты только на экономии токенов, нужно сгенерировать:

700$ * 2.1 млн токенов/$ = 1.47 миллиарда токенов

1.47 миллиарда токенов - это примерно 2.9 миллиона страниц текста. Если вы генерируете 100 страниц в день, карта окупится через 80 лет. (Шутка. Но не совсем.)

Реальные причины выбирать локальный запуск:

Конфиденциальность: Данные никуда не уходят.
Нет задержек сети: TTFT 400 мс против 1200 мс.
Плохой интернет: Облако бесполезно без стабильного соединения.
Постоянная нагрузка: Если вы генерируете тонны контента каждый день, облачный счет станет астрономическим.

Не забывайте про электричество. RX 7800 XT под нагрузкой потребляет ~260 Вт. При круглосуточной работе и тарифе 0.10$/кВт·ч это добавит 227$ в год к стоимости.

Частые ошибки и как их избежать

Ошибка 1: Драйверы не те

Симптом: LM Studio запускается, но скорость 5 t/s, хотя в настройках стоит --vulkan.

Решение: Убедитесь, что у вас установлены Adrenalin Edition драйверы, а не просто базовые Windows драйверы. Зайдите в AMD Software и проверьте версию. На 25.03.2026 нужна как минимум версия 26.3.1.

Ошибка 2: Неправильный формат модели

Симптом: Модель загружается, но выдает полную чушь или обрывается на полуслове.

Решение: Скачивайте модели только с доверенных источников в LM Studio. Формат GGUF с квантованием q2_K_XL, q4_K_M или q5_K_S. Избегайте экзотических форматов вроде EXL2 или AWQ для Vulkan.

Ошибка 3: Контекст слишком длинный

Симптом: Скорость падает с 120 t/s до 20 t/s после нескольких сообщений в диалоге.

Решение: В LM Studio ограничьте контекст до 4096 или 8192 токенов в настройках модели. Или чистите историю вручную. 16 ГБ VRAM хватает впритык для 32B модели и контекста 4K.

💡

Если у вас NVIDIA карта, сравнение производительности с AMD есть в нашей статье Radeon RX 7900 XTX против RTX 3090 в LM Studio. Выводы могут вас удивить.

Итог: что выбрать в марте 2026?

Если у вас уже есть карта на 16 ГБ VRAM - локальный Qwen 3.5 это мощный, быстрый инструмент для ежедневных задач. 120 токенов в секунду меняют восприятие чата. Вы задали вопрос - через секунду получаете развернутый ответ. Это стоит того, чтобы повозиться с настройкой Vulkan.

Если вы только планируете покупать железо - считайте. Серьезно. Возьмите калькулятор и прикиньте, сколько токенов в месяц вы генерируете. Для большинства индивидуальных пользователей облачный Kimi K2.5 выйдет дешевле. Даже при скорости 80 t/s.

Мой выбор? Я держу локальную модель для быстрых запросов, работы с конфиденциальными данными и экспериментов. А для сложных задач, длинных контекстов и креативной работы - иду в облако к Kimi. Это не бинарный выбор. Это два разных инструмента в арсенале.

К концу 2026 года этот баланс снова сместится. Локальные модели станут еще быстрее, облачные - еще умнее. Но принцип останется: железо покупается надолго, а облачный API оплачивается по факту использования. Считать надо оба варианта.

Подписаться на канал

Локальный Qwen 3.5 на 16 ГБ GPU против облачного Kimi K2.5: тест скорости и точности