Публикация AiManual

Gemma 4 12B: первое ручное тестирование локальной мультимодальной модели с зрением, аудио и вызовом инструментов

Первые впечатления от Gemma 4 12B: работает ли она на 8GB RAM? Как распознает изображения и звук? Тестируем инструменты и сравниваем с Qwen. Честный разбор.

2 мин чтения 07.06.2026

Коротко

Что будет в материале

01
Что внутри: зрение, слух и руки
02
Тест на железо: 8GB хватит?
03
Tool calling: почему он сломан
04
Аудио-фишка: слушает и понимает

Две недели назад Google выкатил Gemma 4 12B. Маленькая модель с большими амбициями: зрение, слух, вызов инструментов — и всё это локально, на домашнем ПК. Звучит как сказка? Я решил проверить на своей «жалкой» машине с 8GB RAM и старым GTX 1660 (да, смейтесь). Спойлер: сказка получилась с горьковатым привкусом.

Что внутри: зрение, слух и руки

Gemma 4 12B — это не просто текстовая болтушка. Она приносит три суперспособности: Vision (понимает картинки), Audio (обрабатывает звук, вплоть до музыкальных инструментов) и Tool Use (умеет вызывать функции в диалоге). В теории — монстр. На практике... Запустить её локально оказалось проще, чем я ожидал: llama.cpp, Q4 квантизация, и модель влезла в 8GB. Но давайте по порядку.

Тест на железо: 8GB хватит?

Короткий ответ: да, хватит. Длинный ответ: еле-еле. Q4 версия весит около 7.2GB, плюс контекст. На моей системе она стартовала, но генерация первого токена заняла около 4 секунд. Дальше — 8-10 токенов в секунду. Терпимо для интерактива, но не для чата на скорости света. Если у вас 16GB — полет нормальный. 8GB — готовьтесь к тормозам на длинных промптах. Почему Google вообще решил сделать эту модель open-source — вопрос интересный, но факт: локально она работает.

Tool calling: почему он сломан

Теперь о грустном. Я подготовил простую функцию: get_weather(city). Gemma 4 12B в Q4 вызывала её правильно только в 3 случаях из 10. Остальное — либо игнорировала, либо генерировала невалидный JSON. Разбор этой проблемы уже есть, и я подтверждаю: Qwen 2.5 7B (тоже Q4) делает это в два раза точнее. Google обещал фикс в следующих версиях, но пока — зрелище не для слабонервных.

Аудио-фишка: слушает и понимает

А вот аудио — неожиданный сюрприз. Я скормил модели запись звонка в 30 секунд, попросил расшифровать и выделить ключевые просьбы. Gemma 4 справилась на ура: распознала слова, интонации, даже отметила где был сарказм. Как Google научил её это делать — загадка, но работает. Правда, на моём железе аудио-инференс съедал почти всю память, иногда вылетал. Если хотите нормально тестировать звук — берите 16GB.

Сравнение с Qwen: кто кого

Я прогнал два теста: распознавание кота на фотографии и расшифровка зашумлённой речи. По визуалу Gemma 4 12B не хуже Qwen: обе описали кота, породу (с горем пополам), окружение. По аудио — Gemma вырвалась вперёд: Qwen (у него нет встроенного аудио-кодера) потребовал сторонний движок. А вот tool calling — полный провал. Если ваш сценарий — ассистент с функциями, Gemma 4 пока не ваш выбор. Если нужен локальный мультимодальщик для диалогов с картинками и звуком — присмотритесь.

Итог неожиданный: модель сырая, но потенциал виден. Google наступил на те же грабли, что и раньше (помните три неудачные попытки дообучить Gemma 4?), но сам факт, что на 8GB работает Vision + Audio — уже победа. Через месяц-два, когда поправят инструменты, эта модель может стать стандартом для домашних проекта. А пока — экспериментируйте, но не ставьте на production.

Подписаться на канал