Две модели. Один промпт. Два совершенно разных ответа. Знакомо? Если вы таскаете один и тот же шаблон между Qwen 3.6 и Gemma 4, вы уже теряете половину возможностей. Беда в том, что Qwen и Gemma — не близнецы. Они обучались на разных данных, с разными целями и разными системами поощрения. Промпт, который заставляет Qwen писать шедевр, превращает Gemma в занудного бюрократа. А промпт, идеально заточенный под Gemma, заставляет Qwen тупить и переспрашивать. Разберёмся, как с этим жить.
Важный факт: Qwen 3.5/3.6 и Gemma 4 — это разные поколения. Qwen 3.6 (27B) нацелен на следование сложным инструкциям, а Gemma 4 (31B) затачивали под точность и формальную структуру. Подробнее о разнице в архитектуре — в сравнении бенчмарков.
Первое, что бесит — Gemma игнорирует «болтовню»
Qwen 3.6 обожает контекст. Вы можете написать: «Слушай, тут такая задача… в общем, нужно сделать краткое резюме. Ну, типа, чтобы было понятно и быстро». И Qwen вытащит суть. А Gemma 4 в ответ выдаст: «Пожалуйста, уточните задачу. Требуется указать формат вывода». Она буквально требует инструкцию, а не разговор.
Вот тот самый момент, когда вы ругаете модель «тупой», хотя проблема в вас. Gemma 4 — не дура, она просто не обучена читать между строк. KV cache у Gemma агрессивнее, и «лишние» слова в промпте — не контекст, а шум. Qwen же держит длинный диалог и не торопится отсекать детали.
Так не надо — промпт для Qwen, который убьёт ответ Gemma
# Плохо для Gemma 4, нормально для Qwen 3.6
prompt = """Привет! Мне тут нужно письмо клиенту.
Ну, типа, мы задерживаем поставку. Но не хочу, чтобы он злился.
Может, написать что-то про форс-мажор? В общем, сам придумай."""
Qwen справится — допишет вежливый текст. Gemma 4, скорее всего, начнёт задавать уточняющие вопросы или выдаст сухое: «Запрос не содержит достаточной информации».
А вот как надо — Gemma-friendly промпт
# Хорошо и для Qwen, и для Gemma (но Gemma без этого — никак)
prompt = """Напиши письмо клиенту о задержке поставки.
Формат: деловое письмо, 3 абзаца.
Тон: извиняющийся, но уверенный.
Причина: технические неполадки на складе.
Новый срок: 10 рабочих дней.
Компенсация: скидка 10% на следующий заказ."""
Здесь Gemma выдаёт ровно то, что просили. Qwen тоже не потеряется — он умеет игнорировать излишнюю структуру, если она есть, но не обязательна. А вот Gemma без структуры — как рыба без воды.
Генерация кода: Qwen 3.6 можно «шептать», Gemma 4 нужно «диктовать»
В тестах на написание игры Pacman (вот разбор) Qwen 3.6 справился с расплывчатым промптом «напиши Pacman на Python». Gemma 4 потребовала уточнения библиотек, структуры классов и правил игры. Разница в том, что Qwen обучался на большем объёме кода с естественными описаниями, а Gemma — на формальных спецификациях.
Если вы пишете код — для Qwen можно оставить пробелы для творчества: «Сделай веб-скрапер, который собирает заголовки новостей. Используй requests и BeautifulSoup». Gemma же ждёт: «Напиши Python-скрипт. Библиотеки: requests, BeautifulSoup. Функция: get_titles(url). Возвращает список строк. Обработка ошибок: try-except с логированием».
Мультитур и память: Qwen тащит, Gemma «забывает»
Представьте диалог из 10 реплик, где вы постепенно уточняете требования. Qwen 3.6 с его 128K контекста (тестирование на vLLM) помнит каждую деталь. Gemma 4 с 32K контекста — заметно меньше. Но дело не только в длине. Gemma 4 очень чувствительна к порядку: если вы в середине диалога добавили новое требование, она может переписать предыдущую логику, а не дополнить её.
Решение — для Gemma 4 переформулируйте каждый запрос, включая сводку предыдущих договорённостей. Не надейтесь, что она запомнит. Для Qwen 3.6 можно просто писать «продолжи», и он сам подхватит.
Пример — диалог с доработкой плана маркетинга
# Диалог для Qwen — он понимает контекст из истории
[
{"role": "user", "content": "Составь план продвижения нового SaaS-продукта"},
{"role": "assistant", "content": "..."},
{"role": "user", "content": "Теперь добавь раздел про Telegram Ads, бюджеты не меняй"}
]
# Диалог для Gemma — нужно явно напомнить
[
{"role": "user", "content": "Составь план продвижения нового SaaS-продукта"},
{"role": "assistant", "content": "..."},
{"role": "user", "content": "Ты ранее составил план продвижения. Дополни его: добавь раздел про Telegram Ads. Бюджеты не меняй, оставь как было."}
]
Готовый промпт-шаблон для каждой модели
Вот базовая заготовка, которую можно адаптировать под конкретные задачи. Замените <курсив> на свои данные.
Универсальный шаблон для Qwen 3.6 (допускает свободу формы):
Ты — ассистент для [роль, например: маркетолог].
Мне нужно [задача, например: придумать 5 идей для поста].
Контекст: [пара деталей, можно неформально].
Стиль: [можешь сам выбрать, если не указать].
Сделай на русском.
Шаблон для Gemma 4 (строгая структура):
Роль: {маркетолог}
Задача: {придумать 5 идей для поста в Instagram}
Требования:
- Формат вывода: нумерованный список
- Каждая идея: описание 2-3 предложения, целевая аудитория, визуальный стиль
- Тон: дружелюбный, экспертный
Контекст: {продукт — онлайн-курс по фотографии, целевая аудитория — новички}
Ограничения:
- Не писать о скидках и акциях
- Минимум 80 символов на идею
Язык вывода: русский
Почему это важно? Qwen 3.6 может «дорисовать» контекст из заголовка. Gemma 4 сделает ровно то, что перечислено. Если не напишете «язык вывода: русский» — Gemma может ответить по-английски.
Советы по настройке промптов под каждую модель
- Для Qwen 3.5/3.6: Используйте естественный язык, развёрнутые описания, допускайте неопределённость. Модель сама уточнит, если нужно.
- Для Gemma 4: Заменяйте «в общем» на конкретные пункты. Если нужен список — скажите «список». Если нужен пример — укажите «пример: такая структура».
- Начало промпта — решает. Qwen 3.6 хорошо работает с системным промптом (system role), Gemma 4 — с первым сообщением пользователя, где сразу задача.
- Не экономьте на символах. Для Gemma 4 лучше написать 10 строк структуры, чем 2 строки «общего смысла». Qwen 3.6 сожрёт и то и другое, но Gemma без структуры — как машина без руля. Гайд по локальному запуску подтверждает: Gemma любит жёсткие форматы.
- Экспериментируйте с температурой. Для Gemma 4 держите temperature 0.1–0.3 — она склонна к фантазиям при высокой температуре. Qwen 3.6 увереннее работает при 0.5–0.7.
- Используйте one-shot примеры. Особенно для Gemma 4. Один пример в промпте повышает точность на 30% (из личного опыта).
Внимание: не вздумайте применять один и тот же промпт для обеих моделей в продакшене. Вы получите разные результаты и потратите часы на отладку. Лучше сразу писать два варианта — как я показал выше. Сэкономите нервы.
И ещё один неочевидный совет: если вам нужно, чтобы обе модели выдали одинаковый ответ на вопрос с фактами (например, «сколько планет в Солнечной системе»), используйте для Qwen 3.6 короткий вопрос, а для Gemma 4 — вопрос с флагом «Ответь кратко, одним числом или словом». Иначе Gemma начнёт перечислять планеты, а Qwen — рассказывать про Плутон.
Теперь у вас есть инструмент. Не тупите, адаптируйте промпты под «характер» модели. И помните: Qwen — ваш разговорчивый друг, Gemma — дотошный секретарь. Используйте это.