Идеальный шторм: два флагмана, один промпт и куча призраков
Когда я впервые запустил Qwen 3.6 27B — китайского гиганта с контекстом 256K — и рядом с ним Gemma 4 31B от Google, оба работали локально на моём 48-гигабайтном воркстейшене. В теории это должно было стать праздником технологии: две самые обсуждаемые модели 2026 года, способные генерировать целые игры одним промптом. На практике же получился забег с препятствиями, где каждый споткнулся о собственную логику.
Этот тест не про сухие бенчмарки вроде HumanEval. Это про живой сценарий: «Напиши HTML-версию Pacman с работающими призраками, подсчётом очков и кнопками управления». Формат — только чистый код внутри одного файла. Никаких фреймворков.
Зачем это вообще нужно? Потому что генерация кода для игр — лакмусовая бумажка для LLM. Тут и логика ИИ противника, и перерисовка канваса, и обработка коллизий, и UI. Если модель справляется с Pacman, она, скорее всего, выдаст толковый код и для чего-то скучного вроде корпоративного дашборда. Но только если у неё не съедет «кубик» в механике призраков — а такое случилось с обеими.
Qwen 3.6 27B: китайский дракон с кривыми зубами
Первым на ринг вышел Qwen 3.6. Модель долго думала — почти 40 секунд, — а потом выдала монолитную простыню в 600 строк. Код запустился с первой попытки (ура!), но призраки... они не двигались. Совсем. Я проверил — ошибка в расчёте направления: алгоритм БFS был написан с перепутанными координатами. Пришлось давать второй промпт с просьбой «исправить движение призраков». Вторая версия ожила, но призраки вели себя как пьяные — могли пройти сквозь стену, если путь блокировался. Классический кейс отсутствия проверки границ.
С другой стороны, Qwen 3.6 отлично нарисовал графику через Canvas — симпатичный жёлтый круг Пакмана, синие призраки, анимация рта. Игра была вполне играбельной, если не считать, что призраки иногда телепортировались в случайные точки. Повторный промпт «сделай призраков умнее» привёл к тому, что они начали убегать от игрока — модель перепутала роли. Пришлось переписывать логику с нуля, что в контексте «одного промпта» звучит как провал, но для эксперимента — ценный опыт.
Забавный факт: Qwen 3.6 в версии квантования до 14 ГБ (см. обзор Qwen3-30B квантованный против Qwen3-14B и Gemma-12B) выдал почти такой же результат на 12 ГБ VRAM, но в четыре раза медленнее. Так что 27B версия — это компромисс между качеством и скоростью.
Gemma 4 31B: академичный перфекционист с дырами в логике
Gemma 4 31B стартовала с преимуществом: она сразу написала код с комментариями, модульной структурой и даже с JSDoc. Красота! Но первая версия не запустилась — ошибка в импорте. После исправления Gemma выдала игру, где призраки двигались по строгому паттерну — влево-вправо по коридорам, как в турели. Никакого интеллекта. Это было даже смешнее, чем в Qwen, потому что код выглядел идеально, а игра — как демка 1982 года без ИИ.
Дополнительный промпт «призраки должны преследовать игрока» — и Gemma переписала половину кода, добавила алгоритм A*, но забыла про коллизии с точками. Пакман начал есть призраков, а не точки. Классический случай переобучения на задачу. В итоге я потратил больше времени на правки, чем если бы написал эту же игру вручную за 15 минут. Но это не вина модели — это ограничение одношаговой генерации. В обзоре сравнения Qwen3.5 и Gemma для генерации баг-репортов как раз отмечалось, что Gemma 4 лучше справляется с анализом кода, а не с его созданием с нуля.
Ещё один нюанс — потребление памяти. Gemma 4 31B с KV cache может «съесть» до 40 ГБ VRAM в полной точности. После квантования до 4 бит она влезает в 24 ГБ, но скорость падает вдвое. Как мы уже обсуждали в статье Gemma 4 против Qwen3.5: когда KV cache съедает вашу видеопамять, для игровой генерации лучше использовать модели с меньшим контекстом — 8-16K, а не 128K, которые Gemma по умолчанию активирует.
А что с предыдущими рекордами? Вспомним GLM-5 и Gemini
Этот эксперимент не первая попытка скрестить LLM и Pacman. Ранее мы сравнивали GLM 4.7 против Gemini 3 — там результат был неожиданно хорош для моделей в 10-15 раз меньше. А недавно GLM-5-744B показал, что гигантские модели способны на удивительные вещи, если правильно настроить промпт. Но в сегменте 27-31B конкуренция жёстче — каждый гигабайт на счету, и пользователи выбирают не по сырым параметрам, а по реальному опыту.
Например, для владельцев MacBook Pro на M4, которые хотят запустить модель локально, полный обзор LLM для геймдизайна показал, что Qwen 3.6 на 14B даёт почти такой же игровой результат, как 27B, при вдвое меньшем потреблении энергии. А Gemma 4, увы, на MacBook M4 даже с Unified Memory проигрывает по скорости из-за неоптимизированного ядра под Metal.
Практический вердикт: не верьте красивым цифрам
Qwen 3.6 27B выигрывает в скорости генерации и компактности (после квантования он весит около 16 ГБ против 22 ГБ у Gemma 4). Но его код требует доработок — особенно в части алгоритмов ИИ противника. Gemma 4 31B даёт более структурированный код, но требует больше ручных правок и памяти. В гонке за «Pacman с первого раза» обе модели провалились: ни одна не смогла сделать игру, полностью работающую без дополнительных промптов.
Но если всё же выбирать — для прототипирования игр я бы посоветовал Qwen 3.6 27B, потому что он проще в настройке и менее требователен к железу. А Gemma 4 — для случаев, когда код нужно интегрировать в существующий проект с чёткими требованиями к структуре. Впрочем, если у вас есть 48 ГБ VRAM и вы готовы писать многострочные промпты, можно запустить обе параллельно — полный гайд по железу для Gemma 4 подскажет, как выжать максимум.
Финальный совет: не пытайтесь получить играбельный Pacman за один промпт. Разбивайте задачу на этапы. И не забывайте, что KV cache — это не шутка: если он разрастётся, ваша видеокарта может сказать «до свидания» быстрее, чем Пакман съедает энерджайзер. Проверьте настройки контекста и, если сомневаетесь, используйте модели с фиксированным контекстом 8K.
Так кто же победил в этом забеге? Ответ неожиданный: инженер, который правильно написал промпт. Потому что обе модели — лишь инструменты, а качество кода по-прежнему зависит от того, как вы ставите задачу. И это, пожалуй, главный вывод из этого теста.