Локальная LLM для разработки игр: GPT-OSS-120B и Godot на практике | AiManual
AiManual Logo Ai / Manual.
23 Фев 2026 Гайд

Как использовать локальную модель gpt-oss-120b для разработки игр в Godot: кейс с снобом-магом

Полный гайд по использованию GPT-OSS-120B для создания игр в Godot Engine. Настройка, инструменты, промпты и реальный кейс с NPC.

Почему локальная LLM для разработки игр - это не безумие, а стратегия

Еще в прошлом году идея запустить 120-миллиардную модель на домашнем железе казалась фантастикой. Сегодня, в феврале 2026, это рабочая практика. Особенно для разработки игр, где нужна не просто генерация кода, а понимание контекста, геймдизайна и механик.

Представьте: вы пишете игру в Godot. Нужен NPC-маг, который не просто ходит туда-сюда, а имеет характер, реплики, уникальное поведение. ChatGPT просит $20 в месяц, Gemini иногда глючит, а ваша локальная GPT-OSS-120B просто работает. Без интернета. Без лимитов. Без цензуры.

Главный миф: локальные модели медленные. Правда: при правильной настройке GPT-OSS-120B генерирует код быстрее, чем вы успеваете продумать архитектуру. Особенно если у вас есть RTX 4090 или две.

Что за зверь - GPT-OSS-120B в 2026 году

Это MoE-архитектура (Mixture of Experts), где 120 миллиардов параметров распределены между 16 экспертами. На практике это означает: модель умнее, чем кажется по размеру. Она понимает контекст до 32K токенов, что для разработки игр - просто подарок.

Почему именно эта модель, а не Qwen3-235B или GLM-5-744B? Все просто: GPT-OSS-120B обучена на огромном количестве кода, включая GDScript. Она знает Godot API лучше некоторых разработчиков. Проверено лично в сравнении с Qwen3-235B и GLM-5-744B.

💡
MoE-архитектура - это когда модель состоит из "экспертов", каждый из которых специализируется на своей задаче. При генерации активируются только нужные эксперты, что экономит ресурсы. Именно поэтому GPT-OSS-120B работает быстрее, чем монолитные модели сравнимого размера.

Железо: что нужно, чтобы не сжечь видеокарту

Здесь все серьезно. GPT-OSS-120B - не игрушка для ноутбука. Минимум:

  • RTX 4090 с 24GB VRAM (лучше две)
  • 64GB оперативки DDR5
  • Процессор с поддержкой AVX2 (любой современный)
  • SSD NVMe для хранения модели (файл весит ~60GB)

Если у вас нет такого железа - не отчаивайтесь. Есть вариант с облачным сервером, но тогда теряется главный плюс - локальность.

Альтернатива: использовать квантованную версию модели (q4_k_m или q5_k_m). Она занимает меньше места, требует меньше VRAM, но немного теряет в качестве. Для разработки игр - приемлемый компромисс.

Инструменты: чем запускать и как работать

Тут три основных пути, и каждый со своими подводными камнями.

1 LM Studio: для новичков

Просто скачал, выбрал модель, нажал запуск. Интерфейс как у ChatGPT. Но есть проблема: интеграция с редактором кода через copy-paste. Неудобно, когда работаешь с большими файлами.

2 Ollama + VSCode расширения

Ollama запускает модель как сервис. Потом подключаешься через:

  • Continue.dev - самое популярное расширение
  • Claude Code - если любите интерфейс Anthropic
  • Cline - новый игрок, но уже достойный

Мой выбор - Continue.dev. Почему? Потому что он умеет собирать контекст автоматически. Открываешь файл с NPC-магом, пишешь "добавь диалоговую систему", и расширение само подтягивает связанные файлы.

3 Прямой запуск через llama.cpp

Для хардкорщиков. Максимальная производительность, полный контроль, но нужно знать командную строку.

./main -m models/gpt-oss-120b-q5_k_m.gguf \
  -c 32768 \
  --temp 0.7 \
  --repeat_penalty 1.1 \
  -n -1 \
  -p "[INST] Напиши код для Godot..."

Подробнее о настройке читайте в гайде по запуску GPT-OSS-120B.

Кейс: NPC-маг с характером сноба

Теперь практика. Создаем мага, который:

  1. Презирает новичков, но помогает за золото
  2. Имеет уникальные заклинания (не просто fireball)
  3. Меняет отношение к игроку в зависимости от действий
  4. Говорит сложными, витиеватыми фразами

Первое, что нужно сделать - настроить контекст для LLM. Без этого получится generic NPC.

Ошибка новичка: просто попросить "напиши NPC мага". Результат будет шаблонным и скучным. Нужен детальный промпт с характером.

Промпт для создания базового класса

[INST]
Ты опытный разработчик игр на Godot 4.3. Создай класс NPC-мага со следующими характеристиками:

Имя: Аркадиус
Черты характера:
- Сноб, считает себя выше других
- Любит сложные магические термины
- Помогает только за щедрую плату
- Теряет уважение к игроку, если тот делает глупые вопросы

Механики:
1. Система отношений (от -10 до 10)
2. Диалоговое дерево с условиями
3. Уникальные заклинания:
   - "Хрустальная паутина" (замедление)
   - "Эхо забытых слов" (урон по манне)
   - "Насмешка судьбы" (случайный эффект)
4. Торговля: цены зависят от отношения

Используй современный GDScript с typed arrays и сигналами.
Код должен быть готов к расширению.

Текущая структура проекта:
- res://characters/npc_base.gd (базовый класс NPC)
- res://dialogue/dialogue_system.gd (система диалогов)
- res://ui/dialogue_box.tscn (UI для диалогов)

Учти эти файлы в реализации.
[/INST]

GPT-OSS-120B справляется с такой задачей за 20-30 секунд. Генерирует не просто код, а код с комментариями, объяснениями и даже советами по балансу.

Как НЕ надо делать диалоги

# ПЛОХО: статичные диалоги
var dialogues = [
  "Привет, путник",
  "Купи зелье",
  "Пока"
]
# ХОРОШО: диалоги с условиями
class_name ArcadiusDialogue

extends Resource

var lines = {
  "greeting": {
    "text": "А, ещё один невежда, жаждущий моей мудрости? Ну что ж, я снизойду до объяснений... за соответствующую плату, разумеется.",
    "requirements": {
      "min_reputation": -10,
      "max_reputation": 10
    },
    "responses": [
      {
        "text": "Я готов заплатить",
        "next": "offer_spells",
        "reputation_change": 1
      },
      {
        "text": "Ты слишком высокомерен",
        "next": "insult",
        "reputation_change": -3
      }
    ]
  }
}

Vibecoding: рабочий процесс, который экономит часы

Vibecoding - это когда ты не просто пишешь код, а находишься в потоке. LLM становится не инструментом, а партнером. Вот как это работает на практике:

Этап Что делает разработчик Что делает LLM Инструмент
Проектирование Описание механик, создание промптов Генерация структуры классов, советов по архитектуре Continue.dev с контекстом проекта
Реализация Написание ключевых методов, отладка Генерация boilerplate кода, типовых функций VSCode + локальный сервер LLM
Контент Задание характеров, сюжетных поворотов Написание диалогов, описаний, имён Отдельный чат для нарратива
Оптимизация Профилирование, поиск узких мест Советы по оптимизации, альтернативные реализации Промпты с примером проблемного кода

Главный секрет: разделяйте задачи. Не просите LLM сделать всю игру сразу. Давайте конкретные, атомарные задания. "Добавь метод cast_spell в класс мага" вместо "Сделай систему магии".

Проблемы и их решения (из реального опыта)

Перегрев GPU

GPT-OSS-120B жрет видеопамять как не в себя. Решения:

  • Используйте квантование q4_k_m - потеря качества 5-10%, экономия памяти 40%
  • Ограничьте контекст до 8192 токенов для генерации кода (хватит с головой)
  • Настройте слойный offload в llama.cpp: часть модели в VRAM, часть в RAM

Мусорный код

Иногда LLM генерирует что-то странное. Промпт для рефакторинга:

[INST]
Перепиши этот код, исправляя проблемы:
1. Убери магические числа
2. Добавь обработку ошибок
3. Оптимизируй производительность
4. Следуй стилю Godot 4.3

{вставь проблемный код}
[/INST]

Контекстная слепота

LLM не видит весь проект. Решение: используйте инструменты вроде Continue.dev, которые автоматически собирают релевантные файлы. Или делайте это вручную:

[INST]
Вот структура проекта:
{структура}

Вот связанные файлы:
{код из 2-3 файлов}

Задача: {задача}
[/INST]

Сравнение с облачными альтернативами

Почему локальная модель лучше ChatGPT для разработки игр?

Критерий GPT-OSS-120B (локально) ChatGPT Pro Claude Code
Стоимость Одноразовая (железо) $20/месяц $20/месяц
Конфиденциальность Полная Нулевая Нулевая
Доступность Всегда Зависит от OpenAI Зависит от Anthropic
Контекст До 32K токенов 128K (но дорого) 200K (но медленно)
Специфика Godot Отличная Хорошая Средняя

Для небольших проектов можно использовать маленькие локальные модели, но для серьезной разработки нужна серьезная модель.

Что делать, если не хватает VRAM

Варианты, проверенные на практике:

  1. Клаудгейминг AI - арендуете сервер с A100/H100. Дорого, но мощно. Подробнее в статье про переход на локальные LLM.
  2. Локальный кластер - несколько карт в одном компьютере. Сложно настраивать, но результат того стоит.
  3. API к собственной модели - запускаете модель на мощном домашнем сервере, подключаетесь по сети с ноутбука.
💡
Совет из будущего: к концу 2026 года появятся потребительские карты с 48GB VRAM. Если можете подождать - подождите. Если нет - берите RTX 5090, когда выйдет (ожидается в конце 2025).

Итоговый рабочий процесс

После месяца экспериментов вот что работает лучше всего:

# Утро
1. Запускаю Ollama с GPT-OSS-120B
2. Открываю VSCode с Continue.dev
3. Делаю утренний промпт: "Что вчера сделал, что планирую сегодня"

# Работа
4. Пишу задачу в виде промпта
5. LLM генерирует код
6. Проверяю, тестирую, правлю
7. Если нужно - прошу рефакторить

# Вечер
8. Прошу сгенерировать документацию
9. Сохраняю лучшие промпты в базу знаний
10. Выключаю - экономия электричества

Аркадиус, наш NPC-маг, получился именно таким, каким задумывался. Снобистским, сложным, но интересным. Игроки его ненавидят и любят одновременно. Что еще нужно для хорошего персонажа?

Локальные LLM для разработки игр - это не будущее. Это настоящее. Просто нужно правильно подойти к настройке, выбрать подходящую модель (GPT-OSS-120B в нашем случае) и научиться с ней работать. Как когда-то учились работать с Git или с игровыми движками.

P.S. Если ваш маг начнет генерировать слишком умные диалоги и игроки будут жаловаться, что не понимают половину слов - вы на правильном пути. Это же сноб-маг, чего вы хотели?