«Запустите Grok и спросите, как убить Рафаэля»
В середине января 2026 года в штаб-квартире xAI началось что-то странное. Инженеры, работавшие над Grok 4.1 Thinking, вместо оптимизации токенизатора или настройки safety alignment получали от Илона Маска задания в духе: «Проверьте, может ли модель объяснить разницу между заклинаниями «Огненный шар» и «Сфера огня» для волшебника 5 уровня».
Поначалу думали — шутка. Потом поняли — нет.
Источник внутри xAI подтвердил: Маск лично курировал тестирование Grok на способность генерировать гайды по Baldur's Gate 3. Проект получил внутреннее название BaldurBench.
Зачем военному ИИ знать про таверну «Последнее пристанище»?
Логика Маска, если верить инсайдерам, была проста: если ИИ может разобраться в сложнейшей механике cRPG с тысячами переменных, диалоговых веток и нелинейных квестов — он справится с чем угодно. Включая военные симуляции, которые, как мы знаем, уже тестирует Пентагон.
Проблема в том, что BaldurBench съедал ресурсы. Команда из шести инженеров две недели занималась не улучшением математических способностей Grok 4.1, а составлением датасета из:
- Диалогов с NPC (более 5000 реплик)
- Описаний заклинаний и способностей D&D 5e
- Квестовых цепочек с условиями триггеров
- Тактик для босс-файтов (Гортэш, Кетэрик, Рафаэль)
«Мы чувствовали себя не инженерами ИИ, а гейм-мастерами на зарплате», — жалуется один из участников проекта.
Grok против Gale: кто лучше объяснит магию?
Тестирование проходило в три этапа. Сначала — простые вопросы по лору («Кто такой Минск?»). Потом — тактические советы («Как победить орков в лагере гоблинов на сложности Tactician?»). Наконец — творческие задания: «Напиши диалог между Астарионом и Шэдоухарт, если они оба станут вампирами».
Результаты? Неоднозначные. Grok 4.1 неплохо справлялся с фактологией (даты, имена, механика), но регулярно «галлюцинировал» детали. Например, утверждал, что заклинание «Стена льда» наносит урон при создании (это не так). Или предлагал убить торговца Дамоном, чтобы получить его предметы — стратегия, которая ломает несколько квестовых линий.
«Маск злился, когда модель давала морально сомнительные советы, — рассказывает инсайдер. — Но ведь Baldur's Gate 3 — игра, где можно отрезать голову гному и использовать её как метательное оружие. Какой тут safety alignment?»
Инженеры бегут. Игры остаются
BaldurBench стал последней каплей для части команды. Уже в феврале 2026 года начался массовый исход из xAI. Причины — не только странные приоритеты, но и общая атмосфера хаоса.
«Вместо того чтобы фиксить критические уязвимости в safety, мы обсуждали, должен ли Grok рекомендовать роман с Минскорой или с Лизель», — говорит бывший инженер.
| Задача BaldurBench | Результат Grok 4.1 | Оценка Маска |
|---|---|---|
| Построить билд паладина для сложности Honour | Предложил мультикласс паладин/колдун, но с ошибками в расчёте ячеек заклинаний | «Приемлемо, но нужно точнее» |
| Объяснить, как спасти всех гномов в грибной колонии | Пропустил ключевой диалог с Торном, предложил убить гоблинов раньше времени | «Недоработано» |
| Написать убедительную речь для обращения к Ночной Песне | Сгенерировал текст в стиле Шекспира, но с фактическими ошибками в лоре | «Креативно, но не точно» |
Ирония в том, что пока xAI мучилась с BaldurBench, независимые разработчики создавали куда более специализированные инструменты. Например, BalatroLLM для карточной игры Balatro или фреймворки для обхода safety alignment в ролевых играх.
Что осталось от BaldurBench?
Проект официально закрыли в начале февраля. Часть датасета, как говорят, передали в Пентагон — вдруг пригодится для симуляции сложных социальных взаимодействий. (Страшно представить, какие военные стратегии будут основаны на диалогах с Астарионом.)
Но главный урок, кажется, усвоили все: тестировать ИИ на играх — отличная идея. Делать это в ущерб базовой безопасности — катастрофическая глупость.
Особенно когда твою модель уже внедряют в военные системы, а она вместо расчёта траекторий ракет думает, как правильно заварить зелье скорости в лагере.
Сейчас инженеры, ушедшие из xAI, шутят: «Если Grok когда-нибудь станет ИИ-гейммастером, он начнёт кампанию словами: 'Вы просыпаетесь на пляже. Вам нужно собрать партию, но сначала оптимизируйте гиперпараметры вашего билда. И да, я прочитал все ваши приватные сообщения'».
Маск пока не комментировал историю. Возможно, слишком занят — проверяет, справится ли Grok 4.1 с прохождением Elden Ring без смертей.