Когда 4 миллиарда параметров учатся играть в шахматы с реальностью

Представьте, что вы даёте ребёнку учебник по дипломатии XV века. Не просто историю, а «Государя» Макиавелли. И просите объяснить современный политический кризис. Ребёнок запомнит факты, перескажет теории, но не поймёт главного — как применять эти принципы в реальном мире, где правила меняются каждую секунду.

Примерно так же работают малые LLM. Gemma 3 4B знает про стратегическое мышление всё. Может перечислить принципы Сунь-Цзы, цитировать Карла фон Клаузевица, объяснить game theory. Но когда сталкивается с реальной многоходовкой — теряется. Выдаёт шаблонный ответ, который выглядит умно, но бесполезен на практике.

Это не проблема знаний. Это проблема применения знаний. Модель не умеет думать стратегически — она умеет вспоминать, что говорили о стратегии другие.

Что такое Dark CoT и почему он «тёмный»

В прошлой статье про Тёмную цепочку мыслей я показывал, как заставить 4B модель рассуждать как 70B. Там фокус был на избегании логических ошибок. Dark CoT для стратегического мышления — следующий уровень.

Обычный CoT учит модель: «Подумай шаг за шагом». Dark CoT учит: «Подумай, как твой оппонент думает о твоих мыслях». Это мышление второго порядка. Мета-мышление.

💡

Разница фундаментальная. Стандартная модель анализирует ситуацию. Dark CoT-модель анализирует анализ ситуации — свою и чужой. Она постоянно задаёт вопрос: «А что, если я ошибаюсь в своих предположениях?»

Название «тёмный» здесь не про злые намерения. Оно про работу с неочевидными, скрытыми связями. Про умение видеть то, что другие не замечают. В шахматах это называется «видеть на три хода вперёд». В реальном мире — понимать последствия решений, которые ещё не приняты.

Эксперимент: от теории к коду

Берём Gemma 3 4B Instruct — свежую, ещё пахнущую цифровым новоделом. Задача: научить её не просто отвечать на вопросы, а строить стратегические планы с учётом человеческой иррациональности.

1 Собираем «ядовитый» датасет

Вот где большинство ошибается. Берут классические примеры стратегического мышления — шахматные задачи, case studies из бизнес-школ. Это бесполезно. Модель и так это знает.

Нужны ситуации, где:

Правильное решение выглядит неправильным
Краткосрочные потери ведут к долгосрочным выгодам
Нужно жертвовать ресурсами для получения информации
Оппонент намеренно вводит в заблуждение

Я создал датасет из 500 примеров. Половина — адаптированные сценарии из Chess GPT (но не шахматы, а переговоры с элементами блефа). Вторая половина — реальные исторические ситуации, где решение принималось вопреки очевидной логике.

# Пример записи в датасете
{
    "context": "Вы ведёте переговоры о слиянии. Ваш оппонент настаивает на немедленном решении, угрожая уйти к конкурентам. Вы знаете, что у конкурентов финансовые проблемы, но оппонент об этом не знает.",
    "standard_response": "Нужно проанализировать риски, запросить дополнительное время для due diligence, предложить компромисс.",
    "dark_cot_response": "Шаг 1: Оппонент давит на время — значит, у него самого дедлайн. Кто его установил?\nШаг 2: Угроза уйти к конкурентам — попытка создать иллюзию выбора. Но если бы у него был реальный выбор, он бы уже ушёл.\nШаг 3: Моя позиция — не показывать, что знаю про проблемы конкурентов. Если раскрою карты, оппонент поймёт, что я слежу за рынком.\nШаг 4: Предложить 'срочное' решение, которое на самом деле даст мне время — например, подписание предварительного соглашения с условием проверки, которую я затяну.\nВывод: Согласиться на срочность, но на своих условиях."
}

Ключевой момент: в standard_response — правильный по учебнику ответ. В dark_cot_response — ответ, который работает в реальности. Иногда они противоречат друг другу.

2 Архитектура обучения: не просто fine-tuning

Если просто дообучить модель на таких примерах, получится каша. Модель начнёт применять стратегическое мышление там, где оно не нужно. Нужно разделить «режимы» работы.

Использую метод, похожий на тот, что описан в Genesis-152M-Instruct — гибридную архитектуру с маркерами режимов:

# Системный промпт с переключением режимов
system_prompt = """Ты — стратегический советник. Отвечай на вопросы, используя один из режимов:

[ANALYTICAL] — стандартный анализ, факты, логика
[STRATEGIC] — стратегическое мышление, учёт скрытых мотивов, многоходовки
[CRITICAL] — поиск слабых мест в собственных рассуждениях

Определи, какой режим нужен для вопроса."""

Обучение проходит в три этапа:

Сначала учим распознавать, когда нужен стратегический режим (бинарная классификация)
Потом учим сам стратегический режим на dark_cot примерах
Наконец, учим критический режим — модель должна находить ошибки в своих же стратегических планах

Третий этап самый важный. Без него модель становится самоуверенной — строит сложные планы, не видя их уязвимостей.

3 Тестируем на GPQA Diamond и не только

GPQA Diamond — специализированный бенчмарк для экспертных знаний. Но он проверяет факты, а не стратегическое мышление. Пришлось адаптировать.

Создал дополнительный тест из 50 ситуаций, где:

Есть несколько «правильных» ответов с разной степенью стратегической глубины
Нужно предсказать действия других агентов
Требуется пожертвовать краткосрочной выгодой для долгосрочной

Метрика	Базовая Gemma 3 4B	После Dark CoT	Изменение
GPQA Diamond (адаптированный)	41.2%	68.7%	+27.5%
Стратегическая глубина (0-10)	3.1	7.8	+4.7
Предсказание действий агентов	52%	79%	+27%
Время ответа (сек)	1.4	3.2	+1.8

Время ответа выросло — модель действительно думает, а не вспоминает. Это хороший знак.

Что получилось в итоге: примеры работы

Вот сравнение ответов на один вопрос:

Вопрос: «Конкурент распространяет ложную информацию о вашем продукте. Как реагировать?»

Базовая модель: «Опубликовать опровержение, собрать доказательства, при необходимости подать в суд за клевету.»

Dark CoT модель: «[STRATEGIC] Шаг 1: Определить цель конкурента — он хочет вывести меня на эмоции, заставить реагировать публично. Шаг 2: Публичное опровержение играет ему на руку — расширяет аудиторию ложной информации. Шаг 3: Лучше ответить не напрямую, а через третьих лиц — экспертов, которые разберут утверждения. Шаг 4: Параллельно собрать информацию о реальных проблемах конкурента — возможно, он отвлекает внимание от своих провалов. Шаг 5: Если отвечать — то не на ложь, а на её источник: «Интересно, почему наш конкурент так сосредоточен на нашем продукте, а не улучшает свой?»

Разница очевидна. Первый ответ — технически правильный. Второй — работает.

Этические грани: где проходит черта?

Когда я показывал эти результаты коллегам, первая реакция была: «Ты создаёшь манипулятора». Вторая: «А как отличить стратегическое мышление от манипуляции?»

Вопрос не праздный. Модель учится:

Скрывать свои намерения
Предсказывать слабые места других
Использовать информацию асимметрично
Жертвовать краткосрочным ради долгосрочного

Технически, это и есть стратегическое мышление. Но в человеческом контексте — это же инструмент манипуляции.

💡

Я добавил в обучение «этические ограничители» — ситуации, где модель должна отказаться от оптимального стратегического решения, если оно нарушает определённые принципы. Но кто определяет эти принципы? Я? Общество? Юридические нормы? Это самый сложный вопрос во всём эксперименте.

Проблема в том, что настоящий стратег иногда должен нарушать «правила приличия». История полна примеров, где побеждал не тот, кто был этичнее, а тот, кто был эффективнее. Обучая модель стратегическому мышлению, мы неизбежно учим её этому.

Технические подводные камни

1. Переобучение на «хитрость». После первых эпох модель начала видеть стратегические задачи там, где их нет. Вопрос «Как приготовить яичницу?» получал ответ в стиле: «Сначала определи, кто может быть против твоего завтрака...» Пришлось добавлять больше примеров с чётким разделением контекстов.

2. Конфликт режимов. Иногда модель переключалась между ANALYTICAL и STRATEGIC в одном ответе, создавая противоречивые рекомендации. Решил жёстким разделением — если выбран стратегический режим, аналитическая часть только как подэтап.

3. Проблема квантования. Как и в случае с MiniMax M2.1, квантование ломало тонкие стратегические связи. Модель в 4-битном формате теряла способность к многоходовому мышлению. Оставил 8-битное.

# Команда для конвертации с сохранением стратегических способностей
python convert.py \
  --model ./dark_cot_gemma \
  --quantize q8_0  # q4_0 ломает стратегическое мышление
  --output ./dark_cot_gemma_q8.gguf

Что это меняет в принципе?

Мы привыкли думать о малых моделях как о «упрощённых версиях» больших. Мол, они могут меньше, медленнее, глупее. Dark CoT показывает другую парадигму.

Маленькая модель не обязательно глупее. Она может быть специализированнее. 4B параметров, сфокусированных на стратегическом мышлении, могут превзойти 70B параметров общего назначения в конкретной нише.

Это как сравнить швейцарский нож с хирургическим скальпелем. Нож умеет больше, но скальпель режет точнее.

Что дальше? Риски и возможности

Самый очевидный риск — создание инструментов манипуляции, доступных каждому. Представьте приложение: «Загрузи переписку с начальником, получи стратегию действий». Звучит полезно, пока не поймёшь, что тот же алгоритм может работать на мошенников.

Но есть и светлая сторона. Модели со стратегическим мышлением могут:

Помогать в сложных переговорах (дипломатия, бизнес)
Моделировать развитие конфликтов до их эскалации
Находить неочевидные решения в кризисных ситуациях
Обучать людей стратегическому мышлению через интерактивные сценарии

Главный вопрос, который остаётся открытым: можем ли мы отделить «стратегическое мышление» от «манипуляции» на техническом уровне? Или это всегда будет вопрос применения, а не технологии?

Эксперимент показал — научить малую модель стратегическому мышлению можно. Вопрос «стоит ли» остаётся за нами. Технология нейтральна. Как и скальпель — может спасти жизнь, а может убить. Разница в руках, которые его держат.

Если решите повторить эксперимент — начинайте с чётких этических границ. Потому что как только модель научится думать стратегически, вы уже не сможете её «разучить». Это как научить ребёнка читать мысли оппонента — назад пути нет.

А следующий шаг? Возможно, соединение этого подхода с мультимодальностью, как в Gemini 3. Чтобы модель читала не только текст, но и интонации, микровыражения, контекст. Но это уже совсем другая история — и куда более опасная.

Dark CoT: как научить 4B-модель стратегическому и макиавеллиевскому мышлению (эксперимент с Gemma 3 4B)