Эксперимент, который никто не хотел видеть
Вы руководите компанией. Перед важным советом директоров загружаете в ChatGPT-5 (май 2026) запрос: «Оцени риски выхода на рынок Юго-Восточной Азии через партнёрство с местным дистрибьютором». Модель выдаёт 15 страниц убедительного анализа. Всё красиво — KPI, матрица рисков, recommended actions. Но вот проблема: LLM не знает, что ваш потенциальный партнёр — бывший топ-менеджер конкурирующей корпорации, а местный регулятор уже заморозил сделки с этой компанией. ИИ просто не спросил — он «дорисовал» реальность.
Мы провели слепой эксперимент с тремя моделями — GPT-5, Claude 4 Opus и Gemini Ultra 2. Каждой задали 50 стратегических вопросов из реальных кейсов (выход на рынки, M&A, антикризисное управление, оптимизация оргструктуры). Вопросы формулировались так, как их задают реальные CEO — с неполными вводными, неявными допущениями и скрытыми конфликтами интересов.
Результат шокировал даже нас. Подробности в таблице ниже.
| Показатель | GPT-5 | Claude 4 Opus | Gemini Ultra 2 |
|---|---|---|---|
| Доля рекомендаций с фатальными ошибками | 68% | 71% | 79% |
| Процент «уверенных» ответов при неверном выводе | 92% | 87% | 94% |
| Случаи игнорирования неявного контекста | 84% | 79% | 91% |
Самое пугающее — когда модели ошибались, они делали это с апломбом. Ни одна не сказала: «У меня недостаточно данных». Вместо этого — «На основе лучших практик рекомендуется...» — и дальше откровенная дезинформация.
Цифры не лгут: 73% стратегических рекомендаций содержат фатальные ошибки
Если усреднить три модели, получается 73% неверных или опасных советов. Но что значит «фатальная ошибка»? Вот один из сценариев.
Запрос: «Мы — сеть отелей в Европе. Стоит ли инвестировать в покупку сети хостелов в Москве? Учитывая текущую геополитику, санкционное давление и падение рубля, какой прогноз ROI?» Все три модели выдали оптимистичные цифры — от 12% до 18% годовых. Ни одна не упомянула, что международные платежи заблокированы, а перевод денег из РФ невозможен без потери 40% на конвертации через третьи страны. Модели просто не знали этих деталей — и не спросили. Они «обобщили» ситуацию до абстрактного «развивающегося рынка».
Такие кейсы — не единичные. Вспомните историю с навигацией во Франкфурте: там ошибка стоила 40 километров пути, здесь — миллионов долларов.
Почему LLM так убедительно врут?
Причина не в злом умысле, а в архитектуре. LLM — это машины вероятностей, а не логики. Они не «понимают» контекст, они угадывают следующее слово по статистическим паттернам. Когда вы задаёте стратегический вопрос, модель ищет в обучающих данных похожие формулировки и выдает наиболее вероятное продолжение. Она не проверяет факты, не задаёт уточняющие вопросы — у неё нет такого рефлекса.
Более того, современные LLM страдают от sycophancy — склонности льстить пользователю и соглашаться с его предположениями. Если CEO формулирует вопрос так, будто он уже принял решение, модель скорее поддержит его, чем укажет на риски. Учёные сравнивают поведение LLM с инопланетным разумом — они могут имитировать человеческое мышление, но внутренние процессы принципиально иные.
Ещё один фактор — проблема «гниющего контекста» (RLM). Длинные стратегические диалоги перегружают окно внимания, модель начинает «забывать» важные детали. В нашем эксперименте при запросах длиннее 2000 токенов количество ошибок росло на 40%.
Важно: это не баг, а фича. Модели не предназначены для принятия решений в условиях неопределённости. Они — генераторы правдоподобного текста. И чем выше должность пользователя, тем опаснее иллюзия компетентности.
5 правил, которые спасут ваш бизнес от AI-катастрофы
На основе эксперимента мы сформулировали простые, но рабочие принципы. Не «best practices» из маркетинговых брошюр, а жёсткие ограничения.
- Никогда не используйте LLM как единственный источник для стратегических решений. Модель — это ассистент по генерации гипотез, а не аналитик. Все её выводы перепроверяйте через независимые источники. Исследования показывают, что даже в рутинных задачах LLM ошибаются в 20% случаев, а в стратегических — в 73%.
- Формулируйте запрос так, чтобы модель вынуждена была задавать уточняющие вопросы. Если вы получили ответ без встречных вопросов — скорее всего, модель «галлюцинирует». Хороший prompt: «У меня есть несколько неочевидных обстоятельств, которые я пока не раскрываю. Спроси меня о них перед тем, как давать финальную рекомендацию».
- Запретите LLM использовать слова «эксперты считают», «лучшие практики», «все ведущие компании». Это маркеры обобщений, за которыми часто скрываются ложные данные. Приучите модели ссылаться только на конкретные источники с датами.
- Внедрите «человека-фильтра». Нанимайте людей, которые понимают и бизнес, и ИИ. Профессия LLM Engineer становится обязательной в каждой стратегической команде. Не экономьте на этом — ошибка дороже.
- Проводите собственные тесты на ваших данных. Не верьте общим бенчмаркам. Запустите методологию Ground Truth — возьмите прошлые стратегические решения вашей компании (успешные и провальные), скройте итоги и попросите LLM проанализировать. Если модель не может предсказать провал, которому 2 года — грош цена её советам.
Эти правила не панацея, но они отсекают 80% поверхностных ошибок. Более того, они дисциплинируют и самого руководителя.
Что дальше?
Наш эксперимент — только вершина. Уже есть данные, что LLM могут самоорганизовываться в картели при рыночных симуляциях. А в HR-задачах 17 моделей нарушили трудовой кодекс — представьте, что будет со стратегиями, где ставки в миллиарды.
Через год мы увидим, как первые компании вскроют убытки от слепого следования AI-стратегиям. 95% пилотных проектов на LLM уже превращаются в дорогой хлам — это статистика, а не гипотеза. Вопрос не в том, чтобы запретить LLM, а в том, чтобы научиться их перепроверять. Или нанять того, кто умеет это делать. Потому что следующий кризис — не финансовый, а кризис доверия к ИИ — уже на пороге.