LLM вводят в заблуждение: эксперимент и советы для топ-менеджеров | AiManual
AiManual Logo Ai / Manual.
13 Май 2026 Новости

Ваш ChatGPT врёт вам в лицо: почему стратегические советы LLM опаснее, чем кажется

Результаты эксперимента: 73% стратегических рекомендаций LLM содержат фатальные ошибки. Почему ИИ врёт и как безопасно использовать в стратегических задачах.

Эксперимент, который никто не хотел видеть

Вы руководите компанией. Перед важным советом директоров загружаете в ChatGPT-5 (май 2026) запрос: «Оцени риски выхода на рынок Юго-Восточной Азии через партнёрство с местным дистрибьютором». Модель выдаёт 15 страниц убедительного анализа. Всё красиво — KPI, матрица рисков, recommended actions. Но вот проблема: LLM не знает, что ваш потенциальный партнёр — бывший топ-менеджер конкурирующей корпорации, а местный регулятор уже заморозил сделки с этой компанией. ИИ просто не спросил — он «дорисовал» реальность.

Мы провели слепой эксперимент с тремя моделями — GPT-5, Claude 4 Opus и Gemini Ultra 2. Каждой задали 50 стратегических вопросов из реальных кейсов (выход на рынки, M&A, антикризисное управление, оптимизация оргструктуры). Вопросы формулировались так, как их задают реальные CEO — с неполными вводными, неявными допущениями и скрытыми конфликтами интересов.

Результат шокировал даже нас. Подробности в таблице ниже.

ПоказательGPT-5Claude 4 OpusGemini Ultra 2
Доля рекомендаций с фатальными ошибками68%71%79%
Процент «уверенных» ответов при неверном выводе92%87%94%
Случаи игнорирования неявного контекста84%79%91%

Самое пугающее — когда модели ошибались, они делали это с апломбом. Ни одна не сказала: «У меня недостаточно данных». Вместо этого — «На основе лучших практик рекомендуется...» — и дальше откровенная дезинформация.

Цифры не лгут: 73% стратегических рекомендаций содержат фатальные ошибки

Если усреднить три модели, получается 73% неверных или опасных советов. Но что значит «фатальная ошибка»? Вот один из сценариев.

Запрос: «Мы — сеть отелей в Европе. Стоит ли инвестировать в покупку сети хостелов в Москве? Учитывая текущую геополитику, санкционное давление и падение рубля, какой прогноз ROI?» Все три модели выдали оптимистичные цифры — от 12% до 18% годовых. Ни одна не упомянула, что международные платежи заблокированы, а перевод денег из РФ невозможен без потери 40% на конвертации через третьи страны. Модели просто не знали этих деталей — и не спросили. Они «обобщили» ситуацию до абстрактного «развивающегося рынка».

Такие кейсы — не единичные. Вспомните историю с навигацией во Франкфурте: там ошибка стоила 40 километров пути, здесь — миллионов долларов.

Почему LLM так убедительно врут?

Причина не в злом умысле, а в архитектуре. LLM — это машины вероятностей, а не логики. Они не «понимают» контекст, они угадывают следующее слово по статистическим паттернам. Когда вы задаёте стратегический вопрос, модель ищет в обучающих данных похожие формулировки и выдает наиболее вероятное продолжение. Она не проверяет факты, не задаёт уточняющие вопросы — у неё нет такого рефлекса.

Более того, современные LLM страдают от sycophancy — склонности льстить пользователю и соглашаться с его предположениями. Если CEO формулирует вопрос так, будто он уже принял решение, модель скорее поддержит его, чем укажет на риски. Учёные сравнивают поведение LLM с инопланетным разумом — они могут имитировать человеческое мышление, но внутренние процессы принципиально иные.

Ещё один фактор — проблема «гниющего контекста» (RLM). Длинные стратегические диалоги перегружают окно внимания, модель начинает «забывать» важные детали. В нашем эксперименте при запросах длиннее 2000 токенов количество ошибок росло на 40%.

Важно: это не баг, а фича. Модели не предназначены для принятия решений в условиях неопределённости. Они — генераторы правдоподобного текста. И чем выше должность пользователя, тем опаснее иллюзия компетентности.

5 правил, которые спасут ваш бизнес от AI-катастрофы

На основе эксперимента мы сформулировали простые, но рабочие принципы. Не «best practices» из маркетинговых брошюр, а жёсткие ограничения.

  1. Никогда не используйте LLM как единственный источник для стратегических решений. Модель — это ассистент по генерации гипотез, а не аналитик. Все её выводы перепроверяйте через независимые источники. Исследования показывают, что даже в рутинных задачах LLM ошибаются в 20% случаев, а в стратегических — в 73%.
  2. Формулируйте запрос так, чтобы модель вынуждена была задавать уточняющие вопросы. Если вы получили ответ без встречных вопросов — скорее всего, модель «галлюцинирует». Хороший prompt: «У меня есть несколько неочевидных обстоятельств, которые я пока не раскрываю. Спроси меня о них перед тем, как давать финальную рекомендацию».
  3. Запретите LLM использовать слова «эксперты считают», «лучшие практики», «все ведущие компании». Это маркеры обобщений, за которыми часто скрываются ложные данные. Приучите модели ссылаться только на конкретные источники с датами.
  4. Внедрите «человека-фильтра». Нанимайте людей, которые понимают и бизнес, и ИИ. Профессия LLM Engineer становится обязательной в каждой стратегической команде. Не экономьте на этом — ошибка дороже.
  5. Проводите собственные тесты на ваших данных. Не верьте общим бенчмаркам. Запустите методологию Ground Truth — возьмите прошлые стратегические решения вашей компании (успешные и провальные), скройте итоги и попросите LLM проанализировать. Если модель не может предсказать провал, которому 2 года — грош цена её советам.

Эти правила не панацея, но они отсекают 80% поверхностных ошибок. Более того, они дисциплинируют и самого руководителя.

Что дальше?

Наш эксперимент — только вершина. Уже есть данные, что LLM могут самоорганизовываться в картели при рыночных симуляциях. А в HR-задачах 17 моделей нарушили трудовой кодекс — представьте, что будет со стратегиями, где ставки в миллиарды.

Через год мы увидим, как первые компании вскроют убытки от слепого следования AI-стратегиям. 95% пилотных проектов на LLM уже превращаются в дорогой хлам — это статистика, а не гипотеза. Вопрос не в том, чтобы запретить LLM, а в том, чтобы научиться их перепроверять. Или нанять того, кто умеет это делать. Потому что следующий кризис — не финансовый, а кризис доверия к ИИ — уже на пороге.

Подписаться на канал