Хайп закончился. Пора убирать мусор

Помните 2023 год? Каждый второй стартап в питч-деке писал "Powered by AI". Инвесторы скупали всё, что пахло трансформерами. Менеджеры требовали "интегрировать ChatGPT" в каждый процесс. Эйфория.

Сейчас 2025. Я вижу обратную сторону медали. Компании тратят сотни тысяч долларов на API-вызовы к GPT-4, получая на выходе... красивые, но бесполезные тексты. Юристы получают от нейросети ссылки на несуществующие законы. Медицинские чат-боты дают опасные советы. Финансовые аналитики получают выдуманные цифры.

Прямая цитата от венчурного инвестора из моей ленты: "Мы видим, как компании переоценивают LLM. Они думают, что купили универсального сотрудника, а получили стажера-галлюцинатора с доступом к интернету".

Три провальных кейса, которые я видел лично

Не абстрактные страшилки. Конкретные проекты, где я был консультантом или видел код.

Кейс 1: Юридический ассистент для малого бизнеса

Стартап хотел автоматизировать составление типовых договоров. Взяли GPT-4 Turbo, настроили промпты, запустили бета-тест.

Что пошло не так:

Модель "вспоминала" законодательные акты, которых не существует в природе
В договорах аренды появлялись пункты про "ежемесячную поставку двух тонн бананов" (серьёзно)
Конфиденциальность? Модель иногда вставляла в договоры реальные имена из своего тренировочного датасета

Клиенты начали жаловаться через неделю. Проект закрыли, вернулись к шаблонам от юристов.

💡

Это классический пример архитектурного изъяна LLM. Модель понимает, что нужно составить договор, но не понимает юридических последствий каждой фразы.

Кейс 2: Анализ медицинских жалоб пациентов

Клиника хотела автоматически категоризировать жалобы пациентов из чата. Взяли Claude 3, настроили классификацию.

Проблемы начались сразу:

Модель "уверенно" ставила диагнозы по тексту жалоб
"Головная боль + тошнота" = мигрень (а мог быть и менингит)
Система предлагала лечение, включая дозировки препаратов

Юридический отдел устроил истерику при первом же демо. Проект заморозили на этапе compliance-проверки.

Кейс 3: Финансовый отчётность для стартапов

Сервис для автоматического анализа финансовых метрик. Подключаешь Google Analytics, Stripe, получаешь отчёт.

GPT-4 отлично генерировал красивые тексты: "Динамика роста LTV показывает положительный тренд..."

Только цифры были выдуманы. На 100%. Модель не умела правильно извлекать данные из API, поэтому просто сочиняла правдоподобные значения.

Основатель узнал об этом, когда инвестор спросил: "Откуда у вас в отчёте LTV $500, если реально $50?"

Почему это происходит? Не технические баги, а фундаментальные ограничения

Многие думают: "Вот выйдет GPT-5, и всё починится". Не выйдет. Проблемы глубже.

Ограничение	Что это значит для бизнеса	Пример
Галлюцинации	Модель уверенно врёт	Выдуманные законы, несуществующие API
Отсутствие реального понимания	Статистика, а не логика	"Похожие слова = похожий смысл"
Контекстное окно	Забывает начало разговора	В длинных документах теряет нить
Interpretation Drift	Сегодня отвечает иначе, чем вчера	Нестабильность в продакшене

Interpretation Drift — отдельная боль. Вы настраиваете промпты, тестируете, всё работает. Разворачиваете в продакшен. Через неделю получаете баг-репорты: "Система стала отвечать по-другому".

Это не ваш код сломался. Это фундаментальная нестабильность LLM. Модель переобучается на лету, адаптируется к запросам пользователей, меняет "мнение".

Так что, выбросить все LLM и забыть? Нет. Но нужно менять подход

Я не призываю отказаться от ИИ. Я призываю перестать использовать молоток как универсальный инструмент для всех задач.

1Определите, действительно ли вам нужна LLM

Задайте себе вопросы:

Нужно ли генерировать текст, или достаточно извлекать информацию?
Требуется ли творчество, или важна точность?
Можно ли решить задачу правилами (if-else) или классическими ML-моделями?

Пример: классификация обращений в поддержку. В 80% случаев хватит набора ключевых слов + логической регрессии. Быстрее, дешевле, стабильнее.

2Если нужна LLM — выбирайте правильный размер

GPT-4 — это как ядерный реактор для того, чтобы вскипятить чайник. Перебор.

Для многих задач достаточно маленьких моделей 7B-13B параметров. Они:

Запускаются локально на MacBook Pro с 24GB RAM
Не отправляют данные в облако (конфиденциальность!)
Дешевле в 100-1000 раз
Предсказуемее в поведении

Посмотрите обзор локальных LLM с Tool Calling. Или сравните Qwen 2.5 Coder и Devstral на реальном железе.

3Fine-tuning вместо промпт-инжиниринга

Промпт-инжиниринг — это костыль. Вы пытаетесь втиснуть свою бизнес-логику в промпт, который модель будет каждый раз "понимать" заново.

Fine-tuning меняет веса модели. Обучаете её на своих данных один раз — получаете специалиста в вашей области.

Пример: у вас SaaS для ресторанов. Вместо промпта "Ты — эксперт по ресторанному бизнесу..." делаете fine-tuning на 1000 реальных отчётов из вашей системы. Модель учится говорить на языке ваших клиентов.

Да, это сложнее. Нужны данные, инфраструктура, ML-инженеры. Но результат на порядок лучше.

4Гибридные системы: LLM + классический код

Лучшие системы, которые я видел, используют LLM как один из компонентов, а не как ядро.

# ПЛОХО: вся логика в промпте
response = llm.generate("Проанализируй финансовый отчёт и дай рекомендации")

# ХОРОШО: гибридный подход
def analyze_financial_report(report_data):
    # 1. Классический код извлекает цифры
    metrics = extract_metrics(report_data)
    
    # 2. Правила проверяют корректность
    if not validate_metrics(metrics):
        return "Ошибка в данных"
    
    # 3. LLM только генерирует текст по готовым данным
    prompt = f"Напиши анализ. Выручка: {metrics['revenue']}, расходы: {metrics['expenses']}"
    analysis = llm.generate(prompt)
    
    # 4. Пост-обработка убирает галлюцинации
    return sanitize_output(analysis)

LLM в такой системе — просто красивый текстовый генератор. Вся бизнес-логика, проверки, расчёты — в классическом коде.

Пять вопросов, которые нужно задать перед внедрением LLM

Что произойдёт, если модель сгенерирует неправильный ответ? (Просто ошибка или человеческая жизнь?)
Есть ли у нас данные для fine-tuning, или будем полагаться на промпты?
Кто будет отвечать, когда модель "сломается" после обновления?
Как мы будем тестировать качество ответов? (Вручную или автоматически?)
Что дешевле: нанять человека или поддерживать LLM-систему 3 года?

Если на первый вопрос ответ "человеческая жизнь" — бегите от LLM. Сейчас. Это не шутка.

А что насчёт будущего? Всё плохо?

Нет. Будущее за специализированными моделями. Не за одним GPT-10 на все случаи жизни, а за тысячами маленьких моделей, каждая из которых решает конкретную задачу.

Уже сейчас появляются:

Модели только для анализа кода (как в сравнении кодогенерирующих LLM)
Модели для конкретных индустрий (медицина, юриспруденция, финансы)
Модели, которые умеют только извлекать факты, а не генерировать текст

Именно такие модели — fine-tuned, специализированные, ограниченные по scope — будут выигрывать в бизнесе.

Мой прогноз: через 2 года мы будем смеяться над тем, как в 2024 пытались заставить GPT-4 вести бухгалтерию. Это будет выглядеть так же глупо, как пытаться запускать Excel на игровой консоли.

Что делать прямо сейчас?

Если у вас уже есть LLM в продакшене:

Добавьте человеческий контроль для критических решений
Начните собирать данные для будущего fine-tuning
Протестируйте маленькие локальные модели (Ollama отлично подходит)
Внедрите автоматическое тестирование ответов

Если только планируете:

Начните с тестирования на промптах, но не останавливайтесь на этом
Рассчитайте TCO на 3 года (API-вызовы, инженеры, инфраструктура)
Попробуйте решить задачу без LLM. Серьёзно, попробуйте.

И последнее: не верьте маркетингу. Не верьте питч-декам. Не верьте даже мне полностью. Возьмите LLM Council от Карпати, загрузите свою бизнес-идею и посмотрите, что скажут разные модели. Но потом — идите и тестируйте на реальных данных.

Эйфория закончилась. Начинается работа.

Конец эйфории: Почему LLM — не серебряная пуля для бизнес-задач