Хайп закончился. Пора убирать мусор
Помните 2023 год? Каждый второй стартап в питч-деке писал "Powered by AI". Инвесторы скупали всё, что пахло трансформерами. Менеджеры требовали "интегрировать ChatGPT" в каждый процесс. Эйфория.
Сейчас 2025. Я вижу обратную сторону медали. Компании тратят сотни тысяч долларов на API-вызовы к GPT-4, получая на выходе... красивые, но бесполезные тексты. Юристы получают от нейросети ссылки на несуществующие законы. Медицинские чат-боты дают опасные советы. Финансовые аналитики получают выдуманные цифры.
Прямая цитата от венчурного инвестора из моей ленты: "Мы видим, как компании переоценивают LLM. Они думают, что купили универсального сотрудника, а получили стажера-галлюцинатора с доступом к интернету".
Три провальных кейса, которые я видел лично
Не абстрактные страшилки. Конкретные проекты, где я был консультантом или видел код.
Кейс 1: Юридический ассистент для малого бизнеса
Стартап хотел автоматизировать составление типовых договоров. Взяли GPT-4 Turbo, настроили промпты, запустили бета-тест.
Что пошло не так:
- Модель "вспоминала" законодательные акты, которых не существует в природе
- В договорах аренды появлялись пункты про "ежемесячную поставку двух тонн бананов" (серьёзно)
- Конфиденциальность? Модель иногда вставляла в договоры реальные имена из своего тренировочного датасета
Клиенты начали жаловаться через неделю. Проект закрыли, вернулись к шаблонам от юристов.
Кейс 2: Анализ медицинских жалоб пациентов
Клиника хотела автоматически категоризировать жалобы пациентов из чата. Взяли Claude 3, настроили классификацию.
Проблемы начались сразу:
- Модель "уверенно" ставила диагнозы по тексту жалоб
- "Головная боль + тошнота" = мигрень (а мог быть и менингит)
- Система предлагала лечение, включая дозировки препаратов
Юридический отдел устроил истерику при первом же демо. Проект заморозили на этапе compliance-проверки.
Кейс 3: Финансовый отчётность для стартапов
Сервис для автоматического анализа финансовых метрик. Подключаешь Google Analytics, Stripe, получаешь отчёт.
GPT-4 отлично генерировал красивые тексты: "Динамика роста LTV показывает положительный тренд..."
Только цифры были выдуманы. На 100%. Модель не умела правильно извлекать данные из API, поэтому просто сочиняла правдоподобные значения.
Основатель узнал об этом, когда инвестор спросил: "Откуда у вас в отчёте LTV $500, если реально $50?"
Почему это происходит? Не технические баги, а фундаментальные ограничения
Многие думают: "Вот выйдет GPT-5, и всё починится". Не выйдет. Проблемы глубже.
| Ограничение | Что это значит для бизнеса | Пример |
|---|---|---|
| Галлюцинации | Модель уверенно врёт | Выдуманные законы, несуществующие API |
| Отсутствие реального понимания | Статистика, а не логика | "Похожие слова = похожий смысл" |
| Контекстное окно | Забывает начало разговора | В длинных документах теряет нить |
| Interpretation Drift | Сегодня отвечает иначе, чем вчера | Нестабильность в продакшене |
Interpretation Drift — отдельная боль. Вы настраиваете промпты, тестируете, всё работает. Разворачиваете в продакшен. Через неделю получаете баг-репорты: "Система стала отвечать по-другому".
Это не ваш код сломался. Это фундаментальная нестабильность LLM. Модель переобучается на лету, адаптируется к запросам пользователей, меняет "мнение".
Так что, выбросить все LLM и забыть? Нет. Но нужно менять подход
Я не призываю отказаться от ИИ. Я призываю перестать использовать молоток как универсальный инструмент для всех задач.
1Определите, действительно ли вам нужна LLM
Задайте себе вопросы:
- Нужно ли генерировать текст, или достаточно извлекать информацию?
- Требуется ли творчество, или важна точность?
- Можно ли решить задачу правилами (if-else) или классическими ML-моделями?
Пример: классификация обращений в поддержку. В 80% случаев хватит набора ключевых слов + логической регрессии. Быстрее, дешевле, стабильнее.
2Если нужна LLM — выбирайте правильный размер
GPT-4 — это как ядерный реактор для того, чтобы вскипятить чайник. Перебор.
Для многих задач достаточно маленьких моделей 7B-13B параметров. Они:
- Запускаются локально на MacBook Pro с 24GB RAM
- Не отправляют данные в облако (конфиденциальность!)
- Дешевле в 100-1000 раз
- Предсказуемее в поведении
Посмотрите обзор локальных LLM с Tool Calling. Или сравните Qwen 2.5 Coder и Devstral на реальном железе.
3Fine-tuning вместо промпт-инжиниринга
Промпт-инжиниринг — это костыль. Вы пытаетесь втиснуть свою бизнес-логику в промпт, который модель будет каждый раз "понимать" заново.
Fine-tuning меняет веса модели. Обучаете её на своих данных один раз — получаете специалиста в вашей области.
Пример: у вас SaaS для ресторанов. Вместо промпта "Ты — эксперт по ресторанному бизнесу..." делаете fine-tuning на 1000 реальных отчётов из вашей системы. Модель учится говорить на языке ваших клиентов.
Да, это сложнее. Нужны данные, инфраструктура, ML-инженеры. Но результат на порядок лучше.
4Гибридные системы: LLM + классический код
Лучшие системы, которые я видел, используют LLM как один из компонентов, а не как ядро.
# ПЛОХО: вся логика в промпте
response = llm.generate("Проанализируй финансовый отчёт и дай рекомендации")
# ХОРОШО: гибридный подход
def analyze_financial_report(report_data):
# 1. Классический код извлекает цифры
metrics = extract_metrics(report_data)
# 2. Правила проверяют корректность
if not validate_metrics(metrics):
return "Ошибка в данных"
# 3. LLM только генерирует текст по готовым данным
prompt = f"Напиши анализ. Выручка: {metrics['revenue']}, расходы: {metrics['expenses']}"
analysis = llm.generate(prompt)
# 4. Пост-обработка убирает галлюцинации
return sanitize_output(analysis)
LLM в такой системе — просто красивый текстовый генератор. Вся бизнес-логика, проверки, расчёты — в классическом коде.
Пять вопросов, которые нужно задать перед внедрением LLM
- Что произойдёт, если модель сгенерирует неправильный ответ? (Просто ошибка или человеческая жизнь?)
- Есть ли у нас данные для fine-tuning, или будем полагаться на промпты?
- Кто будет отвечать, когда модель "сломается" после обновления?
- Как мы будем тестировать качество ответов? (Вручную или автоматически?)
- Что дешевле: нанять человека или поддерживать LLM-систему 3 года?
Если на первый вопрос ответ "человеческая жизнь" — бегите от LLM. Сейчас. Это не шутка.
А что насчёт будущего? Всё плохо?
Нет. Будущее за специализированными моделями. Не за одним GPT-10 на все случаи жизни, а за тысячами маленьких моделей, каждая из которых решает конкретную задачу.
Уже сейчас появляются:
- Модели только для анализа кода (как в сравнении кодогенерирующих LLM)
- Модели для конкретных индустрий (медицина, юриспруденция, финансы)
- Модели, которые умеют только извлекать факты, а не генерировать текст
Именно такие модели — fine-tuned, специализированные, ограниченные по scope — будут выигрывать в бизнесе.
Мой прогноз: через 2 года мы будем смеяться над тем, как в 2024 пытались заставить GPT-4 вести бухгалтерию. Это будет выглядеть так же глупо, как пытаться запускать Excel на игровой консоли.
Что делать прямо сейчас?
Если у вас уже есть LLM в продакшене:
- Добавьте человеческий контроль для критических решений
- Начните собирать данные для будущего fine-tuning
- Протестируйте маленькие локальные модели (Ollama отлично подходит)
- Внедрите автоматическое тестирование ответов
Если только планируете:
- Начните с тестирования на промптах, но не останавливайтесь на этом
- Рассчитайте TCO на 3 года (API-вызовы, инженеры, инфраструктура)
- Попробуйте решить задачу без LLM. Серьёзно, попробуйте.
И последнее: не верьте маркетингу. Не верьте питч-декам. Не верьте даже мне полностью. Возьмите LLM Council от Карпати, загрузите свою бизнес-идею и посмотрите, что скажут разные модели. Но потом — идите и тестируйте на реальных данных.
Эйфория закончилась. Начинается работа.