Миф о разговоре с машиной

Вы открываете ChatGPT, пишете "Привет", получаете ответ. Пишете "Как дела?" - бот помнит, что вы поздоровались. Кажется, у вас диалог. Кажется, машина вас слушает и понимает контекст.

Это иллюзия.

Прямо сейчас, в 2026 году, когда GPT-4.5 Turbo и Claude 3.5 Sonnet кажутся почти разумными, фундаментальная архитектура не изменилась. Каждый ваш запрос - это новая генерация с нуля. Каждый раз, когда вы нажимаете Enter, нейросеть заново переваривает всю историю переписки.

Вспомните историю про eBay из нашей статьи про провал AI-поддержки. Бот не "забыл" про возврат Марка. Он просто каждый раз генерировал новый ответ на основе того, что видел в промпте. Иногда удачно, иногда - нет.

Архитектура, которая не умеет помнить

Представьте огромную библиотеку. Каждая книга - это токен (часть слова). Когда вы спрашиваете "Какая погода в Москве?", библиотекарь (нейросеть) бежит по всем полкам, находит нужные книги, составляет ответ.

Теперь вы спрашиваете: "А в Санкт-Петербурге?"

Библиотекарь не помнит ваш предыдущий вопрос. Он снова бежит по всем полкам. Но теперь у него в руках два вопроса: старый и новый. Он ищет ответ, учитывая оба.

Так работает attention mechanism (механизм внимания) в трансформерах. Нет памяти. Нет состояния. Есть только текущий промпт - весь диалог, склеенный в одну строку.

💡

Когда вы видите в интерфейсе ChatGPT "Контекст: 128K токенов", это не значит, что бот помнит 128 тысяч слов. Это значит, что он может переработать за раз текст длиной в 128 тысяч токенов. Разница принципиальная.

Почему это дорого (и почему компании экономят)

Каждый токен стоит денег. Буквально. Когда вы отправляете запрос в API OpenAI или Anthropic, платите за входные токены (промпт) и выходные (ответ).

Чем длиннее история диалога, тем дороже каждый следующий запрос. Потому что система пересчитывает attention для всей истории заново.

Вот почему дешевые боты поддержки "забывают" детали. Не потому что глупые. Потому что экономят. Ограничивают контекст 4-8 тысячами токенов. Все, что не влезло - выбрасывается.

Модель	Контекст (токенов)	Стоимость 1K входных токенов	Что это значит на практике
GPT-4.5 Turbo (2026)	128K	$0.01	Длинный диалог = $1.28 за промпт
Claude 3.5 Sonnet	200K	$0.003	Дешевле, но все равно накапливается
Дешевый бот-поддержка	4K	$0.0001	Экономия в 100 раз, качество страдает

Три уровня "памяти" в современных системах

Провайдеры AI-сервисов знают проблему. И пытаются ее обойти тремя способами.

1 Кэширование ключей внимания

Техническая магия. Когда нейросеть вычисляет attention для токенов, часть вычислений можно закэшировать. Следующий запрос использует кэш для старых токенов, вычисляет только новые.

Звучит здорово. Но работает только для последовательных запросов. Если пользователь ушел на час, вернулся - кэш сброшен. Если сервер перезагрузили - кэш сброшен. Если контекст превысил лимит - старый кэш удален.

2 Векторные базы и семантический поиск

То, что называют "долгосрочной памятью". Система сохраняет эмбеддинги (векторные представления) старых сообщений в базе. При новом запросе ищет семантически похожие фрагменты, добавляет их в промпт.

Работает. Но это костыль. Бот не помнит диалог - он каждый раз ищет в базе что-то похожее. Может найти не то. Может пропустить важное. Именно поэтому ИИ-агенты для бизнеса так сложно делать стабильными.

3 Fine-tuning и RAG

Два модных слова 2025-2026 годов. Fine-tuning - дообучение модели на ваших данных. RAG (Retrieval-Augmented Generation) - поиск релевантных документов перед генерацией.

Не решают проблему памяти диалога. Решают проблему знаний. Модель лучше отвечает в вашей предметной области, но все равно не помнит, о чем вы говорили пять сообщений назад.

Кстати, о fine-tuning. Если делаете его неправильно, получите то, что описано в нашей статье про провалы fine-tuning для Telegram-ботов. Модель запомнит стиль, но не сможет вести последовательный диалог.

Детерминированность и temperature seed: почему ответы разные

Задайте один вопрос два раза. Получите два разных ответа. Почему?

Потому что генерация - вероятностный процесс. Модель вычисляет распределение вероятностей для следующего токена. Берет случайный (с учетом temperature).

Temperature seed (зерно случайности) определяет, какой именно путь пойдет генерация. Нет seed - каждый раз новая случайность.

Это объясняет, почему бот поддержки в один день говорит "деньги придут завтра", а в другой - "обработка 10 дней". Не злой умысел. Просто разные запуски генерации.

Практические последствия для разработчиков

Если вы делаете чат-бота, запомните три правила.

Всегда передавайте полный контекст. Не надейтесь, что модель "помнит". Каждый запрос должен содержать всю необходимую историю.
Устанавливайте temperature seed. Для детерминированных ответов (техподдержка, факты) используйте фиксированный seed. Для творческих задач - случайный.
Следите за длиной контекста. После 80% заполнения начинайте сокращать историю. Удаляйте старые сообщения, оставляя только ключевые.

Лучшие практики 2026 года: использовать иерархическое сжатие контекста. Алгоритм анализирует диалог, оставляет самое важное, перефразирует остальное. Экономит до 70% токенов.

Почему "диалог" все равно работает

Если архитектура такая несовершенная, почему мы вообще можем разговаривать с ботами?

Две причины.

Человек адаптируется. Мы неосознанно подстраиваемся под ограничения системы. Повторяем ключевую информацию. Используем однозначные формулировки.
Модели стали лучше понимать контекст. GPT-4.5 Turbo с 128K контекста фактически видит всю беседу как один документ. Анализирует связи между далекими частями текста.

Но фундаментальный разрыв остается. Нейросеть не ведет диалог. Она генерирует текст, который выглядит как диалог.

💡

Метод Стэнфорда, описанный в статье "ИИ задаст вам вопросы", использует эту особенность. Вместо того чтобы пытаться запомнить все, модель учится задавать уточняющие вопросы. Каждый вопрос - новая генерация с уточненным контекстом.

Что будет дальше: архитектуры с настоящей памятью

Исследователи уже работают над моделями, которые умеют сохранять состояние между запросами. Не как кэш, а как настоящую рабочую память.

Проблема в масштабировании. Трансформеры отлично масштабируются на GPU. Добавление памяти усложняет архитектуру, замедляет обучение.

Но тренд ясен. К 2027-2028 годам появятся модели, которые действительно помнят. Не через RAG, не через кэш. Через измененную архитектуру.

А пока - помните. Каждый ваш запрос к ChatGPT, Claude, Gemini - это новая генерация. Весь диалог склеивается в один промпт, отправляется в модель, которая его заново обрабатывает.

Нет диалога. Есть серия независимых генераций, связанных только вашим восприятием.

Осознание этого меняет все. Понимаете, почему бот поддержки "теряет" ваш тикет? Почему AI-компаньоны иногда говорят противоречивые вещи? Почему даже лучшие образовательные боты в Telegram требуют повторения материала?

Это не баги. Это фундаментальное ограничение архитектуры 2026 года.

И пока инженеры не переизобретут трансформеры, мы будем платить за токены и надеяться, что в следующий раз генерация будет чуть более последовательной.

Как на самом деле работают чат-боты: разоблачение мифа о диалоге и почему каждый запрос — это новая генерация