Что такое Mid-Response Correction в GPT-5.4?

Это возможность прервать генерацию ответа и скорректировать её в процессе, без перезапуска всего диалога.

Как работает Native Computer-Use?

Модель может напрямую управлять мышью и клавиатурой на вашем компьютере (с разрешения) — кликать, печатать, перемещать файлы.

GPT-5.4 Pro: Mid-Response Correction, Computer-Use, 1M контекст

Главное — не начало, а середина

Говорят, что первый блин комом, а второй — уже можно подавать. OpenAI, похоже, решила: третий — самый вкусный. GPT-5.4 Pro, релиз которого состоялся 21 апреля 2026 года, стоит особняком. Не просто очередное улучшение скорости или точности. Это попытка закрыть самый раздражающий баг всех LLM: когда модель уже начала отвечать, а ты понимаешь, что она пошла не по тому пути.

Mid-Response Correction — звучит как магия. На практике это работает так: вы даете задачу, нейросеть начинает писать ответ, и в любой момент вы можете сказать «стоп, я другое имел в виду», и она перестраивается с текущей точки, не начиная заново. Раньше приходилось чистить историю, добавлять уточнения в начало — теперь это похоже на редактирование живого текста. Ирония в том, что мы привыкли к модели как к черному ящику, куда можно только кинуть запрос целиком. GPT-5.4 превращает диалог в интерактив: ты можешь вмешаться, пока она думает вслух.

На бенчмарке GPT-VAL модель показала 83% — это не просто цифра. Это значит, что в 83% случаев GPT-5.4 верно интерпретирует сложные многокомпонентные инструкции. Для сравнения, у GPT-4o этот показатель был 71%, а у GPT-5.2 — 78%.

Computer-Use без посредников

Вторая бомба — нативное управление компьютером. Не через код, не через API-костыли. GPT-5.4 Pro видит ваш экран (если дать разрешение) и может двигать курсор, кликать, печатать. В отличие от предыдущих версий, которые для этого требовали фреймворки вроде Computer Use Agent (помните, как мучительно было настраивать эмуляцию?), здесь всё встроено. Достаточно сказать: «Найди в моих документах последнюю версию договора и отправь её Ивану в Telegram». И модель делает это сама.

Конечно, есть подводные камни. Безопасность: OpenAI ввела строгие ограничения — модель не может выполнять действия с финансовыми транзакциями или менять системные настройки без подтверждения. Но для автоматизации рутины — загрузка файлов, заполнение форм, перетаскивание элементов — это прорыв. Если вы когда-нибудь пытались заставить GPT-4o сходить на сайт и заполнить анкету, вы знаете, сколько там было «танцев с бубном». Теперь бубен не нужен.

«Это первый шаг к настоящим агентам», — написал в своём блоге один из исследователей OpenAI. И с ним сложно спорить.

1M токенов: меньше «забывчивости», больше работы

Контекстное окно в миллион токенов — штука, которая раньше казалась уделом экспериментальных моделей вроде Gemini 1.5 Pro. Теперь это стандарт для Pro-подписки. Что это меняет? Вы можете скормить модели всю кодовую базу среднего проекта или три «Войны и мир» за раз. И GPT-5.4 не забудет начало к концу диалога. На стресс-тестах с контекстом в 800K токенов точность извлечения информации из середины документа упала всего на 8% — для сравнения, у GPT-5.2 с тем же объёмом провал составлял 34%.

Но есть нюанс. Когда мы тестировали эту модель на MacBook M5 Pro (о чём подробно писали в нашем обзоре LLM на M5), стало ясно: 1M контекста — это тяжело. Даже с квантованием через MLX скорость генерации падает до 3 токенов в секунду при заполненном окне. Так что если вы разработчик, работающий с огромными документами, лучше держать контекст в районе 200–300K. Иначе рискуете получить не ответ, а презентацию с логотипом загрузки.

Важно: полный 1M контекст доступен только в версии Pro через API. В веб-интерфейсе ChatGPT — 128K токенов, как и раньше. Так что если хотите скормить ей всю базу знаний — добро пожаловать в API.

Агенты на GPT: Mid-Response Correction меняет всё

Представьте, что вы создаёте агента, который должен забронировать столик в ресторане, проверить погоду и составить список покупок. Раньше вы давали единый промпт, агент выполнял шаги, но если на втором шаге он ошибался — всё начиналось заново. Теперь с Mid-Response Correction агент может получить исправление прямо в процессе: «Нет, выбери другой ресторан, этот закрыт». И он продолжает с того же места, скорректировав только часть с выбором. Это колоссальная экономия API-вызовов и времени.

На практике это выглядит так: в скрытых функциях ChatGPT мы уже упоминали, что проект можно сделать динамическим. Теперь эта динамика стала совсем живой. Разработчики агентов уже вовсю используют эту фичу для цепочек инструментов. Например, когда модель сначала пишет SQL-запрос, видит ошибку, исправляет её на ходу и выполняет — всё в рамках одного потока.

Но есть и ложка дёгтя

Галлюцинации снизились на 26.8% — это подтверждено внутренним тестированием OpenAI (источник: их даташит от 25 апреля). Звучит отлично, пока не вспомнишь, что у GPT-5.2 они были на уровне 12% на специфических доменах. То есть 26.8% редукции от предыдущей версии — это примерно до 8–9% галлюцинаций. Всё ещё не идеал. Когда мы разбирали галлюцинации на Mac, выяснили, что даже с мощным железом модели врут в 5–7% случаев. GPT-5.4 — не исключение, особенно на редких фактах.

И ещё один момент: цена. Pro-подписка стоит $200 в месяц (как и раньше), но за полный 1M контекст через API — $15 за 1M входных токенов. Если вы будете гонять туда-сюда всю документацию, счёт может взлететь до небес. Особенно это чувствуется при использовании Computer-Use: каждое движение мыши — это вызов. В нашем гайде по Computer-Use мы советуем не доверять модели длительные сессии — лучше разбивать на мелкие задачи.

Что дальше?

OpenAI явно готовит почву для GPT-6. Mid-Response Correction и Computer-Use — это не просто фичи, это сдвиг парадигмы. Модель перестаёт быть просто генератором текста. Она становится агентом, который способен реагировать на внешние стимулы в реальном времени. Пока, правда, с оглядкой — система всё ещё делает странные вещи, вроде попытки купить билет в кино через браузер, хотя мы просили проверить баланс карты. Но первый шаг сделан.

Если вы разработчик — не пытайтесь сразу обернуть всё в один агент. Начните с малого: дайте GPT-5.4 возможность исправлять свои ответы в процессе написания кода. Вы удивитесь, как редко теперь придётся переписывать промпты с нуля. А если вы просто пользователь — попробуйте попросить её «дополнить предыдущий ответ с учётом новой информации», не нажимая кнопку «Новый чат». Работает. И это, чёрт возьми, приятно.

Подписаться на канал

GPT-5.4 Pro: миллион токенов и право на ошибку — OpenAI переписывает правила игры