24 часа непрерывного кодинга. Кому это вообще нужно?

Представьте: вы запускаете ИИ-агент на полную переработку архитектуры вашего старого монолита на микросервисы. Уходите спать. Просыпаетесь через 8 часов. Агент все еще работает. Возвращаетесь с работы через 12 часов. Работает. Ложитесь спать - на следующее утро получаете готовую, протестированную систему. Фантастика? С февраля 2025 года это реальность с GPT-5.1-Codex-Max.

OpenAI выпустила специализированную модель, которая ломает все представления о том, как ИИ должен помогать разработчикам. Это не очередной ChatGPT с улучшенным кодом. Это инструмент для задач, которые раньше считались невозможными для автоматизации.

На 1 февраля 2026 года GPT-5.1-Codex-Max остается единственной коммерчески доступной моделью с официальной поддержкой 24-часовых сессий. Claude 3.7 Sonnet от Anthropic теоретически может работать долго, но компания явно ограничивает сессии 8 часами из соображений стоимости.

Что умеет эта штука на самом деле?

Забудьте про генерацию одной функции или рефакторинг файла. Codex-Max создан для проектов, где человеческий мозг сдается на третьем часу.

Полный рефакторинг legacy-кода - переписывает системы на 100к+ строк кода, сохраняя бизнес-логику
Миграция между фреймворками - Django → FastAPI, Angular → React, с полной перестройкой архитектуры
Создание тестового покрытия с нуля - генерирует unit, integration и e2e тесты для проектов без тестов
Автоматическая документация - создает техдокументацию, диаграммы последовательности, API-спецификации
Оптимизация производительности - находит и исправляет bottlenecks в распределенных системах

Самое интересное - модель умеет планировать. Она не просто выполняет задачу, а разбивает ее на этапы, оценивает риски, создает checkpoint'ы. Если что-то ломается на 18-м часу работы - Codex-Max откатывается к последнему рабочему состоянию и пробует другой подход.

Как выглядит работа на практике?

API у Codex-Max специфический. Это не стандартный chat/completions. Здесь все построено вокруг концепции "долгоживущих агентов".

from openai import OpenAI
import time

client = OpenAI()

# Создаем долгоживущую сессию
agent = client.agents.create(
    model="gpt-5.1-codex-max",
    timeout_hours=24,
    checkpoint_interval=30,  # минут
    max_cost=150.00  # лимит в долларах
)

# Загружаем проект
with open("legacy_project.zip", "rb") as f:
    project_file = client.files.create(file=f, purpose="agent")

# Ставим задачу
agent_task = client.agent_tasks.create(
    agent_id=agent.id,
    instructions="Рефакторинг монолита на микросервисы. Требования...",
    files=[project_file.id],
    output_format="zip"
)

print(f"Задача запущена. ID: {agent_task.id}")
print(f"Можно проверять статус или ждать уведомления")

После запуска вы получаете webhook URL, куда придет уведомление о завершении. Или можете периодически проверять статус. В среднем, серьезные задачи занимают 6-18 часов.

Важный момент: стоимость. Codex-Max стоит $2.50 за час работы агента. 24-часовая сессия обойдется в $60. Плюс токены. Плюс файловое хранилище. Для бизнеса - копейки. Для хобби-проекта - дороговато.

Чем отличается от обычного GPT-5.2 Codex?

Вот здесь начинается самое интересное. Если обычный GPT-5.2 Codex - это умный помощник, то Codex-Max - это полноценный инженер.

Характеристика	GPT-5.2 Codex	GPT-5.1-Codex-Max
Макс. время сессии	30 минут	24 часа
Контекстное окно	128K токенов	"Бесконечное" (через чекпойнты)
Стоимость	$0.06/1K выходных токенов	$2.50/час + токены
Типичное использование	Написание функции, отладка	Рефакторинг системы, миграция

Главное отличие - архитектура. Codex-Max использует механизм "рассуждений с отложенным выполнением". Модель может потратить 2 часа на планирование, прежде чем написать первую строчку кода. И это нормально.

А что с альтернативами? Их вообще нет?

Есть, но все они проигрывают в специализации. Claude 3.7 Sonnet от Anthropic технически способен на долгие задачи, но компания искусственно ограничивает сессии. Gemini Code Ultra от Google - силен в коде, но не умеет работать в таком временном масштабе.

Из opensource-решений ближе всех GLM-4.7-Flash, но для 24-часовых задач нужна серьезная инфраструктура и кастомная обертка. Не для слабонервных.

Есть еще один путь - использовать AITunnel как единый API-шлюз к разным моделям. Иногда дешевле запустить несколько коротких сессий на разных моделях, чем одну долгую на Codex-Max.

Три реальных кейса (и один провал)

1 Миграция с PHP 5.6 на PHP 8.3

Старый интернет-магазин на 80к строк кода. Codex-Max потратил 14 часов. Результат: 92% кода автоматически сконвертировано, остальное помечено для ручной проверки. Сэкономило команде из 3 человек примерно 3 недели работы.

2 Создание тестового покрытия для банковского API

Проект на Spring Boot, 120 endpoints, нулевое покрытие тестами. Codex-Max работал 18 часов. На выходе: 450 unit-тестов, 120 integration-тестов, конфигурация для JaCoCo. Качество? 87% тестов прошли с первого запуска. Неплохо.

3 Провал: рефакторинг игры на Unity

Здесь Codex-Max показал слабость. 22 часа работы, $55 потрачено - и на выходе проект, который не компилируется. Проблема в том, что модель плохо понимает связи между ассетами, префабами и скриптами в игровых движках. Unity/C# - не ее сильная сторона.

Кому действительно нужен Codex-Max?

Не всем. Серьезно. Если вы делаете пет-проект или поддерживаете маленький стартап - обычного GPT-5.2 Codex хватит за глаза.

Codex-Max для тех, кто:

Поддерживает legacy-системы, которые все боятся трогать
Планирует миграцию между технологическими стеками
Работает в enterprise с жесткими требованиями к документации
Имеет проекты, где ручное тестирование занимает недели

💡

Совет от практика: начните с 4-часовой задачи. Не бросайтесь сразу на 24 часа. Посмотрите, как модель справляется с вашим кодом. Установите жесткий лимит стоимости. И обязательно проверяйте чекпойнты - иногда Codex-Max идет по тупиковому пути, и лучше перезапустить на раннем этапе.

Темная сторона: когда 24 часа превращаются в кошмар

Да, у Codex-Max есть свои причуды. Иногда модель впадает в то, что разработчики называют "аналитический паралич". Она может потратить 6 часов на анализ зависимостей, вместо того чтобы писать код.

Еще одна проблема - бесконечное reasoning. Codex-Max унаследовал эту болезнь от GPT-5.2. Если в задаче есть рекурсивные структуры или сложные валидации - модель может зациклиться.

Решение? Четкие промпты. Очень четкие. Используйте принципы из утекшего руководства OpenAI: роль, контекст, ограничения. И явно указывайте максимальную глубину рекурсии, если работаете с деревьями или графами.

Что дальше? Прогноз на 2026 год

OpenAI явно нащупала нишу. Codex-Max - первый, но не последний специализированный инструмент для долгих задач. К середине 2026 жду:

Codex-Max для специфичных доменов (медицина, финансы, юриспруденция)
Локальные версии для компаний с требованиями безопасности
Интеграцию с CI/CD - модель будет не только писать код, но и деплоить

А пока что Codex-Max остается инструментом для смелых. Для тех, кто готов заплатить $60, чтобы не тратить 3 недели на скучный рефакторинг. Рискованно? Да. Эффективно? Когда как. Но когда работает - это похоже на магию.

Последний совет: если решитесь - начните с миграции документации. Самая низкая рискованность, самая высокая отдача. А там посмотрите.

GPT-5.1-Codex-Max: 24 часа на одну задачу. Гениально или безумие?