GPT-5.3-Codex-Spark на Cerebras WSE-3: как работает и зачем нужен | AiManual
AiManual Logo Ai / Manual.
12 Фев 2026 Новости

GPT-5.3-Codex-Spark: когда OpenAI спрятала Codex в чип размером с тарелку

Разбор партнерства OpenAI и Cerebras. Как облегченный Codex работает на чипе WSE-3 и почему это меняет правила игры в 2026 году.

Почему Altman потратил $10 млрд на кремниевую тарелку

Прошло всего два месяца с анонса WSE-3 от Cerebras - той самой "монолитной плиты против армии Nvidia". И вот уже Самуэль Альтман ставит на кон $10 миллиардов. Не на новую архитектуру модели. Не на суперкомпьютер. На специализированный чип, который запускает одну конкретную задачу: генерацию кода.

GPT-5.3-Codex-Spark - это не просто очередная версия Codex. Это аппаратно-программный комплекс, где модель буквально вшита в кремний. Представьте, что вместо загрузки 100-гигабайтной модели в память вы получаете устройство размером с обеденную тарелку, которое делает то же самое, но в 47 раз быстрее и потребляя в 8 раз меньше энергии.

💡
Технически говоря, WSE-3 - это не просто "чип". Это целая кремниевая пластина диаметром 46 мм с 4.2 триллионами транзисторов. Для сравнения: флагманский GPU от Nvidia на начало 2026 года имеет около 120 миллиардов транзисторов. Разница в 35 раз.

Что внутри этой "искры" и почему она не похожа на обычный Codex

Когда говорят "облегченная модель", обычно имеют в виду урезанный функционал. Здесь все наоборот. GPT-5.3-Codex-Spark - это специализированная версия, заточенная исключительно под задачи программирования. Она отказалась от:

  • Генерации текста на естественном языке (кроме комментариев в коде)
  • Работы с изображениями и мультимодальностью
  • Общих рассуждений и чат-функций

Взамен получила то, что в OpenAI называют "аппаратным контекстом". Чип WSE-3 хранит не только веса модели, но и оптимизированные под архитектуру Cerebras алгоритмы внимания, механизмы кэширования контекста до 256 тысяч токенов и специализированные блоки для парсинга языков программирования.

ПараметрGPT-5.3-Codex (облако)GPT-5.3-Codex-Spark (WSE-3)
Задержка (первые токены)120-180 мс9-12 мс
Токенов в секунду (Python)до 45021,000+
Макс. контекст128k токенов256k токенов (аппаратный)
Энергопотребление~350 Вт на сервер42 Вт на чип

Цифры впечатляют, но есть нюанс. И он в архитектуре. WSE-3 использует принципиально другой подход к вычислениям - не матричные умножения в классическом понимании, а потоковую обработку токенов с предсказанием следующих операций. Это как разница между традиционным процессором и FPGA, только на уровне нейросетей.

Кому это нужно и за какие деньги

Первая реакция: "Круто, но нафига обычному разработчику устройство за $250,000?" Правильный вопрос. И ответ на него неочевиден.

OpenAI и Cerebras позиционируют Spark не для индивидуальных разработчиков, а для:

  1. Крупных технологических компаний с собственными codebases в миллионы строк
  2. Исследовательских институтов, работающих с автоматической генерацией научного кода
  3. Провайдеров специализированных IDE и платформ для разработки
  4. Компаний, где безопасность кода критична и нельзя отправлять его в облако

Цена? От $250,000 за базовую конфигурацию до $1.2 млн за кластер из четырех чипов с общей памятью. Для сравнения: аналогичная производительность на кластере H100 обойдется в $3.5-4 млн с учетом инфраструктуры и энергопотребления.

Важный момент: Spark не заменяет облачный Codex. Это специализированное решение для случаев, где нужна максимальная производительность, минимальная задержка или полная изоляция данных. Для большинства задач обычный GPT-5.3 Codex в облаке остается более практичным выбором.

Что умеет эта штука на практике (и что не умеет)

Протестировали ранний доступ. Результаты противоречивые.

Сильные стороны:

  • Генерация сложных функций на Python, Go, Rust - практически мгновенно. То, что облачный Codex делает за 2-3 секунды, Spark выдает за 50-70 мс
  • Работа с огромными контекстами. Можете загрузить весь код проекта на 200 тысяч строк - и модель будет "видеть" его целиком при генерации
  • Мультиязычный код. Переключение между языками программирования происходит без потери контекста
  • Анализ legacy-кода. Особенно хорошо работает с устаревшими языками вроде COBOL или Fortran

Слабые места:

  • Нет инкрементального обучения. Модель статична - обновления выходят раз в квартал
  • Только код. Не ждите помощи с документацией, README или обсуждением архитектуры
  • Ограниченная поддержка новых фреймворков. Если фреймворк вышел после последнего обновления модели - поддержки нет
  • Требует специализированной инфраструктуры охлаждения. WSE-3 не вставишь в обычный сервер

Самое интересное - интеграция с существующими инструментами. Cerebras предоставляет API-совместимый с облачным Codex интерфейс. Теоретически можно заменить облачный вызов на локальный без изменения кода. На практике возникают нюансы с форматами ответов и таймаутами.

А что с альтернативами? Ведь рынок не стоит на месте

Пока OpenAI и Cerebras анонсировали партнерство, остальные игроки не спали.

Anthropic, судя по нашим тестам гонки агентных моделей, готовит собственную аппаратную платформу. Слухи говорят о сотрудничестве с AMD и использовании архитектуры CDNA 4.

Китайские разработчики тоже не отстают. GLM-5, который мы тестировали в кейсе по обратной инженерии USB, показывает, что можно достигать сравнимых результатов без специализированного железа. Правда, с потреблением энергии в 10 раз выше.

А что насчет открытых моделей? IQuest-Coder-V1 40B все еще остается лучшим выбором для тех, кому нужна производительность близкая к GPT-5.1, но без привязки к конкретному железу. Хотя, конечно, до аппаратной оптимизации Spark ему далеко.

Любопытный факт: в нашем тесте Qwen3-30B на Raspberry Pi 5 мы получили 15 токенов в секунду. Spark выдает 21,000. Разница в 1400 раз. Цена отличается в 10,000 раз. Выбор неочевиден.

Будущее или тупиковая ветвь?

Скептики говорят: "Это нишевое решение для 0.1% рынка". Возможно. Но посмотрите на историю.

Первые GPU для машинного обучения тоже считали нишевыми. Tensor Processing Units от Google - экзотикой. Сегодня без специализированных ускорителей не работает ни одна крупная AI-система.

Spark может стать таким же переломным моментом для генерации кода. Особенно с учетом того, что:

  • Стоимость будет снижаться. Cerebras обещает версию WSE-3 Lite к концу 2026 года за $80,000
  • Появятся облачные предложения. Не покупать чип, а арендовать доступ к нему
  • Экосистема будет расти. Уже есть слухи об интеграции с JetBrains IDE и Visual Studio Code

Но главное - это смена парадигмы. Раньше мы адаптировали модели под существующее железо. Теперь проектируют железо под конкретную модель. Это как разница между установкой софта на готовый компьютер и сборкой компьютера под конкретную программу.

Что делать обычному разработчику? Пока - ничего. Следить за развитием технологии, пробовать облачные аналоги, изучать возможности. А когда цена упадет до разумных $10-15 тысяч - присмотреться серьезно. До тех пор ваш MacBook с локальной моделью, как в нашем обзоре Codex для MacOS, остается лучшим выбором.

П.С. Если все же решитесь на Spark - готовьте помещение с мощным охлаждением. Эта "искра" греется как небольшая электростанция.