Когда нейросети пишут код для нейросетей

В феврале 2026 года это уже не фантастика. Агенты на базе GPT-5.3 Codex и Claude Opus 4.6 действительно генерируют рабочие CUDA-ядра для трансформеров. И делают это лучше половины джунов с двухлетним опытом работы с GPU.

На 15.02.2026 GPT-5.3 Codex и Claude Opus 4.6 — самые свежие версии моделей для генерации кода. Codex специализируется на синтаксисе и низкоуровневых оптимизациях, Claude — на архитектурных решениях.

Что умеет этот skill

Представьте: вы описываете операцию трансформера на Python. Скажем, fused attention с кастомной активацией. Skill анализирует ваше описание, изучает target hardware (RTX 5090? H100?), и выдает готовое CUDA-ядро с PyTorch bindings.

Генерация ядер для attention, feed-forward, layer normalization
Автоматический подбор tile sizes и shared memory стратегий
Интеграция с Kernel Hub для версионирования и бенчмаркинга
Генерация Python оберток для PyTorch 2.4+
Оптимизация под конкретные GPU архитектуры (Ampere, Blackwell, Hopper)

Как это работает на практике

Вы не пишете промпты. Вообще. Skill использует заранее обученные workflow, которые знают про memory coalescing, bank conflicts и occupancy calculators. В рабочем процессе создателя Claude Code это называют "контекстной инженерией" — система сама подбирает нужные примеры и ограничения.

💡

В феврале 2026 года большинство оптимизаций для diffusers и transformers уже автоматизированы через подобные skills. Ручная настройка ядер остается только для экзотических архитектур или research-level оптимизаций.

Codex vs Claude: кто что делает

Здесь нет конкуренции. Есть разделение труда, о котором подробно писали в сравнении архитектора и исполнителя.

Задача	Codex (GPT-5.3)	Claude (Opus 4.6)
Низкоуровневая оптимизация	Основная роль	Консультации
Архитектура ядра	Исполнение	Проектирование
Интеграция с PyTorch	Генерация bindings	API дизайн
Бенчмаркинг	Метрики производительности	Анализ результатов

Codex отлично справляется с синтаксисом CUDA и знает все последние фичи Compute Capability 9.0 (Blackwell). Claude понимает, зачем эти фичи нужны и как их правильно применить. Вместе они работают как senior kernel developer с десятилетним опытом.

Интеграция с экосистемой

Skill не существует в вакууме. Он подключен к Kernel Hub — централизованному репозиторию оптимизированных ядер. Когда агент генерирует новое ядро, он сначала проверяет, нет ли чего-то похожего уже в Hub. Если есть — адаптирует под ваши нужды. Если нет — создает с нуля и предлагает добавить в общую копилку.

Для PyTorch 2.4+ skill автоматически генерирует torch.autograd.Function обертки с правильной поддержкой backward pass. Никаких ручных bindingов на C++ — все через torch.compile с кастомными операторами.

Важно: сгенерированные ядра требуют валидации. Skill включает тесты на численную стабильность и производительность, но финальную проверку на edge cases лучше делать вручную. Особенно если работаете с mixed precision.

Кому это реально нужно

Не всем. Если вы тренируете стандартные трансформеры на стандартных датасетах — используйте готовые оптимизации из библиотек. Этот skill для тех, кто:

Разрабатывает кастомные архитектуры трансформеров
Работает с нестандартными типами данных (3D, sparse, graph)
Оптимизирует inference для production с жесткими latency требованиями
Исследует новые attention механизмы

Как отмечали в материале про разработчиков, такие инструменты одновременно пугают и восхищают. Пугают — потому что автоматизируют сложнейшую часть работы. Восхищают — потому что открывают доступ к низкоуровневой оптимизации для тех, кто не готов тратить годы на изучение CUDA.

Альтернативы? Есть, но...

Triton от OpenAI. TVM от Apache. Оба хороши, но требуют своего уровня экспертизы. Triton — это высокоуровневый язык, который все равно нужно учить. TVM — фреймворк с крутой кривой обучения.

Skill на базе Codex и Claude говорит с вами на Python. Вы описываете, что хотите сделать. Система предлагает, как это можно оптимизировать. Вы соглашаетесь или вносите правки. Получаете готовое ядро. Весь диалог — на уровне абстракции PyTorch, не ниже.

Для сравнения: в статье про генерацию диффузоров описывали похожий подход, но там речь шла о более высокоуровневых оптимизациях. Здесь же — именно низкоуровневая работа с GPU.

Сколько это стоит и как начать

На 15.02.2026 skill доступен как часть платформы Manus Agent Skills в премиум-подписке. Есть бесплатный tier с ограничением на сложность генерируемых ядер и частоту запросов.

Для начала работы нужен:

Аккаунт на платформе с доступом к GPT-5.3 Codex и Claude Opus 4.6
CUDA Toolkit 12.5+ на машине для компиляции
PyTorch 2.4+ с поддержкой torch.compile
GPU с Compute Capability не ниже 8.0 (Ampere или новее)

Первое ядро — fused softmax attention с кастомным masking — система сгенерирует за 3-5 минут. Включая бенчмаркинг против baseline реализации из PyTorch.

Что будет дальше

К концу 2026 года, по прогнозам, 70% рутинных CUDA оптимизаций для трансформеров будут автоматизированы через подобные системы. Останутся задачи, требующие человеческой интуиции: trade-offs между memory footprint и speed, оптимизация под экзотичные hardware конфигурации, работа с совсем новыми типами операций.

Но сама идея, что для написания CUDA-ядра нужно знать CUDA, уходит в прошлое. Теперь нужно знать, что ты хочешь получить на выходе. А как это сделать оптимально — подскажут агенты. Страшно? Возможно. Но неизбежно.

Как говорили в материале про самообучение Codex, эти системы уже учатся на своих же генерациях. Каждое новое ядро, каждое сравнение производительности — это data point для улучшения следующих версий. Круг замыкается: нейросети оптимизируют нейросети, которые оптимизируют нейросети.

Агенты Codex и Claude пишут CUDA-ядра для трансформеров: как работает skill для автоматизации низкоуровневой оптимизации