Когда нейросети пишут код для нейросетей
В феврале 2026 года это уже не фантастика. Агенты на базе GPT-5.3 Codex и Claude Opus 4.6 действительно генерируют рабочие CUDA-ядра для трансформеров. И делают это лучше половины джунов с двухлетним опытом работы с GPU.
На 15.02.2026 GPT-5.3 Codex и Claude Opus 4.6 — самые свежие версии моделей для генерации кода. Codex специализируется на синтаксисе и низкоуровневых оптимизациях, Claude — на архитектурных решениях.
Что умеет этот skill
Представьте: вы описываете операцию трансформера на Python. Скажем, fused attention с кастомной активацией. Skill анализирует ваше описание, изучает target hardware (RTX 5090? H100?), и выдает готовое CUDA-ядро с PyTorch bindings.
- Генерация ядер для attention, feed-forward, layer normalization
- Автоматический подбор tile sizes и shared memory стратегий
- Интеграция с Kernel Hub для версионирования и бенчмаркинга
- Генерация Python оберток для PyTorch 2.4+
- Оптимизация под конкретные GPU архитектуры (Ampere, Blackwell, Hopper)
Как это работает на практике
Вы не пишете промпты. Вообще. Skill использует заранее обученные workflow, которые знают про memory coalescing, bank conflicts и occupancy calculators. В рабочем процессе создателя Claude Code это называют "контекстной инженерией" — система сама подбирает нужные примеры и ограничения.
Codex vs Claude: кто что делает
Здесь нет конкуренции. Есть разделение труда, о котором подробно писали в сравнении архитектора и исполнителя.
| Задача | Codex (GPT-5.3) | Claude (Opus 4.6) |
|---|---|---|
| Низкоуровневая оптимизация | Основная роль | Консультации |
| Архитектура ядра | Исполнение | Проектирование |
| Интеграция с PyTorch | Генерация bindings | API дизайн |
| Бенчмаркинг | Метрики производительности | Анализ результатов |
Codex отлично справляется с синтаксисом CUDA и знает все последние фичи Compute Capability 9.0 (Blackwell). Claude понимает, зачем эти фичи нужны и как их правильно применить. Вместе они работают как senior kernel developer с десятилетним опытом.
Интеграция с экосистемой
Skill не существует в вакууме. Он подключен к Kernel Hub — централизованному репозиторию оптимизированных ядер. Когда агент генерирует новое ядро, он сначала проверяет, нет ли чего-то похожего уже в Hub. Если есть — адаптирует под ваши нужды. Если нет — создает с нуля и предлагает добавить в общую копилку.
Для PyTorch 2.4+ skill автоматически генерирует torch.autograd.Function обертки с правильной поддержкой backward pass. Никаких ручных bindingов на C++ — все через torch.compile с кастомными операторами.
Важно: сгенерированные ядра требуют валидации. Skill включает тесты на численную стабильность и производительность, но финальную проверку на edge cases лучше делать вручную. Особенно если работаете с mixed precision.
Кому это реально нужно
Не всем. Если вы тренируете стандартные трансформеры на стандартных датасетах — используйте готовые оптимизации из библиотек. Этот skill для тех, кто:
- Разрабатывает кастомные архитектуры трансформеров
- Работает с нестандартными типами данных (3D, sparse, graph)
- Оптимизирует inference для production с жесткими latency требованиями
- Исследует новые attention механизмы
Как отмечали в материале про разработчиков, такие инструменты одновременно пугают и восхищают. Пугают — потому что автоматизируют сложнейшую часть работы. Восхищают — потому что открывают доступ к низкоуровневой оптимизации для тех, кто не готов тратить годы на изучение CUDA.
Альтернативы? Есть, но...
Triton от OpenAI. TVM от Apache. Оба хороши, но требуют своего уровня экспертизы. Triton — это высокоуровневый язык, который все равно нужно учить. TVM — фреймворк с крутой кривой обучения.
Skill на базе Codex и Claude говорит с вами на Python. Вы описываете, что хотите сделать. Система предлагает, как это можно оптимизировать. Вы соглашаетесь или вносите правки. Получаете готовое ядро. Весь диалог — на уровне абстракции PyTorch, не ниже.
Для сравнения: в статье про генерацию диффузоров описывали похожий подход, но там речь шла о более высокоуровневых оптимизациях. Здесь же — именно низкоуровневая работа с GPU.
Сколько это стоит и как начать
На 15.02.2026 skill доступен как часть платформы Manus Agent Skills в премиум-подписке. Есть бесплатный tier с ограничением на сложность генерируемых ядер и частоту запросов.
Для начала работы нужен:
- Аккаунт на платформе с доступом к GPT-5.3 Codex и Claude Opus 4.6
- CUDA Toolkit 12.5+ на машине для компиляции
- PyTorch 2.4+ с поддержкой torch.compile
- GPU с Compute Capability не ниже 8.0 (Ampere или новее)
Первое ядро — fused softmax attention с кастомным masking — система сгенерирует за 3-5 минут. Включая бенчмаркинг против baseline реализации из PyTorch.
Что будет дальше
К концу 2026 года, по прогнозам, 70% рутинных CUDA оптимизаций для трансформеров будут автоматизированы через подобные системы. Останутся задачи, требующие человеческой интуиции: trade-offs между memory footprint и speed, оптимизация под экзотичные hardware конфигурации, работа с совсем новыми типами операций.
Но сама идея, что для написания CUDA-ядра нужно знать CUDA, уходит в прошлое. Теперь нужно знать, что ты хочешь получить на выходе. А как это сделать оптимально — подскажут агенты. Страшно? Возможно. Но неизбежно.
Как говорили в материале про самообучение Codex, эти системы уже учатся на своих же генерациях. Каждое новое ядро, каждое сравнение производительности — это data point для улучшения следующих версий. Круг замыкается: нейросети оптимизируют нейросети, которые оптимизируют нейросети.