AI агенты Codex и Claude пишут CUDA-ядра: автоматизация оптимизации трансформеров | AiManual
AiManual Logo Ai / Manual.
15 Фев 2026 Инструмент

Агенты Codex и Claude пишут CUDA-ядра для трансформеров: как работает skill для автоматизации низкоуровневой оптимизации

Как агенты Codex и Claude автоматически генерируют оптимизированные CUDA-ядра для трансформеров. Skill для низкоуровневой оптимизации, интеграция с Kernel Hub и

Когда нейросети пишут код для нейросетей

В феврале 2026 года это уже не фантастика. Агенты на базе GPT-5.3 Codex и Claude Opus 4.6 действительно генерируют рабочие CUDA-ядра для трансформеров. И делают это лучше половины джунов с двухлетним опытом работы с GPU.

На 15.02.2026 GPT-5.3 Codex и Claude Opus 4.6 — самые свежие версии моделей для генерации кода. Codex специализируется на синтаксисе и низкоуровневых оптимизациях, Claude — на архитектурных решениях.

Что умеет этот skill

Представьте: вы описываете операцию трансформера на Python. Скажем, fused attention с кастомной активацией. Skill анализирует ваше описание, изучает target hardware (RTX 5090? H100?), и выдает готовое CUDA-ядро с PyTorch bindings.

  • Генерация ядер для attention, feed-forward, layer normalization
  • Автоматический подбор tile sizes и shared memory стратегий
  • Интеграция с Kernel Hub для версионирования и бенчмаркинга
  • Генерация Python оберток для PyTorch 2.4+
  • Оптимизация под конкретные GPU архитектуры (Ampere, Blackwell, Hopper)

Как это работает на практике

Вы не пишете промпты. Вообще. Skill использует заранее обученные workflow, которые знают про memory coalescing, bank conflicts и occupancy calculators. В рабочем процессе создателя Claude Code это называют "контекстной инженерией" — система сама подбирает нужные примеры и ограничения.

💡
В феврале 2026 года большинство оптимизаций для diffusers и transformers уже автоматизированы через подобные skills. Ручная настройка ядер остается только для экзотических архитектур или research-level оптимизаций.

Codex vs Claude: кто что делает

Здесь нет конкуренции. Есть разделение труда, о котором подробно писали в сравнении архитектора и исполнителя.

Задача Codex (GPT-5.3) Claude (Opus 4.6)
Низкоуровневая оптимизация Основная роль Консультации
Архитектура ядра Исполнение Проектирование
Интеграция с PyTorch Генерация bindings API дизайн
Бенчмаркинг Метрики производительности Анализ результатов

Codex отлично справляется с синтаксисом CUDA и знает все последние фичи Compute Capability 9.0 (Blackwell). Claude понимает, зачем эти фичи нужны и как их правильно применить. Вместе они работают как senior kernel developer с десятилетним опытом.

Интеграция с экосистемой

Skill не существует в вакууме. Он подключен к Kernel Hub — централизованному репозиторию оптимизированных ядер. Когда агент генерирует новое ядро, он сначала проверяет, нет ли чего-то похожего уже в Hub. Если есть — адаптирует под ваши нужды. Если нет — создает с нуля и предлагает добавить в общую копилку.

Для PyTorch 2.4+ skill автоматически генерирует torch.autograd.Function обертки с правильной поддержкой backward pass. Никаких ручных bindingов на C++ — все через torch.compile с кастомными операторами.

Важно: сгенерированные ядра требуют валидации. Skill включает тесты на численную стабильность и производительность, но финальную проверку на edge cases лучше делать вручную. Особенно если работаете с mixed precision.

Кому это реально нужно

Не всем. Если вы тренируете стандартные трансформеры на стандартных датасетах — используйте готовые оптимизации из библиотек. Этот skill для тех, кто:

  • Разрабатывает кастомные архитектуры трансформеров
  • Работает с нестандартными типами данных (3D, sparse, graph)
  • Оптимизирует inference для production с жесткими latency требованиями
  • Исследует новые attention механизмы

Как отмечали в материале про разработчиков, такие инструменты одновременно пугают и восхищают. Пугают — потому что автоматизируют сложнейшую часть работы. Восхищают — потому что открывают доступ к низкоуровневой оптимизации для тех, кто не готов тратить годы на изучение CUDA.

Альтернативы? Есть, но...

Triton от OpenAI. TVM от Apache. Оба хороши, но требуют своего уровня экспертизы. Triton — это высокоуровневый язык, который все равно нужно учить. TVM — фреймворк с крутой кривой обучения.

Skill на базе Codex и Claude говорит с вами на Python. Вы описываете, что хотите сделать. Система предлагает, как это можно оптимизировать. Вы соглашаетесь или вносите правки. Получаете готовое ядро. Весь диалог — на уровне абстракции PyTorch, не ниже.

Для сравнения: в статье про генерацию диффузоров описывали похожий подход, но там речь шла о более высокоуровневых оптимизациях. Здесь же — именно низкоуровневая работа с GPU.

Сколько это стоит и как начать

На 15.02.2026 skill доступен как часть платформы Manus Agent Skills в премиум-подписке. Есть бесплатный tier с ограничением на сложность генерируемых ядер и частоту запросов.

Для начала работы нужен:

  1. Аккаунт на платформе с доступом к GPT-5.3 Codex и Claude Opus 4.6
  2. CUDA Toolkit 12.5+ на машине для компиляции
  3. PyTorch 2.4+ с поддержкой torch.compile
  4. GPU с Compute Capability не ниже 8.0 (Ampere или новее)

Первое ядро — fused softmax attention с кастомным masking — система сгенерирует за 3-5 минут. Включая бенчмаркинг против baseline реализации из PyTorch.

Что будет дальше

К концу 2026 года, по прогнозам, 70% рутинных CUDA оптимизаций для трансформеров будут автоматизированы через подобные системы. Останутся задачи, требующие человеческой интуиции: trade-offs между memory footprint и speed, оптимизация под экзотичные hardware конфигурации, работа с совсем новыми типами операций.

Но сама идея, что для написания CUDA-ядра нужно знать CUDA, уходит в прошлое. Теперь нужно знать, что ты хочешь получить на выходе. А как это сделать оптимально — подскажут агенты. Страшно? Возможно. Но неизбежно.

Как говорили в материале про самообучение Codex, эти системы уже учатся на своих же генерациях. Каждое новое ядро, каждое сравнение производительности — это data point для улучшения следующих версий. Круг замыкается: нейросети оптимизируют нейросети, которые оптимизируют нейросети.