Оптимизация ядер для кастомных нейронных процессоров AWS — тот ещё квест. Раньше это было уделом инженеров, которые неделями вручную перебирали параметры, компилировали, профилировали, матерились, и снова по кругу. Но 10 июня 2026 года Amazon решил, что мучить людей больше неинтересно. Вместо этого они выпустили Neuron Agentic Development — связку AI-агентов, которые сами ищут узкие места, предлагают и тестируют оптимизации для ядер под Trainium и Inferentia.
Сдвиг парадигмы: теперь не человек пишет эффективное ядро для Trainium, а человек нанимает AI-агента, который это делает за него. И, судя по первым тестам, агент справляется не хуже, а местами — в 10 раз быстрее.
Почему оптимизация ядер — адская работа
Trainium и Inferentia — не GPU. У них своя архитектура, своя система памяти, свои инструкции. Написать ядро, которое использует все вычислительные блоки на 100%, — искусство. Даже с Neuron SDK последней версии (вот уже 4.x) разработчику приходится вручную подбирать размеры блоков, количество потоков, layout данных. Одна ошибка — и производительность падает в разы.
Amazon давно думали, как автоматизировать этот процесс. Ещё в прошлом году они показали AlphaEvolve — подход DeepMind, где агент учился чинить TPU и ускорять запросы в Spanner. Но то было у Google. Теперь свой вариант появился у AWS.
Что такое Neuron Agentic Development
Это не один агент, а целый набор скиллов. Представьте: вы загружаете своё ядро (или даже просто математическое описание операции), и агент начинает итеративный цикл:
- Анализирует граф вычислений и профилировку текущей реализации
- Генерирует гипотезы — изменения в параметрах компиляции, перестановку инструкций, новые раскладки тензоров
- Компилирует и запускает бенчмарк на реальном hardware (Trainium2 или Inferentia2)
- Сравнивает с baseline и запоминает удачные мутации
Цикл повторяется, пока не упрётся в потолок производительности. Весь процесс занимает минуты, а не дни. Причём агент не просто перебирает вслепую — он использует знания о микроархитектуре, накопленные на тысячах других ядер.
Агенты вместо инженеров: сценарии
Neuron Agentic Development — не игрушка. Его уже тестируют в продакшене. Например, Amazon SageMaker использует агентов для автоматической оптимизации кастомных операций в моделях Llama 4 и Claude 4 под Inferentia. Результат — ускорение inference на 30% без изменения архитектуры.
Другой сценарий — компиляция сложных операторов вроде Flash Attention для Trainium. Раньше инженеры писали такие ядра неделями, теперь агент делает черновик за час, человек только дошлифовывает.
Кстати, это отлично вписывается в общую стратегию Amazon по «приручению агентного хаоса». Недавно они запустили AWS Agent Registry — реестр агентов для корпораций, чтобы управлять их доступом и версиями. Neuron Agentic Development будет одним из первых зарегистрированных сервисов.
Как это отличается от ручной оптимизации
Возьмём типичную ошибку: неправильный размер warp’а. Человек может потратить день, перебирая 32, 64, 128 потоков. Агент за пять запусков найдёт оптимум, потому что сразу учитывает, сколько регистров свободно в Trainium2 (а их там немало).
Но есть нюанс. Агент не гарантирует, что его находка — глобальный оптимум. Если операция очень редкая, он может застрять в локальном максимуме. Тут в дело вступает человеческий опыт. Amazon советуют не доверять агенту слепо — используйте его как ассистента, а не замену.
Вопрос оценки таких агентов тоже не тривиален. У Amazon есть специальный фреймворк для оценки AI-агентов в production. Для Neuron Agentic Development ключевые метрики — прирост FLOPS (в идеале >85% от пика) и время нахождения оптимума.
А как же Kubernetes и автономность?
Здесь всё относительно просто: Neuron Agentic Development работает на выделенных кластерах Trainium и Inferentia, без оркестрации. Никаких тебе Kubernetes-слоёв, которые ломают автономных агентов. Агент запускается как одна задача на инстансе trn2.48xlarge, выполняет итерации и выдаёт результат. После этого его можно убрать. Идеально для CI/CD пайплайнов.
Впрочем, энтузиасты уже экспериментируют: поднимают на отдельном кластере локальный AI-агент вроде Kilo Code на трёх 3090 и гоняют его как ассистента для Neuron. Но это пока хобби.
Прогноз: агенты заменят 80% рутины
Уже к концу 2026 года большинство компаний, которые серьёзно используют Trainium, переведут оптимизацию ядер на агентов. Инженеры сосредоточатся на архитектуре моделей, а не на вылизывании ассемблера. Это неизбежно — как когда-то компиляторы вытеснили ручное написание машинного кода. Neuron Agentic Development — первый шаг к тому, чтобы программирование под кастомное «железо» стало доступным не только избранным.
Мой совет разработчикам: не ждите момента, когда агент станет идеальным. Берите текущую версию (она уже работает) и пробуйте на своих реальных задачах. Только так вы поймёте, где агент силён, а где без человека всё ещё не обойтись. И, кстати, обратная связь от вас — это то, что делает его умнее. AWS обещает обновлять модель агента каждую неделю на основе логов пользователей. Участвуйте.