Шёпот мёртвого нейрона
Знаете это чувство, когда вы запускаете локальную LLM на новом RTX 5090, а она вместо связного ответа выдаёт "антрекота антропоморфного трансцендентного тритона"? Именно так выглядит проклятие gibberish — синдром бессмысленной генерации, который последние полгода сводил с ума владельцев Ada Lovelace и Blackwell-карт. Но 2 июня 2026 года NVIDIA наконец-то выкатила CUDA 13.3, и, судя по воплям восторга на форумах, зверь повержен.
Если вы всё ещё мучаетесь с бессвязными ответами и думаете, что модель криво обучилась — скорее всего, дело не в ней, а в CUDA. Проблема проявлялась случайно: 1 раз из 10, потом 3 из 10, а дальше модель просто сходила с ума.
Откуда росли ноги у этого кошмара
Корень зла — в новой организации работы с тензорами в архитектурах Ada Lovelace и Blackwell. NVIDIA переписала часть ядер для работы с FP8 и 4-битной квантизацией, и где-то в слоях CUB и NCCL закралась ошибка с когерентностью кэша L2. При высоких нагрузках — например, при последовательной генерации с batch size 1 — данные из регистров возвращались в неверном порядке. Unsloth, легендарная библиотека для сверхбыстрого обучения, первой забила тревогу ещё в апреле 2026, опубликовав issue с 200 комментариями. И вот, спустя месяц, — патч.
| Параметр | До CUDA 13.3 | После CUDA 13.3 |
|---|---|---|
| Вероятность gibberish | до 40% на Blackwell | <0.1% |
| Совместимость с Unsloth 2026.06.01 | требовался флаг --no-cublaslt | полная из коробки |
| Влияние на скорость генерации | базовый | +3-5% (оптимизация warp) |
Unsloth: первый пострадавший и первый спасённый
Даниэль Хан, создатель Unsloth, уже на следующий день после релиза CUDA 13.3 выложил тестовый билд. Результаты — нулевой gibberish на восьми RTX 5090 в конфигурации с тензорным параллелизмом. Для тех, кто ещё не знаком с тем, как заставить несколько видеокарт работать слаженно, советую глянуть статью про тензорный параллелизм в llama.cpp — там как раз разбирается, почему две карты могут быть эффективнее одной, но только при правильном софте.
Более того, Unsloth 2026.06.01 (вышел 10 июня) уже по умолчанию использует cuBLASLT версии 13.3 и не требует ручных костылей. Это снимает проблему, описанную в нашем гайде по типичным ошибкам локального запуска, где мы рекомендовали отключать новые фичи CUDA.
Что дальше: тихая эволюция или новая подстава?
NVIDIA, конечно, молодцы, что выпустили фикс так быстро — всего через месяц после первого массового репорта. Но осадочек остался: как такой баг вообще прошёл QA? Если вы запускаете локальные LLM на старых RTX 30-й серии — вас проблема не касалась, для остальных — теперь рай.
Лично я рекомендую не просто обновить CUDA, а переустановить её с полным сбросом кэша компиляции. Иначе библиотеки вроде llama.cpp могут подхватить старые бинарники. А ещё — сразу проверьте совместимость с вашим LLM-фреймворком: Unsloth, ExLlamaV3, vLLM — все уже зарелизили обновления.
Хотите собрать бюджетную станцию для AI-агентов? Купить RTX 5090 сейчас самый разумный вариант — цены на фоне выхода Blackwell чуть упали, а с CUDA 13.3 карта раскрывается полностью.
Мой прогноз: после этого фикса Unsloth станет стандартом де-факто для тонкой настройки локальных моделей, а продажи Blackwell-карт для AI-энтузиастов подскочат на 20% к сентябрю. Но следите за новыми версиями — NVIDIA уже анонсировала CUDA 14.0 на 2027, и, бьюсь об заклад, без новых багов не обойдётся.