Тишина в мире AI была нарушена. 12 мая 2026 года Nous Research опубликовали тизер нового метода претренинга — Token Superposition. Никаких arXiv-препринтов, только короткий пост в блоге и обещание "скоро выложим код". Сообщество зависло в ожидании. Что это? Очередной маркетинговый трюк или реальный прорыв?
Эффективность под микроскопом
Ещё год назад Karpathy показал, как Flash Attention 3 + Muon + Sliding Window срезают 40% стоимости тренировки. Но Nous Research идут дальше. Token Superposition предлагает обучать модель на "суперпозиции" нескольких токенов одновременно. Звучит безумно? Возможно. Но идея витает в воздухе с 2024 года, когда исследователи заметили, что скрытые состояния нейросетей кодируют несколько признаков одновременно — так называемая "суперпозиция признаков". Теперь Nous хотят применить это на уровне входных данных.
Дело в том, что стандартный претренинг обрабатывает каждый токен отдельно. А что если подавать на вход не один токен, а их взвешенную комбинацию? Тогда модель учится различать их быстрее, а количество шагов обучения можно сократить. Звучит как магия, но математика говорит, что это возможно. Вопрос — насколько стабильно.
Цена вопроса
Если метод подтвердится, это изменит экономику AI. Сейчас топовые модели стоят десятки миллионов долларов за претренинг. Token Superposition может уполовинить эту цифру. Open-source сообщество вздохнёт с облегчением: мелкие лаборатории получат шанс конкурировать с гигантами. Но есть нюанс: метод требует переписывать kernel'ы под GPU, и не факт, что токены не будут "смешиваться" в непредсказуемом порядке.
Наш прогноз: Nous Research либо выкатят полноценную статью на следующей неделе, либо замолчат. Вспомним историю с Model Extraction, когда секреты Gemini украли за 5$ — читайте в нашем материале. Там взломщики использовали слабость модели к повторению. Token Superposition, наоборот, делает модель устойчивее к таким атакам?
Где подвох
Типичная проблема новых методов — воспроизводимость. Даже Karpathy со своим открытым кодом долго подгонял результаты. А Nous Research пока молчат. Валидация на бенчмарках? Неизвестно. Работает ли для больших моделей (175B+)? Вопрос. Тем не менее, техника выглядит многообещающе. Если она сработает, мы увидим очередной виток гонки эффективности — как это было с Muon и Flash Attention снизившими cost на 40% — мы уже писали об этом.
Кстати, о гонке. Параллельно Nous Research, Google DeepMind разрабатывают собственные методы суперпозиции для мультимодальных моделей. Но кто быстрее выпустит работающее решение — вопрос открытый.
Новый метод может породить новые виды дрейфа — ведь обучение на суперпозиции меняет внутренние представления. Для мониторинга моделей может пригодиться FIDI Z-Score — нейро-символический детектор без labeled данных.
Мы следим за развитием событий. Если у вас есть доступ к бета-тесту или инсайдам — пишите нам в комментариях.