Token Superposition: новый метод претренинга от Nous Research

Тишина в мире AI была нарушена. 12 мая 2026 года Nous Research опубликовали тизер нового метода претренинга — Token Superposition. Никаких arXiv-препринтов, только короткий пост в блоге и обещание "скоро выложим код". Сообщество зависло в ожидании. Что это? Очередной маркетинговый трюк или реальный прорыв?

Эффективность под микроскопом

Ещё год назад Karpathy показал, как Flash Attention 3 + Muon + Sliding Window срезают 40% стоимости тренировки. Но Nous Research идут дальше. Token Superposition предлагает обучать модель на "суперпозиции" нескольких токенов одновременно. Звучит безумно? Возможно. Но идея витает в воздухе с 2024 года, когда исследователи заметили, что скрытые состояния нейросетей кодируют несколько признаков одновременно — так называемая "суперпозиция признаков". Теперь Nous хотят применить это на уровне входных данных.

Дело в том, что стандартный претренинг обрабатывает каждый токен отдельно. А что если подавать на вход не один токен, а их взвешенную комбинацию? Тогда модель учится различать их быстрее, а количество шагов обучения можно сократить. Звучит как магия, но математика говорит, что это возможно. Вопрос — насколько стабильно.

💡

Идея Token Superposition перекликается с работой разреженных автоэнкодеров, которые мы разбирали в статье о детекции промпт-инъекций. Там суперпозиция признаков мешала интерпретации, здесь её используют во благо.

Цена вопроса

Если метод подтвердится, это изменит экономику AI. Сейчас топовые модели стоят десятки миллионов долларов за претренинг. Token Superposition может уполовинить эту цифру. Open-source сообщество вздохнёт с облегчением: мелкие лаборатории получат шанс конкурировать с гигантами. Но есть нюанс: метод требует переписывать kernel'ы под GPU, и не факт, что токены не будут "смешиваться" в непредсказуемом порядке.

Наш прогноз: Nous Research либо выкатят полноценную статью на следующей неделе, либо замолчат. Вспомним историю с Model Extraction, когда секреты Gemini украли за 5$ — читайте в нашем материале. Там взломщики использовали слабость модели к повторению. Token Superposition, наоборот, делает модель устойчивее к таким атакам?

Где подвох

Типичная проблема новых методов — воспроизводимость. Даже Karpathy со своим открытым кодом долго подгонял результаты. А Nous Research пока молчат. Валидация на бенчмарках? Неизвестно. Работает ли для больших моделей (175B+)? Вопрос. Тем не менее, техника выглядит многообещающе. Если она сработает, мы увидим очередной виток гонки эффективности — как это было с Muon и Flash Attention снизившими cost на 40% — мы уже писали об этом.

Кстати, о гонке. Параллельно Nous Research, Google DeepMind разрабатывают собственные методы суперпозиции для мультимодальных моделей. Но кто быстрее выпустит работающее решение — вопрос открытый.

Новый метод может породить новые виды дрейфа — ведь обучение на суперпозиции меняет внутренние представления. Для мониторинга моделей может пригодиться FIDI Z-Score — нейро-символический детектор без labeled данных.

Мы следим за развитием событий. Если у вас есть доступ к бета-тесту или инсайдам — пишите нам в комментариях.

Подписаться на канал

Token Superposition от Nous Research: новый метод претренинга, который сломает экономику AI

Эффективность под микроскопом

Цена вопроса

Где подвох

Подписывайтесь на наш канал!