Что такое Next-Token-Prediction и почему это проблема?

Next-Token-Prediction (NTP) — это основная задача обучения больших языковых моделей: предсказать следующее слово (токен) в последовательности. Проблема в том, что это учит модель находить статистические корреляции, а не понимать логику или выполнять рассуждения. Модель угадывает, какое слово вероятнее всего следует дальше, основываясь на данных, а не строит мысленную модель задачи.

Как маленькие модели обходят ограничения NTP?

Маленькие модели часто узкоспециализированы. Они обучены на высококачественных данных в одной конкретной области (например, шахматы, генерация кода на Python). В таком узком контексте статистическое предсказание следующего токена становится эффективной стратегией, так как модель не отвлекается на посторонние знания. Кроме того, они используют более современные и эффективные архитектуры (например, State Space Models), которые лучше улавливают длинные зависимости.

Означает ли это, что большие модели вроде ChatGPT устареют?

Нет, но их роль изменится. Большие общие модели останутся полезными для широкого круга задач, где нужна эрудиция или ведение беседы на свободную тему. Однако для конкретных, критически важных задач (медицина, программирование, анализ данных) маленькие специализированные модели будут давать более точные, быстрые и дешёвые результаты. Будущее — за экосистемами из маленьких моделей.

Маленькие модели vs ChatGPT: ограничения Next-Token-Prediction

Слон в посудной лавке: почему GPT-5.2 путается в простых логических цепочках

В 2026 году разговоры об ИИ сводятся к одному: кто выпустит модель с триллионом параметров. ChatGPT, Claude, Gemini — все соревнуются в гигантизме. А потом появляется моделька на 50 миллионов параметров и обыгрывает их в шахматы. Или в логических головоломках. Или в написании кода для конкретной библиотеки.

Парадокс. Как так? Мы привыкли, что больше — значит умнее. Но у этой монетки есть обратная сторона, и она вся в фундаментальной архитектуре. В Next-Token-Prediction.

Next-Token-Prediction (NTP) — это основа всех больших языковых моделей. Простая задача: предсказать следующее слово в последовательности. На этом выросли GPT-3, GPT-4, и даже свежий на апрель 2026 года GPT-5.2. И это их ахиллесова пята.

Next-Token-Prediction: гениальная идея, которая уперлась в потолок

Представь самого эрудированного человека в мире. Он знает все факты, все стихи, все законы физики. Но попроси его решить многошаговую логическую задачу — и он начнёт нести околесицу. Знание не равно пониманию. А предсказание следующего токена — не равно рассуждению.

Вот как это работает внутри. Модель получает промпт: «У Алисы 3 яблока. Она отдала 2 Бобу. Сколько яблок у Алисы?».

Она не строит мысленную модель ситуации. Не создаёт переменные. Не выполняет пошаговый вычет. Она ищет в своей памяти статистические закономерности. Какие слова чаще всего следуют за словами «сколько яблок» в миллиардах текстов? Возможно, «1». Возможно, «5». Она угадывает.

Chain-of-Thought (цепочка рассуждений) — это костыль. Блестящий, но костыль. Мы заставляем модель: «Давай подумаем шаг за шагом». И она начинает генерировать токены, которые выглядят как рассуждение. Но под капотом — всё та же игра в угадайку. Она предсказывает, какой токен будет выглядеть логично в качестве «шага», а не выполняет его.

💡

Это объясняет, почему GPT-5.2 может писать хуже в некоторых сценариях. Добавление параметров и данных усиливает статистическую корреляцию, но не обязательно улучшает глубину понимания. Модель становится лучше в имитации, а не в мышлении.

Маленькие модели не отвлекаются

А теперь посмотри на Chess GPT. 50 миллионов параметров. Она обучена на одном — последовательностях шахматных ходов в PGN-формате. Её мир ограничен 64 клетками и правилами игры.

Для неё Next-Token-Prediction — это не недостаток, а суперсила. Ей не нужно «рассуждать» о философии или физике. Её контекст настолько узок, что статистическое предсказание следующего хода — это и есть оптимальная стратегия. Она видела миллионы позиций и знает, какой ход статистически ведёт к победе.

Специализация убивает шум. Большая модель, когда её спрашивают про шахматы, мечется между знанием правил, историями о Каспарове, теорией игр и мемами про «эн пассан». Маленькая модель сфокусирована как лазер.

Критерий	Большая модель (GPT-5.2)	Маленькая специализированная модель
Цель обучения	Предсказать любой токен в любом контексте	Предсказать токен в узком домене
Побочные знания	Гигантские, часто мешающие	Минимальные, только по теме
Рассуждения (эмуляция)	Сложная симуляция через CoT	Прямое отображение паттернов
Эффективность	Низкая на задачу (из-за размера)	Высокая на задачу

Архитектурный бунт: Mamba, SSM и конец эпохи Transformer

До 2024 года все говорили о Transformer. К 2026 году исследовательские паблики взорваны State Space Models (SSM) и архитектурой Mamba. Почему? Потому что они предлагают кое-что принципиально иное.

Transformer с его механизмом внимания отлично справляется с NTP, но он вычислительно прожорлив. Каждый токен должен «посмотреть» на каждый другой токен в контексте. Mamba и подобные модели используют дифференциальные уравнения для обработки последовательностей. Они эффективнее. Они могут работать с более длинными контекстами, не сжирая всю память.

А теперь главное. Эти новые архитектуры легче обучать с нуля на специфичных данных. Не нужно триллионов параметров, чтобы уловить суть. Это идеальный фундамент для маленьких, умных моделей. Закон уплотнения, о котором мы писали ранее, работает на них.

Закон уплотнения (Densing Law) в действии: к 2026 году модель на 10 миллиардов параметров с архитектурой Mamba, обученная на отфильтрованных данных по программированию, может превзойти GPT-5.2 в генерации кода на Python. Не потому что она знает больше, а потому что она знает точнее и не отвлекается.

Как строить будущее, которое не зависит от гигантов

Итак, NTP — это потолок для общих рассуждений. Большие модели будут становиться лучше в имитации, но их прогресс будет асимптотическим. Дорогим. Неэффективным.

Маленькие модели — это путь. Но не абы какие. Вот из чего складывается их сила:

Гиперспециализация. Одна модель — одна задача. Кодогенерация. Анализ юридических документов. Медицинский диалог. Даже кража и дистилляция большой модели в маленькую для конкретной цели работает.
Качество данных, а не количество. 10ГБ идеально очищенных, выверенных данных по физике лучше, чем 10ТБ сырого интернет-сора.
Современные эффективные архитектуры. Mamba, RWKV-6 (актуально на 2026 год), другие SSM. Они быстрее обучаются и работают.
Гибридные подходы. Модель не должна быть пассивным генератором текста. Она может вызывать калькулятор, базу данных, симулятор. Внешние инструменты компенсируют отсутствие «рассуждения» внутри NTP.

1 Сфокусируй задачу до атомарного уровня

Не «напиши код». А «сгенерируй функцию на Python, которая принимает DataFrame Pandas и возвращает скользящее среднее за 7 дней, используя только библиотеку NumPy». Чем уже фокус, тем проще модели. Тем меньше шансов на NTP-галлюцинации.

2 Собери или сгенерируй идеальный датасет

Забудь про Common Crawl. Для своей задачи собери примеры идеального исполнения. Используй большие модели для аугментации данных, но потом жёстко фильтруй. Один плохой пример испортит маленькую модель.

3 Выбери современную, лёгкую архитектуру

Не цепляйся за Transformer. В 2026 году есть выбор. Для последовательностей — Mamba-3 (или что актуально). Для быстрого вывода на CPU — возможно, уже появились квантованные архитектуры с изначальной поддержкой int4. Изучи базовые принципы, чтобы понимать, что берёшь.

4 Приучи модель пользоваться инструментами

Самая большая ошибка — ждать, что модель «поймёт» математику. Не поймёт. Это NTP. Научи её вызывать внешний калькулятор или Python REPL, когда в промпте есть цифры. Отдай логику туда, где она принадлежит.

А что же ChatGPT и компания?

Они не исчезнут. Они станут операционными системами. Швейцарскими ножами для задач, где нужна широта, а не глубина. Или где важна беседа на любую тему. Но их монополия на «интеллект» закончится.

Уже сейчас видно, как эншитификация толкает на локальные нейросети. Зачем платить за API, если твоя 3-гигабайтная модель делает 90% твоей работы лучше?

Мой прогноз? К 2028 году успешный AI-продукт будет использовать флот маленьких, идеально настроенных моделей, управляемых оркестратором. Одна для парсинга намерений, другая для генерации SQL, третья для проверки стиля. И каждая будет весить меньше, чем одна картинка в ленте Instagram.

Не гонись за параметрами. Гонись за смыслом. Next-Token-Prediction — это мощный двигатель, но он едет только по дороге статистических корреляций. Чтобы свернуть на тропу логики, нужна карта специализации. И именно маленькие модели первыми найдут к ней путь.

Следующий шаг? Открой Hugging Face (это не реклама, это просто факт). Отсортируй модели по размеру. И попробуй какую-нибудь с пометкой «text-generation» и размером в пару гигабайт для своей нишевой задачи. Результаты удивят. А может, и нет. Ведь ты теперь знаешь, почему маленькие могут быть лучше.

Подписаться на канал

Почему маленькие модели могут обогнать ChatGPT: разбор ограничений Next-Token-Prediction