Слон в посудной лавке: почему GPT-5.2 путается в простых логических цепочках
В 2026 году разговоры об ИИ сводятся к одному: кто выпустит модель с триллионом параметров. ChatGPT, Claude, Gemini — все соревнуются в гигантизме. А потом появляется моделька на 50 миллионов параметров и обыгрывает их в шахматы. Или в логических головоломках. Или в написании кода для конкретной библиотеки.
Парадокс. Как так? Мы привыкли, что больше — значит умнее. Но у этой монетки есть обратная сторона, и она вся в фундаментальной архитектуре. В Next-Token-Prediction.
Next-Token-Prediction (NTP) — это основа всех больших языковых моделей. Простая задача: предсказать следующее слово в последовательности. На этом выросли GPT-3, GPT-4, и даже свежий на апрель 2026 года GPT-5.2. И это их ахиллесова пята.
Next-Token-Prediction: гениальная идея, которая уперлась в потолок
Представь самого эрудированного человека в мире. Он знает все факты, все стихи, все законы физики. Но попроси его решить многошаговую логическую задачу — и он начнёт нести околесицу. Знание не равно пониманию. А предсказание следующего токена — не равно рассуждению.
Вот как это работает внутри. Модель получает промпт: «У Алисы 3 яблока. Она отдала 2 Бобу. Сколько яблок у Алисы?».
Она не строит мысленную модель ситуации. Не создаёт переменные. Не выполняет пошаговый вычет. Она ищет в своей памяти статистические закономерности. Какие слова чаще всего следуют за словами «сколько яблок» в миллиардах текстов? Возможно, «1». Возможно, «5». Она угадывает.
Chain-of-Thought (цепочка рассуждений) — это костыль. Блестящий, но костыль. Мы заставляем модель: «Давай подумаем шаг за шагом». И она начинает генерировать токены, которые выглядят как рассуждение. Но под капотом — всё та же игра в угадайку. Она предсказывает, какой токен будет выглядеть логично в качестве «шага», а не выполняет его.
Маленькие модели не отвлекаются
А теперь посмотри на Chess GPT. 50 миллионов параметров. Она обучена на одном — последовательностях шахматных ходов в PGN-формате. Её мир ограничен 64 клетками и правилами игры.
Для неё Next-Token-Prediction — это не недостаток, а суперсила. Ей не нужно «рассуждать» о философии или физике. Её контекст настолько узок, что статистическое предсказание следующего хода — это и есть оптимальная стратегия. Она видела миллионы позиций и знает, какой ход статистически ведёт к победе.
Специализация убивает шум. Большая модель, когда её спрашивают про шахматы, мечется между знанием правил, историями о Каспарове, теорией игр и мемами про «эн пассан». Маленькая модель сфокусирована как лазер.
| Критерий | Большая модель (GPT-5.2) | Маленькая специализированная модель |
|---|---|---|
| Цель обучения | Предсказать любой токен в любом контексте | Предсказать токен в узком домене |
| Побочные знания | Гигантские, часто мешающие | Минимальные, только по теме |
| Рассуждения (эмуляция) | Сложная симуляция через CoT | Прямое отображение паттернов |
| Эффективность | Низкая на задачу (из-за размера) | Высокая на задачу |
Архитектурный бунт: Mamba, SSM и конец эпохи Transformer
До 2024 года все говорили о Transformer. К 2026 году исследовательские паблики взорваны State Space Models (SSM) и архитектурой Mamba. Почему? Потому что они предлагают кое-что принципиально иное.
Transformer с его механизмом внимания отлично справляется с NTP, но он вычислительно прожорлив. Каждый токен должен «посмотреть» на каждый другой токен в контексте. Mamba и подобные модели используют дифференциальные уравнения для обработки последовательностей. Они эффективнее. Они могут работать с более длинными контекстами, не сжирая всю память.
А теперь главное. Эти новые архитектуры легче обучать с нуля на специфичных данных. Не нужно триллионов параметров, чтобы уловить суть. Это идеальный фундамент для маленьких, умных моделей. Закон уплотнения, о котором мы писали ранее, работает на них.
Закон уплотнения (Densing Law) в действии: к 2026 году модель на 10 миллиардов параметров с архитектурой Mamba, обученная на отфильтрованных данных по программированию, может превзойти GPT-5.2 в генерации кода на Python. Не потому что она знает больше, а потому что она знает точнее и не отвлекается.
Как строить будущее, которое не зависит от гигантов
Итак, NTP — это потолок для общих рассуждений. Большие модели будут становиться лучше в имитации, но их прогресс будет асимптотическим. Дорогим. Неэффективным.
Маленькие модели — это путь. Но не абы какие. Вот из чего складывается их сила:
- Гиперспециализация. Одна модель — одна задача. Кодогенерация. Анализ юридических документов. Медицинский диалог. Даже кража и дистилляция большой модели в маленькую для конкретной цели работает.
- Качество данных, а не количество. 10ГБ идеально очищенных, выверенных данных по физике лучше, чем 10ТБ сырого интернет-сора.
- Современные эффективные архитектуры. Mamba, RWKV-6 (актуально на 2026 год), другие SSM. Они быстрее обучаются и работают.
- Гибридные подходы. Модель не должна быть пассивным генератором текста. Она может вызывать калькулятор, базу данных, симулятор. Внешние инструменты компенсируют отсутствие «рассуждения» внутри NTP.
1 Сфокусируй задачу до атомарного уровня
Не «напиши код». А «сгенерируй функцию на Python, которая принимает DataFrame Pandas и возвращает скользящее среднее за 7 дней, используя только библиотеку NumPy». Чем уже фокус, тем проще модели. Тем меньше шансов на NTP-галлюцинации.
2 Собери или сгенерируй идеальный датасет
Забудь про Common Crawl. Для своей задачи собери примеры идеального исполнения. Используй большие модели для аугментации данных, но потом жёстко фильтруй. Один плохой пример испортит маленькую модель.
3 Выбери современную, лёгкую архитектуру
Не цепляйся за Transformer. В 2026 году есть выбор. Для последовательностей — Mamba-3 (или что актуально). Для быстрого вывода на CPU — возможно, уже появились квантованные архитектуры с изначальной поддержкой int4. Изучи базовые принципы, чтобы понимать, что берёшь.
4 Приучи модель пользоваться инструментами
Самая большая ошибка — ждать, что модель «поймёт» математику. Не поймёт. Это NTP. Научи её вызывать внешний калькулятор или Python REPL, когда в промпте есть цифры. Отдай логику туда, где она принадлежит.
А что же ChatGPT и компания?
Они не исчезнут. Они станут операционными системами. Швейцарскими ножами для задач, где нужна широта, а не глубина. Или где важна беседа на любую тему. Но их монополия на «интеллект» закончится.
Уже сейчас видно, как эншитификация толкает на локальные нейросети. Зачем платить за API, если твоя 3-гигабайтная модель делает 90% твоей работы лучше?
Мой прогноз? К 2028 году успешный AI-продукт будет использовать флот маленьких, идеально настроенных моделей, управляемых оркестратором. Одна для парсинга намерений, другая для генерации SQL, третья для проверки стиля. И каждая будет весить меньше, чем одна картинка в ленте Instagram.
Не гонись за параметрами. Гонись за смыслом. Next-Token-Prediction — это мощный двигатель, но он едет только по дороге статистических корреляций. Чтобы свернуть на тропу логики, нужна карта специализации. И именно маленькие модели первыми найдут к ней путь.
Следующий шаг? Открой Hugging Face (это не реклама, это просто факт). Отсортируй модели по размеру. И попробуй какую-нибудь с пометкой «text-generation» и размером в пару гигабайт для своей нишевой задачи. Результаты удивят. А может, и нет. Ведь ты теперь знаешь, почему маленькие могут быть лучше.