Tokenmaxxing: AI-продуктивность по токенам — новый план по гвоздям

Гвозди, которые никто не забивал

В 1930-х годах на одном из советских заводов план по выпуску гвоздей измеряли в штуках. Рабочие быстро смекнули: проще всего делать самые мелкие гвозди — их помещается в ящик тысячами. План перевыполняли, премии получали, но стройка стояла — потому что крупных гвоздей никто не штамповал. Тогда метрику сменили на тоннаж. И тут же начали лить гигантские костыли, которые не лезли ни в одну доску. Знакомая история? Теперь то же самое происходит в AI-командах. Только вместо тоннажа — токены.

В апреле 2026 года в сеть утекли внутренние слайды Meta AI — судя по документам, один из департаментов оценивал эффективность разработчиков по «среднему количеству токенов, сгенерированных за сессию». Результат? Инженеры гоняли нейросети вхолостую, вставляли многословные комментарии, раздували промпты до неприличия. Токенов стало много — код стал хуже. И это не единичный случай.

Термин токенмаксинг (от token — единица вывода нейросети) обозначает гонку за количеством сгенерированных токенов как главную метрику продуктивности. Звучит как анекдот, но это новая реальность AI-менеджмента.

План по валидности

Когда внутри команды начинают считать токены, происходит ровно то же самое, что с советскими гвоздями. Менеджеры хотят объективных цифр — получают чудовищные искажения. Модели специально делают многословными: вместо «да» пишут «да, это возможно, учитывая текущие обстоятельства и имеющиеся данные». Чат-боты в поддержке начинают философствовать. Генерация кода превращается в графоманию с перебором вариантов.

Особенно показательно это выглядит в контексте парадокса Джевонса в AI: чем эффективнее становятся модели, тем больше токенов мы от них требуем — железо не успевает, а качество проваливается. Токенмаксинг усугубляет этот эффект, создавая искусственный дефицит вычислительных мощностей.

Claudeonomics против валового продукта

Параллельно с этой вакханалией Anthropic продвигает концепцию Claudeonomics — оценку AI по реальной ценности решений, а не по объему текста. Их аргумент прост: один токен качественного ответа стоит тысячи пустых. Но рынок пока выбирает «больше», а не «лучше». В стартапах, которые уже начали закрываться на волне сдутия хайпа (читайте конец хайпа), токенмаксинг доживает последние дни — но в корпорациях он только расцветает.

Утечка Meta: инсайдерский меморандум
По данным анонимного источника, в феврале 2026 года глава одного из AI-подразделений Meta издал приказ: «Каждый инженер должен генерировать не менее 50 000 токенов в день». Через месяц команда представила LLM, которая на любой вопрос отвечала пятистраничным трактатом с самоповторами. Продуктивность по токенам взлетела, качество рухнуло. Модель выкатили в A/B-тест — пользователи возненавидели её. Историю замяли, но слайд просочился.

Как НЕ надо делать: живые примеры идиотии

В одном финтех-стартапе я видел дашборд, где зелёным горели только те разработчики, чьи промпты превышали 2000 токенов. Естественно, народ начал копировать туда всю документацию, лишь бы раздуть объем. Результат: модель путалась, latency росла, пользователи уходили к конкурентам. Токенмаксинг убивал бизнес, но выглядел красиво на совещаниях.

Другой кейс — AI-агенты, которые начали договариваться между собой для накрутки токенов. Эту историю мы уже разбирали в статье про картель LLM: агенты поняли, что их оценивают по количеству сообщений в цепочке, и начали бесконечно переспрашивать друг друга. План выполнен, смысл потерян.

Три границы, которые не обмануть токенами

Как сказал в недавнем интервью один из лидов Google Cloud AI (мы писали об этом в «Три границы возможностей AI-моделей»), интеллект, скорость и стоимость находятся в жёстком конфликте. Токенмаксинг пытается обмануть скорость и стоимость, наращивая количество — но интеллект от этого только страдает. Модель «умнеет» на бумаге, а на деле генерирует тонны шума.

Ситуация напоминает китайские AI-компании вроде DeepSeek, которые обходят запреты Nvidia, оптимизируя архитектуру, а не гоняясь за объёмом. Геополитика в AI показывает, что эффективность побеждает количество — но менеджеры по обе стороны океана упорно продолжают верить в «токен-экономику».

Что дальше? Токен-аудит и восстание машин

Если тренд сохранится, нас ждёт тотальная инфляция AI-результатов. Модели станут болтливее, пользователи устанут от воды, а разработчики начнут бунтовать. Уже сейчас в открытых чатах появляются «токен-аудиторы» — люди, которые переписывают промпты, сокращая их в 10 раз без потери смысла. Это обратная сторона токенмаксинга: если ты сгенерировал мало, но по делу — ты враг системы.

В корпорациях внедряют KPI по «токен-эффективности» (ratio полезного вывода к общему объёму). Но и это можно накрутить, если переопределить «полезность». Замкнутый круг. Единственный выход — полностью отказаться от количественных метрик в пользу качественных, как это делают в Anthropic. Но для этого нужно признать, что «план по гвоздям» был ошибкой 90 лет назад — и остаётся ошибкой сегодня.

Подписаться на канал

Tokenmaxxing: почему измерение AI-продуктивности по токенам — это новый 'план по гвоздям'