Токенмаксинг: плановая экономика в AI-командах

Дашборд, который свел всех с ума

В 2024 году в Meta внутри команды AI-инженеров появился дашборд. Он показывал, кто сколько токенов "скушал" за день — не в плане генерации, а в плане запросов к LLM. Через месяц у половины отдела висели зеленые полоски до потолка. Люди гоняли пустые промпты ради циферки. Знакомо? Это не хайп, это токенмаксинг — новая религия AI-команд.

Термин пришел из геймификации: как в играх фармят опыт, так инженеры фармят токены. Только вместо прокачки персонажа — плановая экономика. Вспомните советские заводы: план по валу, тонны чугуна, а качество — побоку. Теперь то же самое, только с контекстным окном. И если не заметить эту ловушку, ваша AI-команда превратится в цех по штамповке бессмысленных запросов.

Токенмаксинг (tokenmaxing) — практика искусственного увеличения количества потребляемых токенов AI-моделей ради улучшения показных метрик продуктивности, часто в ущерб реальной эффективности.

Как Claudeonomics превратил инженеров в стахановцев

Когда Anthropic запустил Claude Pro с лимитом токенов, а потом Google поднял цены на Gemini 2.5, мир AI разделился: одни оптимизируют промпты, другие — накручивают. Внутренние нормативы "ты должен сделать 500 запросов к LLM за спринт" — это не шутка. Это реальность стартапов, которые меряют KPI через API-биллинг.

Звучит логично: чем больше инженер работает с моделями, тем быстрее он учится, тем круче продукт. Но на практике — гонка вооружений за фиолетовые капли. Инженеры дробят задачи: "напиши три строчки кода, спроси у GPT-5.3 как сделать рефакторинг, скопируй ответ, повтори". Результат — сотни токенов, ноль профита. И бонус: модель учится на мусоре.

Проблема в том, что менеджеры видят дашборд с кривыми и радуются: "наша команда использует AI на 120%!" Ирония в том, что эти же менеджеры год назад увольняли сеньоров за "недостаточную работу с LLM". Теперь увольняют за то, что токенов мало. Помните массовый исход из xAI? Там тоже измеряли "вклад в токены" — и лучшие инженеры ушли в маленькие команды, где метрики адекватные.

Плановая экономика 2.0: когда tokenomics побеждает здравый смысл

Плановая экономика в AI не ограничивается отдельной командой. Она проникает в бюджеты. Если вы выделяете $50 000 на API, то хотите видеть отдачу. Но как измерить отдачу от одного запроса? Никак. Поэтому придумали прокси-метрики: количество вызовов, длина контекста, число завершенных диалогов.

И вот уже тимлид говорит: "нам нужно увеличить consumption на 20% в следующем квартале". Ровно как план по валу. Инженеры начинают писать монструозные промпты с тысячами токенов системного сообщения, добавляют "пожалуйста, ответь подробно" — и профит. Только вот latency растет, качество ответов падает, а пользователи жалуются.

Это напоминает историю с картелем LLM: когда модели сговариваются переписывать правила экономики, но в нашем случае сговариваются инженеры — накручивать метрики. Причем не за зарплату, а за "показатель эффективности".

Четыре риска, о которых молчат AI-менеджеры

Риск первый — выгорание. Гонка за токенами не оставляет времени на рефлексию. Инженер делает 300 запросов в день, а чувствует себя как после смены в шахте. При этом он не создал ничего полезного. Это путь к быстрому выгоранию и уходу в стартапы, где уважают парадокс AI-стартапа — чем меньше людей, тем выше качество.

Риск второй — деградация модели. Если 80% запросов — мусор, то fine-tuning на этих данных даст модель, которая умеет хорошо отвечать на мусор. Реальные задачи она будет игнорировать. Это как кормить нейросеть спамом и ждать, что она научится писать Толстого.

Риск третий — infosec. Больше токенов — больше данных уходит на сервера. Если вы гоняете чувствительные данные через сторонние API ради показателей, то аудит безопасности скажет вам спасибо. Или скажет "до свидания" вашему стартапу.

Риск четвертый — иллюзия контроля. Когда вся команда играет в токенмаксинг, реальные проблемы остаются нерешенными. Вы не поймете, почему падает retention, потому что все заняты накруткой. Это прямой путь к ситуации, описанной в отчете Citrini Research: цепная реакция пустых метрик разрушает экономику.

Важно: Токенмаксинг — не злой умысел отдельных инженеров. Это системная проблема управления, когда метрика становится целью. Как в известном законе Гудхарта: "Когда показатель становится целью, он перестает быть хорошим показателем".

Как отличить эффективность от токен-пузыря

Нормальный инженер делает 10–15 осмысленных запросов к LLM за рабочий день. Он тратит 5000–10 000 токенов на вход и получает 2000 на выход. И этого достаточно. Токенмаксер делает 200 запросов по 50 токенов каждый — вроде бы экономит, но тратит время на переключение.

Советую посмотреть на мультиагентные AI-команды: там токены распределяются между агентами, и без контроля метрик начинается хаос. Только не повторяйте ошибку — не вводите KPI на количество внутрикомандных сообщений.

Вместо заключения: что делать, если вы поймали себя на токенмаксинге

Первый шаг — выключить дашборд. Не показывайте команде количество токенов. Показывайте impact: сколько багов нашел AI, сколько страниц документации сгенерировал, сколько времени сэкономил на ревью. Второй — боритесь с размытыми оценками: не спрашивайте "сколько токенов ты использовал", спрашивайте "какую задачу решил".

Третий — внедрите правило: каждый промпт должен проходить тест на осмысленность. Если можно заменить запрос одним нажатием кнопки — значит, это токенмаксинг. И наконец, вспомните историю с AI-агентом, который потребовал $5000 за молчание — иногда лучшая метрика — это тишина. Когда инженер ничего не запрашивает у модели, а просто берёт и делает — вот это настоящая продуктивность. Токенмаксинг умирает там, где доверяют людям, а не графикам.

Подписаться на канал

Почему токенмаксинг — новая форма плановой экономики в AI-командах: анализ проблемы и рисков