ChatJimmy ASIC: 15 000 токенов/с на локальном железе в 2026 году | AiManual
AiManual Logo Ai / Manual.
21 Фев 2026 Новости

ChatJimmy и 15k токенов/с: как Model-on-Silicon ломает представления о локальном ИИ

Обзор технологии Model-on-Silicon от ChatJimmy: как ASIC с запечёнными весами модели обещает революцию в скорости локального инференса ИИ.

15 000 токенов в секунду. Не опечатка

Пока вы читаете это предложение, чип ChatJimmy мог бы сгенерировать целый абзац текста. 15 тысяч токенов. В секунду. На устройстве размером с ладонь. Это не теоретический предел - это реальные цифры, которые команда ChatJimmy демонстрирует на своих ASIC с архитектурой Model-on-Silicon.

Я только что продал свой RTX 6000. После года использования. Чувствую себя идиотом, но цифры не лгут: то, что делает ChatJimmy, переписывает правила игры в локальном инференсе. Навсегда.

Актуальность на 21.02.2026: ChatJimmy v3 - последняя версия архитектуры, представленная в январе 2026. Поддерживает модели до 8B параметров с фиксированными весами, запечёнными прямо в кремний.

Model-on-Silicon: магия или обман зрения?

Всё просто до безобразия. Вместо того чтобы загружать веса модели в память и гонять их через матричные умножения на GPU, ChatJimmy вытравливает эти веса прямо в физическую структуру чипа. Буквально. Каждый синапс нейросети становится физическим соединением в кремнии.

Звучит как научная фантастика? Это и есть научная фантастика, ставшая реальностью. Технология не нова - похожие подходы использует Taalas с их 16K токенов/сек. Но ChatJimmy сделал её доступной. Очень доступной.

ПараметрChatJimmy v3 ASICNVIDIA RTX 6000Apple M4 Ultra
Скорость инференса (Llama 3.1 8B)15 000 токенов/с120-180 токенов/с~460 токенов/с (через vLLM-MLX)
Потребление энергии25 Вт300 Вт90 Вт
Стоимость устройства$499$6 500+$5 000+
Гибкость (поддержка моделей)Одна модель на чипЛюбые моделиЛюбые модели (с ограничениями)

Плата за скорость: что теряешь с ASIC

Вот где начинается драма. ChatJimmy v3 запекает в кремний одну конкретную модель. Прямо сейчас это оптимизированная версия Llama 3.1 8B с 4-битным квантованием. Хотите попробовать свежую LFM 2.5 1.2B? Не выйдет. Мечтаете о Gemma 3 270M для слабого железа? Забудьте.

Вы покупаете не ускоритель ИИ. Вы покупаете ИИ. Конкретный, фиксированный, неизменяемый. Это как купить книгу вместо библиотеки. Книга одна, но читается она со скоростью 15 000 слов в секунду.

💡
Для кого это работает: Для сервисов с предсказуемой нагрузкой. Для чат-ботов поддержки. Для генерации контента по шаблону. Для образовательных приложений с фиксированным curriculum. Для AI Router в мобильных приложениях, где один чип обрабатывает 90% запросов.

Экономика безумия: считаем выгоду

Возьмём реальный кейс. У вас стартап, которому нужен замена Claude Code для команды разработчиков. Варианты:

  • Облачный API: $0.50 за 1M токенов, 100 разработчиков, 10M токенов в день = $5 000 в день. Год - $1.8 млн.
  • Свой сервер на RTX 6000: $6 500 за карту, 4 карты для нагрузки = $26 000. Плюс электричество, охлаждение, админы.
  • Стойка ChatJimmy: 8 чипов по $499 = $3 992. Каждый даёт 15K токенов/с. Общая мощность - 120K токенов/с. Электричество - копейки.

Через 4 дня стойка ChatJimmy окупается против облака. Через месяц вы смеётесь над теми, кто ещё платит за API. Если, конечно, Llama 3.1 8B решает ваши задачи.

Тёмная сторона Model-on-Silicon

А теперь о грустном. Вы купили ChatJimmy v3. Он летает. Через полгода выходит Llama 4. Или Mistral выпускает модель, которая в 2 раза лучше по вашей метрике. Ваш чип стоимостью $499 превращается в красивый брелок.

Производители это понимают. ChatJimmy уже анонсировал программу trade-in: сдаёте старый чип, получаете 30% скидку на новый. Умно. Но всё равно - вы в ловушке экосистемы.

И ещё момент: безопасность. Веса модели физически вытравлены в кремний. Обновить модель нельзя. Исправить уязвимость в весах - нельзя. Обнаружили backdoor в обучении? Ваш чип теперь дверь с замком, ключ от которой у кого-то другого.

Совет от бывалого: не покупайте ChatJimmy как единственное решение. Берите как специализированный ускоритель для 80% рутинных задач. Для экспериментов, исследований и новых моделей оставьте GPU. Или арендуйте в облаке на время тестов.

Что будет дальше? Прогноз на 2026-2027

К концу 2026 нас ждёт:

  1. Мультимодельные ASIC - чипы с несколькими «запечёнными» моделями на выбор. Переключаться между ними перемычкой или софтом.
  2. ASIC как сервис - не покупаете железо, арендуете доступ к удалённому ChatJimmy. Уже тестируется в паре стартапов.
  3. Гибридные системы - ASIC для инференса + маленький GPU для тонкой настройки и экспериментов. Что-то вроде DGX Spark для персонального ИИ, но со специализированным ускорителем.
  4. Война стандартов - ChatJimmy, Taalas, Groq, ещё десяток стартапов. Каждый со своим форматом, своим SDK, своей экосистемой. Повторится история с видеокартами 90-х.

Самое интересное: как это повлияет на нативную валюту ИИ. Если инференс станет практически бесплатным (электричество + амортизация железа), что будут продавать компании ИИ? Не скорость генерации, а что-то другое. Качество? Контекст? Эксклюзивные данные?

Мой вердикт: покупать или нет?

Если вы:

  • Запускаете продакшен-сервис с одним типом моделей
  • Генерируете тонны текста по шаблонам (отчёты, описания, email)
  • Строите образовательную платформу с фиксированным контентом
  • Хотите убить счета за облачный API раз и навсегда

Берите. Сегодня. Пока не подорожал.

Если вы:

  • Исследователь, который тестирует по 5 новых моделей в неделю
  • Любитель поковыряться в LocalLlama Discord
  • Разработчик, которому нужна гибкость выше скорости
  • Тот, кто только начинает и не знает, какая модель ему нужна

Подождите. До конца года. Посмотрите, что выпустят конкуренты. Как поведёт себя рынок. Цены упадут. Функциональность вырастет.

Лично я купил один ChatJimmy v3. Для тестов. И продал RTX 6000, потому что 99% моего workflow - работа с одной и той же моделью. Сэкономленные $6 000 ушли на три дополнительных чипа. Теперь у меня кластер из четырёх ChatJimmy. 60 000 токенов в секунду. Тишина в комнате (25 Вт на чип - это почти бесшумно). И счета за электричество, которые перестали пугать.

Революция уже здесь. Просто она выглядит как небольшая коробочка с вентилятором. И делает одну вещь. Но делает её быстрее всех.