Taalas ASIC: 16K токенов/сек и инференс на чипе | 20.02.2026 | AiManual
AiManual Logo Ai / Manual.
20 Фев 2026 Новости

Taalas: как ASIC с «запечёнными» весами модели обещает 16K токенов/сек и революцию в инференсе

Канадский стартап Taalas анонсировал ASIC с весами LLM, «запечёнными» прямо в кремний. 16 тысяч токенов в секунду, задержка менее 1 мс. Разбираем, как это работ

Это не просто чип. Это модель, превращённая в камень

Представьте, что Llama 3.1 8B — это не 16 гигабайт весов в памяти. Это топология кристалла. Матрицы умножения — не вычисления, а физические соединения транзисторов. Каждый параметр нейросети — не число в DRAM, а конкретное напряжение на конкретном проводе.

Вот что сделала Taalas. И нет, это не метафора.

Пока все гонятся за оптимизацией кода под CUDA или пишут ядра для AVX-512, канадский стартап взял и «запечатал» архитектуру трансформера прямо в кремний. Результат, который они обещают на 20.02.2026, звучит как шутка: 16 000 токенов в секунду для Llama 3.1 8B с задержкой вывода (latency) меньше 1 миллисекунды. Энергопотребление — в десятки раз ниже, чем у GPU.

Для сравнения: наш тест Z.AI на OpenRouter в 2025 году показал 431 токен/сек — и это считалось прорывом. Taalas говорит о скорости, которая выше в 37 раз.

Как запечь нейросеть? Физика вместо софта

Обычный инференс на GPU или даже на специализированных NPU вроде Google TPU работает так: есть память (HBM), где лежат веса модели. Есть вычислительные ядра, которые загружают эти веса, делают вычисления и выгружают результат. Вся игра — в оптимизации этой пересылки данных.

Подход Taalas радикально другой. Они проектируют ASIC (Application-Specific Integrated Circuit), где архитектура вычислений Llama 3.1 8B жёстко зашита в схему. Веса модели — это не данные, а физические свойства схемы: сопротивление проводников, ёмкость затворов транзисторов.

Проще говоря, промпт «втекает» в чип как электрический сигнал, проходит через физическую реализацию нейросети и «вытекает» ответным токеном. Никакой загрузки весов. Никаких вычислений в традиционном смысле. Это аналоговый компьютер для одной конкретной задачи.

💡
Концепция не совсем нова. В 2024-2025 годах появлялись исследования по «in-memory computing» и аналоговым нейросетям. Но Taalas — первая коммерческая попытка применить это к современной LLM размером в миллиарды параметров.

16K токенов/сек — это сколько на самом деле?

Давайте прикинем. Средний английский токен — около 4 символов. 16 000 токенов в секунду — это примерно 64 000 символов. Стандартная страница А4 — 2500-3000 символов.

Taalas ASIC генерирует 5-6 полных страниц текста каждую секунду.

Задержка в 1 мс означает, что ответ приходит быстрее, чем сигнал от монитора к вашему мозгу. Для реальных приложений это меняет всё:

  • Чат-боты: Ответ появляется в момент нажатия Enter. Никакого «нейросеть думает...».
  • Кодирование: Генерация сотен строк кода становится интерактивным процессом, как автодополнение в IDE, но для целых функций.
  • Игры и симуляции: Динамический диалог с NPC, где ответ генерируется в реальном времени, без предзаписанных реплик.

Проблема в том, что такая скорость бессмысленна для человека — мы не успеваем читать. Но она критична для машинного взаимодействия, где LLM становится компонентом более сложной пайплайна.

А что с адаптацией? LoRA на аппаратном уровне

Самый очевидный вопрос: если веса «запечены» в кремний, как fine-tuning? Как адаптировать модель под конкретную задачу?

Здесь Taalas использует хитрый трюк. Основная масса параметров (базовая модель) остаётся неизменной в кремнии. Но они оставляют в чипе программируемые блоки, которые можно перенастраивать. По сути, это аппаратная реализация LoRA (Low-Rank Adaptation).

Вместо того чтобы перезаписывать веса в памяти, вы «программируете» адаптивные слои прямо на чипе. Это можно делать даже динамически: утром чип работает как код-ассистент, днём — как аналитик финансовых отчётов, вечером — как игровой NPC.

Важный нюанс: такая адаптация ограничена. Вы не сможете превратить Llama 3.1 8B в модель для генерации изображений или резко изменить её архитектуру. Это всё та же базовая модель, но с «настроенными» поведенческими чертами.

Почему это может не сработать? Подводные камни чипа

Звучит фантастически. Но в индустрии полупроводников между анонсом и работающим продуктом — пропасть, измеряемая годами и миллиардами долларов.

Первая проблема — фиксированная архитектура. Мир LLM меняется каждый квартал. На 20.02.2026 актуальны уже не Llama 3.1, а более новые модели. Чип, заточенный под конкретную версию, рискует устареть ещё до массового производства. Та же NVIDIA с AETHER-X делает ставку на гибкость софта, а не на жёсткий silicon.

Вторая — стоимость производства

Третья — экосистема. Даже если Taalas сделает идеальный чип, кто будет писать под него софт? Интеграция с существующими фреймворками (PyTorch, TensorFlow, vLLM) потребует колоссальных усилий.

Четвёртая — температура и надёжность. Аналоговые схемы крайне чувствительны к нагреву и производственным дефектам. Вариативность кремния может привести к тому, что один чип будет выдавать слегка другие результаты, чем другой. Для банковского скоринга или медицинской диагностики это неприемлемо.

ПараметрTaalas ASIC (заявлено)NVIDIA H100 (инференс)Серверный CPU (AVX-512)
Скорость (Llama 3.1 8B)~16 000 токенов/сек~1 200 токенов/сек~80 токенов/сек
Задержка (первый токен)< 1 мс50-100 мс500+ мс
ЭнергоэффективностьВ 20-30 раз выше GPUБазовый уровеньНизкая
Гибкость (поддержка новых моделей)Очень низкаяВысокаяМаксимальная

Кому это нужно? Рынок нулевой задержки

Не всем нужны 16K токенов в секунду. Большинству пользователей ChatGPT хватает и 50. Но есть ниши, где каждый миллисекунд имеет цену.

Высокочастотный трейдинг (HFT): Алгоритмы уже используют ML для прогнозирования. Представьте LLM, которая анализирует новостной поток и генерирует торговые сигналы с задержкой в микросекунды. Это следующий рубеж.

Автономные системы и роботы: Дрон или автомобиль не может ждать 200 мс, пока LLM обработает сцену и предложит манёвр. Реакция должна быть мгновенной.

Интерактивные развлечения: Метавселенные, где каждый NPC — уникальная личность с динамическими диалогами, генерируемыми в реальном времени. Никаких скриптов, только живой мир.

Именно в этих областях Taalas может найти первых клиентов, готовых платить за экстремальную производительность, даже если чип стоит как маленький самолёт.

Что дальше? Стеклянная стена закона Мура

Драйвером инноваций в AI последние годы был софт: новые архитектуры, методы сжатия, квантования. Но мы упираемся в физические ограничения кремния и закон Мура.

Подход Taalas — это признание того, что дальше можно двигаться только радикально специализируясь. Не универсальный GPU, а тысяча разных ASIC: один для Llama, другой для Stable Diffusion, третий для Whisper.

Это возвращает нас в эпоху мейнфреймов, когда аппаратура и софт были неразделимы. Ирония в том, что именно открытость и гибкость софта дала AI взрывной рост. Не получится ли, что специализированные чипы создадут новые walled gardens?

Пока Taalas готовит первые тестовые образцы, TSMC печатает их на своих линиях, а инвесторы оценивают, станет ли это новой NVIDIA или дорогой технологической диковиной.

Одно ясно точно: гонка за нулевой задержкой только начинается. И следующий прорыв придёт не из кода, а из физической лаборатории.