PRISM фотонный чип: ускорение KV cache в 944 раза | Технология 2026 | AiManual
AiManual Logo Ai / Manual.
23 Мар 2026 Инструмент

PRISM: фотонный чип для O(1) выбора KV cache — как симуляция обещает ускорение в 944 раза и экономию энергии

Фотонный чип PRISM решает главную проблему инференса LLM — сканирование KV cache. Симуляции на 23.03.2026 показывают ускорение в 944 раза и радикальную экономию

KV cache — это тормоз. Буквально

Вы когда-нибудь ждали ответ от GPT-5, пока он "думает"? Виновник не только триллион параметров. Настоящий убийца скорости — операция attention, а именно — сканирование того самого KV cache. Каждый новый токен должен пройтись по всем предыдущим ключам и значениям. Это O(N) сложность, которая съедает львиную долю времени и энергии при работе с длинным контекстом. И пока все борются с квадратичной сложностью внимания, фундаментальная проблема сканирования кеша оставалась нерешенной.

💡
PRISM (Photonic Reconfigurable In-memory Sparse-access Memory) — это фотонный чип, который использует свет вместо электричества для выборки данных из KV cache. Архитектура позволяет получать доступ к нужным данным за постоянное время O(1), независимо от размера контекста.

Световой лифт для данных: как это работает

Забудьте о последовательном чтении из памяти HBM. В PRISM данные из KV cache хранятся в массиве оптических волноводов из ниобата лития (TFLN). Когда нужно выполнить операцию attention (скалярное произведение запроса с ключами), чип делает нечто гениально простое: он направляет луч света (оптический broadcast), который одновременно проходит через ВСЕ ключи.

На пути луча стоят программируемые микрокольцевые резонаторы (MRR). Каждое кольцо настроено на конкретный ключ. Если ключ релевантен запросу, резонатор "захватывает" часть светового сигнала и направляет его в фотонный сумматор. Результат — моментальное вычисление сходства со всеми ключами параллельно, за время прохождения света через чип (пикосекунды).

Параметр Традиционный GPU (NVIDIA H100) Фотонный чип PRISM
Сложность сканирования KV cache O(N) (линейная) O(1) (постоянная)
Задержка при 1M контекста ~320 мкс ~0.34 мкс
Ускорение (симуляция) 1x (база) 944x
Энергопотребление операции ~85 пДж/бит ~0.15 пДж/бит

Цифры из симуляций, опубликованных на GitHub в марте 2026 года, говорят сами за себя. При контексте в 1 миллион токенов PRISM обходит H100 почти в тысячу раз. И это только одна операция — сканирование кеша. А теперь представьте, что таких операций — десятки в каждом слое трансформера.

Важно: Пока что PRISM существует как детальная симуляция и дизайн чипа. Физические прототипы находятся в разработке. Но симуляции на актуальных моделях 2026 года (те же GPT-5, Claude-4) показывают, что потенциал — не научная фантастика.

А что, другие методы не справляются?

Справляются, но костыльно. Посмотрите на альтернативы:

По сути, PRISM не пытается оптимизировать старую парадигму. Он ее меняет. Вместо того чтобы быстрее бегать по памяти, он освещает ее всю сразу и считывает ответ. Это как поиск книги в библиотеке не путем обхода всех полок, а путем произнесения ее названия и моментального появления в руках.

Кому это нужно прямо сейчас? (Да почти всем)

Если вы думаете, что фотонный чип — удел лабораторий, ошибаетесь. Вот кто выстроится в очередь за PRISM, как только он станет коммерческим:

  1. Провайдеры облачного AI-инференса. Их бизнес — токены в секунду на ватт. Ускорение в сотни раз при сокращении счетов за электричество — это не улучшение, это смена игрового поля. Пока они мучаются с балансом скорости и качества моделей.
  2. Разработчики AGI и агентов с длинной памятью. Контекст в 1M, 10M токенов перестанет быть теоретическим упражнением. Агент, который помнит всю историю вашего взаимодействия и анализирует гигабайты документов в реальном времени, станет нормой.
  3. Исследователи, которые задыхаются от ограничений аппаратуры. Сколько многообещающих идей по архитектуре моделей было отброшено из-за "слишком дорогого инференса"? PRISM может дать им свободу экспериментировать.

Главное препятствие — не физика, а инерция. Мир заточен под кремний. Но когда нанофотонные чипы станут дешевле в производстве, переход может быть стремительным.

Что делать, пока PRISM в разработке?

Сидеть сложа руки? Нет. Изучайте гибридные подходы. Комбинируйте квантование весов и кеша для экономии памяти. Экспериментируйте с моделями, которые жульничают с вниманием. И следите за книгами по фотонным вычислениям — эта область взлетит в ближайшие годы. Для глубокого погружения в аппаратные аспекты AI рекомендую специализированный курс по оптическим нейросетям.

PRISM — не панацея. Он не ускоряет матричные умножения (для этого есть другие фотонные схемы). Но он бьет в самое больное место современных LLM. Когда такие чипы появятся в серверах, мы забудем, что такое "ожидание генерации". Инференс станет практически мгновенным, даже для контекста на всю жизнь. И это не вопрос "если", а вопрос "когда". Судя по темпам 2026 года — очень скоро.

Подписаться на канал