KV cache — это тормоз. Буквально
Вы когда-нибудь ждали ответ от GPT-5, пока он "думает"? Виновник не только триллион параметров. Настоящий убийца скорости — операция attention, а именно — сканирование того самого KV cache. Каждый новый токен должен пройтись по всем предыдущим ключам и значениям. Это O(N) сложность, которая съедает львиную долю времени и энергии при работе с длинным контекстом. И пока все борются с квадратичной сложностью внимания, фундаментальная проблема сканирования кеша оставалась нерешенной.
Световой лифт для данных: как это работает
Забудьте о последовательном чтении из памяти HBM. В PRISM данные из KV cache хранятся в массиве оптических волноводов из ниобата лития (TFLN). Когда нужно выполнить операцию attention (скалярное произведение запроса с ключами), чип делает нечто гениально простое: он направляет луч света (оптический broadcast), который одновременно проходит через ВСЕ ключи.
На пути луча стоят программируемые микрокольцевые резонаторы (MRR). Каждое кольцо настроено на конкретный ключ. Если ключ релевантен запросу, резонатор "захватывает" часть светового сигнала и направляет его в фотонный сумматор. Результат — моментальное вычисление сходства со всеми ключами параллельно, за время прохождения света через чип (пикосекунды).
| Параметр | Традиционный GPU (NVIDIA H100) | Фотонный чип PRISM |
|---|---|---|
| Сложность сканирования KV cache | O(N) (линейная) | O(1) (постоянная) |
| Задержка при 1M контекста | ~320 мкс | ~0.34 мкс |
| Ускорение (симуляция) | 1x (база) | 944x |
| Энергопотребление операции | ~85 пДж/бит | ~0.15 пДж/бит |
Цифры из симуляций, опубликованных на GitHub в марте 2026 года, говорят сами за себя. При контексте в 1 миллион токенов PRISM обходит H100 почти в тысячу раз. И это только одна операция — сканирование кеша. А теперь представьте, что таких операций — десятки в каждом слое трансформера.
Важно: Пока что PRISM существует как детальная симуляция и дизайн чипа. Физические прототипы находятся в разработке. Но симуляции на актуальных моделях 2026 года (те же GPT-5, Claude-4) показывают, что потенциал — не научная фантастика.
А что, другие методы не справляются?
Справляются, но костыльно. Посмотрите на альтернативы:
- Квантование KV cache до 8 бит экономит память (и это критично, когда VRAM на вес золота), но не ускоряет доступ. Бит меньше — читать быстрее не станет.
- Пейджинг и радикальное сжатие через radix trie решают проблему объема, но добавляют накладные расходы на управление памятью. Сложность все равно остается O(N).
- Аналоговая память RRAM и резервуарные вычисления — прорывные штуки, но они все еще электронные. PRISM переводит задачу в оптическую область, где параллелизм физически вшит в технологию.
По сути, PRISM не пытается оптимизировать старую парадигму. Он ее меняет. Вместо того чтобы быстрее бегать по памяти, он освещает ее всю сразу и считывает ответ. Это как поиск книги в библиотеке не путем обхода всех полок, а путем произнесения ее названия и моментального появления в руках.
Кому это нужно прямо сейчас? (Да почти всем)
Если вы думаете, что фотонный чип — удел лабораторий, ошибаетесь. Вот кто выстроится в очередь за PRISM, как только он станет коммерческим:
- Провайдеры облачного AI-инференса. Их бизнес — токены в секунду на ватт. Ускорение в сотни раз при сокращении счетов за электричество — это не улучшение, это смена игрового поля. Пока они мучаются с балансом скорости и качества моделей.
- Разработчики AGI и агентов с длинной памятью. Контекст в 1M, 10M токенов перестанет быть теоретическим упражнением. Агент, который помнит всю историю вашего взаимодействия и анализирует гигабайты документов в реальном времени, станет нормой.
- Исследователи, которые задыхаются от ограничений аппаратуры. Сколько многообещающих идей по архитектуре моделей было отброшено из-за "слишком дорогого инференса"? PRISM может дать им свободу экспериментировать.
Главное препятствие — не физика, а инерция. Мир заточен под кремний. Но когда нанофотонные чипы станут дешевле в производстве, переход может быть стремительным.
Что делать, пока PRISM в разработке?
Сидеть сложа руки? Нет. Изучайте гибридные подходы. Комбинируйте квантование весов и кеша для экономии памяти. Экспериментируйте с моделями, которые жульничают с вниманием. И следите за книгами по фотонным вычислениям — эта область взлетит в ближайшие годы. Для глубокого погружения в аппаратные аспекты AI рекомендую специализированный курс по оптическим нейросетям.
PRISM — не панацея. Он не ускоряет матричные умножения (для этого есть другие фотонные схемы). Но он бьет в самое больное место современных LLM. Когда такие чипы появятся в серверах, мы забудем, что такое "ожидание генерации". Инференс станет практически мгновенным, даже для контекста на всю жизнь. И это не вопрос "если", а вопрос "когда". Судя по темпам 2026 года — очень скоро.