Рынок GPU для локального AI давно превратился в монополию NVIDIA с ценником, от которого плачут даже корпоративные бюджеты. RTX 4090 за $2000? Пожалуйста. A100 за $15 000? Берите два. Но в 2025 году на сцене появился парень с табличкой "Tenstorrent P150a" и заявил: "А давайте сделаем железо, которое не требует CUDA, масштабируется по Ethernet и стоит разумных денег". Команда Джима Келлера (того самого, что делал Apple A4, AMD Zen и Tesla AI-чипы) решила ломать стереотипы. Я провел с этой картой пару месяцев. Рассказываю, что к чему.
Кто такой Tenstorrent и почему P150a не очередной стартап-фейл?
Tenstorrent — канадская компания, которая строит чипы для AI-инференса и обучения. Их фишка — открытый стек (open-source драйверы, компилятор TT-Metalium, поддержка PyTorch) и собственная архитектура Tensix. P150a — это их первая consumer/prosumer карта, которую реально можно купить (не как у китайских Ascend или Cambricon, где всё завязано на их SDK).
Характеристики P150a: 32GB GDDR6 (ECC, 512-bit шина, 1.6 ТБ/с пропускная способность), 150W TDP, два 50Gbps Ethernet порта для масштабирования, PCIe 4.0 x16. Производительность — 176 TOPS (INT8) / 88 TFLOPS (FP16).
По сути, это не GPU в классическом понимании, а AI-ускоритель. Нет шейдеров, нет растеризации. Только тензорные ядра. Звучит как дешевый NPU? Но с оговоркой — P150a позволяет запускать произвольные модели PyTorch через компилятор, а не только фиксированные графы. Это меняет всё.
Первое впечатление: установка и софт — тут боль
Достаю карту из коробки. Радиатор — монолит, толщина — два слота. Дополнительное питание — один 8-pin. Вставляю в сервер Supermicro, загружаю Ubuntu 24.04. Дальше начинается квест.
Драйверы открытые (TT-KMD), ставятся из репозитория. Проблема — на момент моих тестов (июнь 2025) не было пакетов для Debian-based дистрибутивов. Только RPM и исходники. Пришлось собирать из исходников — заняло 20 минут. Потом компилятор TT-Metalium. Документация... скажем так, местами похожа на детектив: ты ищешь, где лежит пример, и находишь его в соседнем репозитории с названием "experimental_feature_do_not_use".
Не советую ставить на Ubuntu 22.04 — ядра слишком старые, патчи для драйвера не заходят. Берите 24.04 или RHEL 9.
Но когда компилятор собрался, и я запустил первый пример (resnet50), карта ожила. Вывод в консоль: "P150a ready, 32768 MB free". Улыбнуло.
Производительность: LLM, SD и где собака зарыта
Перехожу к главному — запуск языковых моделей. В репозитории Tenstorrent есть свои примеры для Llama, Mistral, Falcon. Они обернуты в PyTorch с кастомным backend (tt-metal). Запускаю Llama 3.1 8B в FP16.
| Модель | P150a (1 карта) | RTX 4090 (24GB) | RTX 3090 (24GB) |
|---|---|---|---|
| Llama 3.1 8B (FP16) | 42 t/s | 55 t/s | 38 t/s |
| Mistral 7B (FP16) | 51 t/s | 62 t/s | 44 t/s |
| Llama 3 70B (INT8, 2 карты) | 22 t/s | N/A (не влезает) | N/A |
Цифры впечатляют? Для 150W — да. P150a отстает от RTX 4090 на 20-25%, но при этом потребляет вдвое меньше и стоит $1500 (против $2000+). А главное — вы можете поставить две карты по Ethernet и получить 64GB общей памяти для больших моделей. Я соединил две P150a через прямой кабель SFP28 (50Gbps). Llama 3 70B (INT8) пошел на 22 токена в секунду — это рабочий вариант. Для сравнения, две RTX 4090 с NVLink дали бы быстрее, но цена и энергопотребление — космос.
Со Stable Diffusion ситуация хуже. Tenstorrent не оптимизировал свои бэкенды под диффузионные модели. Запускал SD3.5 через форк diffusers — скорость 0.4 img/s (512x512, 50 шагов). RTX 4090 выдает 1.2 img/s. Для изображений пока не вариант.
Ошибки, которые я сделал
1. Пытался запустить модели из HuggingFace напрямую. Не работает. Нужно конвертировать через их инструмент (tt-metal/converter.py). Забыл — получил segfault.
2. Игнорировал ECC. Карта имеет ECC на GDDR6, включен по умолчанию. Если выключить (через sysfs), скорость растет на 5%, но я поймал битые веса на Llama 3 70B — модель начала генерировать бред. Не рискуйте.
3. Думал, что две карты можно просто вставить и они увидят друг друга. Нет, нужно явно сконфигурировать Ethernet fabric: прошить IP, указать topology, перекомпилировать metalium. Заняло полдня.
Стоит ли брать P150a летом 2026?
Если вы собираете локальный AI-сервер и готовы мириться с сырым софтом — да. Для инференса больших моделей (30B+) с ограниченным бюджетом это лучший вариант. Для обучения — нет, поддержки bfloat16 обучения пока нет (только inference).
Сравнение с AMD Radeon — там ROCm тоже не подарок, но экосистема шире. P150a выигрывает за счет открытости и простоты масштабирования. В будущем, если Tenstorrent выпустит софт для обучения, это станет бомбой.
Мой финальный вердикт: берите, если у вас есть задача (например, чат-бот на 70B) и вы готовы тратить время на настройку. Если хотите "вставил и работает" — идите к NVIDIA или читайте про RTX 2000 Pro Blackwell.
FAQ
Сколько стоит Tenstorrent P150a?
Официальная цена — $1499. В России можно найти у дистрибьюторов за 160-180 тыс. руб. (на июнь 2025).
Какие модели поддерживаются из коробки?
Llama 2/3, Mistral, Falcon, GPT-J, Stable Diffusion (экспериментально). Список в репозитории.
Можно ли объединить больше двух карт?
Да, до 8 карт в кольцевой топологии через Ethernet. Но нужно 50Gbps свитч или прямые кабели.
Стоит ли ждать следующее поколение?
Tenstorrent анонсировал Blackhole (2026) с 2x производительностью. Если не горит — подождите.
P150a — не идеал, но он ломает монополию. И за это ему прощаешь кривой софт и странные ошибки. Через год-два, когда экосистема дорастет, мы скажем спасибо Джиму Келлеру. А пока — пашем.