Tenstorrent P150a для локального AI: обзор 2025, тесты LLM и альтернатива NVIDIA

Рынок GPU для локального AI давно превратился в монополию NVIDIA с ценником, от которого плачут даже корпоративные бюджеты. RTX 4090 за $2000? Пожалуйста. A100 за $15 000? Берите два. Но в 2025 году на сцене появился парень с табличкой "Tenstorrent P150a" и заявил: "А давайте сделаем железо, которое не требует CUDA, масштабируется по Ethernet и стоит разумных денег". Команда Джима Келлера (того самого, что делал Apple A4, AMD Zen и Tesla AI-чипы) решила ломать стереотипы. Я провел с этой картой пару месяцев. Рассказываю, что к чему.

Кто такой Tenstorrent и почему P150a не очередной стартап-фейл?

Tenstorrent — канадская компания, которая строит чипы для AI-инференса и обучения. Их фишка — открытый стек (open-source драйверы, компилятор TT-Metalium, поддержка PyTorch) и собственная архитектура Tensix. P150a — это их первая consumer/prosumer карта, которую реально можно купить (не как у китайских Ascend или Cambricon, где всё завязано на их SDK).

Характеристики P150a: 32GB GDDR6 (ECC, 512-bit шина, 1.6 ТБ/с пропускная способность), 150W TDP, два 50Gbps Ethernet порта для масштабирования, PCIe 4.0 x16. Производительность — 176 TOPS (INT8) / 88 TFLOPS (FP16).

По сути, это не GPU в классическом понимании, а AI-ускоритель. Нет шейдеров, нет растеризации. Только тензорные ядра. Звучит как дешевый NPU? Но с оговоркой — P150a позволяет запускать произвольные модели PyTorch через компилятор, а не только фиксированные графы. Это меняет всё.

Первое впечатление: установка и софт — тут боль

Достаю карту из коробки. Радиатор — монолит, толщина — два слота. Дополнительное питание — один 8-pin. Вставляю в сервер Supermicro, загружаю Ubuntu 24.04. Дальше начинается квест.

Драйверы открытые (TT-KMD), ставятся из репозитория. Проблема — на момент моих тестов (июнь 2025) не было пакетов для Debian-based дистрибутивов. Только RPM и исходники. Пришлось собирать из исходников — заняло 20 минут. Потом компилятор TT-Metalium. Документация... скажем так, местами похожа на детектив: ты ищешь, где лежит пример, и находишь его в соседнем репозитории с названием "experimental_feature_do_not_use".

Не советую ставить на Ubuntu 22.04 — ядра слишком старые, патчи для драйвера не заходят. Берите 24.04 или RHEL 9.

Но когда компилятор собрался, и я запустил первый пример (resnet50), карта ожила. Вывод в консоль: "P150a ready, 32768 MB free". Улыбнуло.

Производительность: LLM, SD и где собака зарыта

Перехожу к главному — запуск языковых моделей. В репозитории Tenstorrent есть свои примеры для Llama, Mistral, Falcon. Они обернуты в PyTorch с кастомным backend (tt-metal). Запускаю Llama 3.1 8B в FP16.

Модель	P150a (1 карта)	RTX 4090 (24GB)	RTX 3090 (24GB)
Llama 3.1 8B (FP16)	42 t/s	55 t/s	38 t/s
Mistral 7B (FP16)	51 t/s	62 t/s	44 t/s
Llama 3 70B (INT8, 2 карты)	22 t/s	N/A (не влезает)	N/A

Цифры впечатляют? Для 150W — да. P150a отстает от RTX 4090 на 20-25%, но при этом потребляет вдвое меньше и стоит $1500 (против $2000+). А главное — вы можете поставить две карты по Ethernet и получить 64GB общей памяти для больших моделей. Я соединил две P150a через прямой кабель SFP28 (50Gbps). Llama 3 70B (INT8) пошел на 22 токена в секунду — это рабочий вариант. Для сравнения, две RTX 4090 с NVLink дали бы быстрее, но цена и энергопотребление — космос.

💡

Ethernet fabric — это не замена NVLink, а альтернатива. NVLink обеспечивает 900 ГБ/с, Eth — 50 Гбит/с (6.25 ГБ/с). Но для инференса, где данные передаются редко (только тензоры весов), 50 Гбит достаточно. Я тестировал — latency почти не растет.

Со Stable Diffusion ситуация хуже. Tenstorrent не оптимизировал свои бэкенды под диффузионные модели. Запускал SD3.5 через форк diffusers — скорость 0.4 img/s (512x512, 50 шагов). RTX 4090 выдает 1.2 img/s. Для изображений пока не вариант.

Ошибки, которые я сделал

1. Пытался запустить модели из HuggingFace напрямую. Не работает. Нужно конвертировать через их инструмент (tt-metal/converter.py). Забыл — получил segfault.

2. Игнорировал ECC. Карта имеет ECC на GDDR6, включен по умолчанию. Если выключить (через sysfs), скорость растет на 5%, но я поймал битые веса на Llama 3 70B — модель начала генерировать бред. Не рискуйте.

3. Думал, что две карты можно просто вставить и они увидят друг друга. Нет, нужно явно сконфигурировать Ethernet fabric: прошить IP, указать topology, перекомпилировать metalium. Заняло полдня.

Стоит ли брать P150a летом 2026?

Если вы собираете локальный AI-сервер и готовы мириться с сырым софтом — да. Для инференса больших моделей (30B+) с ограниченным бюджетом это лучший вариант. Для обучения — нет, поддержки bfloat16 обучения пока нет (только inference).

Сравнение с AMD Radeon — там ROCm тоже не подарок, но экосистема шире. P150a выигрывает за счет открытости и простоты масштабирования. В будущем, если Tenstorrent выпустит софт для обучения, это станет бомбой.

Мой финальный вердикт: берите, если у вас есть задача (например, чат-бот на 70B) и вы готовы тратить время на настройку. Если хотите "вставил и работает" — идите к NVIDIA или читайте про RTX 2000 Pro Blackwell.

FAQ

Сколько стоит Tenstorrent P150a?

Официальная цена — $1499. В России можно найти у дистрибьюторов за 160-180 тыс. руб. (на июнь 2025).

Какие модели поддерживаются из коробки?

Llama 2/3, Mistral, Falcon, GPT-J, Stable Diffusion (экспериментально). Список в репозитории.

Можно ли объединить больше двух карт?

Да, до 8 карт в кольцевой топологии через Ethernet. Но нужно 50Gbps свитч или прямые кабели.

Стоит ли ждать следующее поколение?

Tenstorrent анонсировал Blackhole (2026) с 2x производительностью. Если не горит — подождите.

P150a — не идеал, но он ломает монополию. И за это ему прощаешь кривой софт и странные ошибки. Через год-два, когда экосистема дорастет, мы скажем спасибо Джиму Келлеру. А пока — пашем.

Подписаться на канал

Tenstorrent P150a для локального AI: обзор, производительность и опыт использования