15000 долларов, одна карта и 122 миллиарда параметров: почему корпоративный ИИ это не про облако

Открою секрет: большинство компаний, которые платят OpenAI по 20-30 тысяч в месяц, через год могли бы иметь собственный суперкомпьютер. Но они этого не делают. Потому что боятся. Потому что "железо устаревает". Потому что "облако надежнее".

Это все чушь. На март 2026 года локальный сервер за 15К – не роскошь, а необходимость. Особенно если ваши данные – это коммерческая тайна, медицинские записи или юридические документы. Облако здесь не просто дорого. Оно опасно.

Цифра $15 000 – не случайна. Это магический порог, после которого окупаемость локального решения становится меньше 8 месяцев при средней нагрузке. Считайте сами: аренда инфраструктуры под Qwen 122B в облаке обойдется минимум в $2500-3000 ежемесячно. За полгода – уже $18 000. А сервер останется у вас.

RTX Pro 6000 96GB против двух карт: война памяти и пропускной способности

Самый больной вопрос. Брать одну монструозную RTX Pro 6000 с 96 ГБ VRAM или две карты по 48 ГБ? (например, RTX 6000 Ada). Спойлер: для Qwen 122B – только первое.

Почему? Потому что модель весом 122 миллиарда параметров в 4-битной квантовке занимает около 61 ГБ. Плюс контекст, плюс overhead системы. Впихнуть это в 48 ГБ – пытка. Придется резать модель сильнее, терять качество. А двухкарточная конфигурация с NVLink на март 2026 все еще не дает единого пула памяти для большинства фреймворков. Модель придется распиливать между картами, что убивает скорость инференса на 15-30%.

Конфигурация	Примерная цена	VRAM (полезная)	Токенов/сек на Qwen 122B Q4	Главный недостаток
1x NVIDIA RTX Pro 6000 96GB	~$9 000	~90 ГБ (под модель)	18-22	Цена одной карты
2x NVIDIA RTX 6000 Ada 48GB	~$8 500	2x48 ГБ, но без единого пула	12-16	Сложность настройки, потеря скорости

RTX Pro 6000 (кодовое имя Ada Lovelace) – не новая карта. Но к 2026 году ее драйверы и поддержка в ROCm, vLLM, Ollama отполированы до блеска. Это рабочая лошадка, которая не сломается после очередного обновления CUDA. Две карты – это всегда головная боль с распределением нагрузки, нагревом и драйверами.

💡

Внимание на чипсет материнской платы. Для RTX Pro 6000 нужен PCIe 5.0 x16. Иначе вы недополучите пропускную способность, и карта будет простаивать. Проверяйте спецификации: многие "серверные" платы до сих пор идут с PCIe 4.0.

1 Бюджетная разбивка: куда уйдут ваши $15 000

Давайте посчитаем по-честному. Не по магазинным ценам "на бумаге", а по реальным чекам.

NVIDIA RTX Pro 6000 96GB: $8 800 - $9 200. Да, это больше половины бюджета. И это правильно.
Процессор: AMD EPYC 7302P (16 ядер) или Intel Xeon W5-2465X. Около $1 000. Много ядер не нужно – главное, PCIe lanes и поддержка памяти.
Оперативная память: 256 ГБ DDR4 ECC. Не меньше. RAG с большими документами жрет RAM как не в себя. $500-$600.
Материнская плата: Supermicro или ASUS Pro WS с поддержкой PCIe 5.0. $600-$800.
Блок питания: 1200W Platinum, обязательно от Seasonic или be quiet!. Карта кушает до 300W, плюс система. $300.
Накопители: 2TB NVMe Gen4 для системы и моделей, плюс 8TB SATA SSD для векторных баз и данных. $700.
Корпус и охлаждение: Full-tower с усиленной вентиляцией. RTX Pro 6000 – горячая. $400.

Итого: ~$13 000. Остальные $2 000 – на доставку, сборку и непредвиденные расходы (типа дополнительных вентиляторов, которых вечно не хватает).

Почему именно Qwen 3.5 122B? Потому что Llama 3.2 80B уже не торт

На март 2026 года Qwen 3.5 122B от Alibaba – лучший выбор для корпоративных задач. Не Llama, не Mixtral, а именно Qwen. Вот почему:

Во-первых, контекстное окно. 32K токенов из коробки, а с tuning'ом легко расширяется до 128K. Для анализа длинных юридических договоров или технической документации – бесценно.

Во-вторых, мультиязычность. Qwen изначально тренировали на английском, китайском и русском данных. Качество понимания контекста на русском у него на 30% выше, чем у Llama 3.2 того же размера.

В-третьих, цена – бесплатно. Модель под лицензией Apache 2.0. Вы можете хоть завтра внедрить ее в коммерческий продукт.

# Скачивание и запуск Qwen 3.5 122B в Ollama (актуально на март 2026)
ollama pull qwen2.5:122b-q4_K_M
ollama run qwen2.5:122b-q4_K_M

Не пытайтесь запускать эту модель в полной точности (FP16). Она займет ~240 ГБ VRAM. Такого железа нет в природе за $15К. Используйте 4-битное квантование (Q4_K_M). Потери качества для бизнес-задач (поиск, классификация, суммаризация) составляют менее 3%, а размер падает в 4 раза.

2 Собираем софтверный стек: что ставить после Ubuntu

Железо – это только полдела. Софт может убить всю производительность. Вот мой проверенный стек на 2026 год:

ОС: Ubuntu Server 24.04 LTS. Не экспериментальные версии, только LTS. Драйверы NVIDIA CUDA 13.5 (самая стабильная на данный момент).
Оркестрация: Docker + Kubernetes (k3s). Все изолируем в контейнеры. Один контейнер – под модель, другой – под векторную базу, третий – под OCR движок.
Сервис для моделей: vLLM или Ollama Enterprise. Первый – для максимальной скорости, второй – для простоты развертывания. На март 2026 vLLM поддерживает Tensor Parallelism для RTX Pro 6000 из коробки.
Векторная БД: Qdrant или Weaviate. Оба умеют работать с GPU. Для RAG на 500 000 документов Qdrant потребляет около 8 ГБ VRAM и выдает ответы за 50-100 мс.
OCR движок: Donut от Clova AI или PaddleOCR. Donut – трансформер, который понимает структуру документа (таблицы, заголовки). Он тяжелый, но для нашего сервера – идеально.

# Пример docker-compose для RAG-пайплайна
version: '3.8'
services:
  qwen-api:
    image: ollama/ollama:latest
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    command: serve
    volumes:
      - ./ollama:/root/.ollama
  qdrant:
    image: qdrant/qdrant:latest
    ports:
      - "6333:6333"
    volumes:
      - ./qdrant_storage:/qdrant/storage

RAG, OCR и анализ данных: как все это работает вместе

Типичный пайплайн для обработки входящего договора:

1. PDF-документ попадает в систему.
2. OCR-движок (Donut) извлекает текст, сохраняя разметку: вот таблица, вот подпись, вот печать.
3. Текст разбивается на чанки (по 1000 токенов с перекрытием).
4. Чанки векторизуются моделью (например, BGE-M3) и кладутся в Qdrant.
5. Пользователь задает вопрос: "Какие условия расторжения в пункте 5?"
6. RAG находит релевантные чанки, передает их как контекст в Qwen 122B.
7. Модель генерирует ответ, ссылаясь на исходные пункты.

На одном RTX Pro 6000 это работает параллельно. Выделяете 70 ГБ VRAM под Qwen, 8 ГБ под Qdrant, 6 ГБ под OCR – и остается еще 12 ГБ на системные нужды. Все в одной карте.

Частые ошибки, которые сведут на нет все преимущества

Экономия на блоке питания. Дешевый БП на 1000W под нагрузкой начнет фонировать, система будет падать. Не делайте так.
Игнорирование ECC памяти. Для сервера, который работает 24/7, одна битая ячейка в RAM может исказить результат анализа на миллионы долларов. ECC – обязательно.
Попытка поставить все на один SSD. Модели, векторная БД и логи пишутся постоянно. Разнесите нагрузку: NVMe – под ОС и софт, SATA SSD – под данные.
Отсутствие мониторинга температуры. RTX Pro 6000 при полной нагрузке греется до 85°C. Если в корпусе плохая вентиляция, через месяц начнется троттлинг, а скорость упадет вдвое. Ставьте датчики и alert'ы.

💡

Если вы уже читали мою статью "Почему RAG для 2000 сотрудников на CPU-сервере обречён на провал", то знаете – экономия на GPU это ложная экономия. Здесь тот же принцип, только масштаб больше.

Когда окупится эта сборка? Математика простая

Допустим, у вас 50 сотрудников, которые работают с документами. Каждый делает 20 запросов к ИИ-ассистенту в день. В облаке (аналог GPT-4.5 API) это стоило бы примерно $1800 в месяц (на март 2026 тарифы выросли еще на 20%).

Локальный сервер: электричество ~$80/мес, амортизация железа ~$250/мес. Итого $330 против $1800. Окупаемость – менее 10 месяцев.

Но главное не деньги. Главное – скорость. Отправка документа в облако, ожидание ответа от API – это 2-3 секунды минимум. Локально тот же запрос обрабатывается за 0,8-1,2 секунды. За год это десятки сэкономленных человеко-часов.

И последнее. Этот сервер через 3 года можно будет продать за $6000-7000 и собрать новый на более свежем железе. Обновление обойдется в $8000-9000. А облачные API вы платите вечно, и с каждым годом все больше.

Выбор, как говорится, очевиден. Если, конечно, вы не любите выбрасывать деньги на ветер.

Подписаться на канал

Сборка корпоративного ИИ-сервера за $15 000: выбор GPU, моделей (Qwen 122B) и конфигурации для RAG, OCR и анализа данных