Зачем вам эта статья, если у вас нет денег на A100?

Потому что у вас есть $800. Бесплатных. От Digital Ocean. И это не маркетинговая уловка, а реальный кредит, который сжигает дыру в кармане, если его не использовать. Пока гиганты платят по $10 в час за H200, вы можете запустить свой инференс или дообучить модель за копейки. Вернее, за ноль копеек.

Проблема в том, что облачные GPU — это минное поле. Запустил инстанс, забыл выключить — через неделю кредиты кончились. Выбрал не ту конфигурацию — модель не влезает в память. Не настроил сеть — данные качаются со скоростью диалапа. Этот гайд — не про "нажмите вот эту кнопку". Он про то, как выжать из этих $800 максимум, не облажавшись на ровном месте.

Важно: Цены и доступность инстансов на 18.02.2026. Digital Ocean регулярно обновляет железо, поэтому проверяйте актуальность в панели управления. Например, в начале 2026 появились инстансы с GPU L40S, которые отлично подходят для смешанных нагрузок.

Откуда берутся $800 и как их не потерять

Кредиты — часть программы для стартапов или промо-акций. Регистрируетесь по партнерской ссылке (да, это она), подтверждаете почту и телефон — на счету появляется $200. Потом привязываете карту и получаете еще $600. Итого $800 на 60 дней. Звучит просто? А теперь ловушки.

Таймер тикает с первой секунды. 60 дней — это не "потом разберусь". Это "настраивай сегодня".
Кредиты не конвертируются в деньги. Не использовал — сгорели. Без жалости.
После окончания срока списывают с карты. Если забыть выключить инстансы, получите счет. Я видел счета на $300 за неделю.

Поэтому первый шаг — не создание инстанса, а настройка бюджетов и алертов. В панели Digital Ocean идете в Billing -> Budgets и выставляете лимит в $790. Получаете уведомление на почту при 80% использовании. Это спасет вашу карту.

Выбор GPU: между A100-тоской и реальностью

У Digital Ocean нет H200 или A100. И слава богу — они бы сожрали ваш кредит за пару дней. Вместо них — практичные, бюджетные карты. На 2026 год актуальны три типа:

Тип GPU	VRAM	Цена в час	Для чего годится
NVIDIA A10G	24 GB	~$1.10	Инференс моделей до 13B параметров, тонкая настройка QLoRA
NVIDIA L40S	48 GB	~$2.30	Обучение с нуля небольших моделей, инференс 30B+ моделей
NVIDIA RTX 6000 Ada	48 GB	~$2.50	То же, что L40S, но с лучшей поддержкой дисплеев (для визуальных задач)

Если ваша цель — попробовать инференс Llama 3.1 8B или Gemma 3 4B, хватит A10G. Планируете дообучить Llama 3.1 70B с QLoRA? Берите L40S. Хотите поиграть с Stable Diffusion 3 или другими диффузионными моделями — тоже L40S. Главное правило: не берите GPU "про запас". Каждый лишний доллар в час — это 24 доллара в день. Ваши $800 испарятся за месяц.

💡

Сравнивать цены с другими провайдерами? В статье "Как арендовать H200 и A100 в 2-3 раза дешевле рынка" есть подробная аналитика. Но для хобби-проектов Digital Ocean выигрывает за счет простоты и предсказуемости тарификации.

1 Создание GPU-инстанса за 3 минуты

Забудьте про CLI на этом этапе. Заходите в панель, нажимаете "Create Droplet". В разделе "Choose an image" — критически важный момент. Не берите Ubuntu 22.04 с предустановленным Docker. Берите Ubuntu 24.04 LTS (самая свежая на 2026 год) без всяких надстроек. Почему? Потому что предустановленные образы часто содержат устаревшие драйверы CUDA, а вам нужен контроль.

# Как НЕ надо делать:
# Выбираете "Docker on Ubuntu 22.04"
# Потом пытаетесь обновить CUDA с 11.7 до 12.4
# Ломаете зависимости
# Тратите день на отладку

# Как надо:
# Чистый Ubuntu 24.04
# Дальше по инструкции ниже

В разделе "Choose a plan" выбираете "GPU". Появится список карт. Выбираете A10G или L40S в зависимости от задачи. Размер CPU и RAM подбирается автоматически. Обычно это 8-16 vCPU и 32-64 GB RAM — более чем достаточно.

Дальше — регион. Выбирайте самый близкий к вам географически. Если вы в Европе — Frankfurt. В США — NYC. Это уменьшит задержку при подключении по SSH.

Финальный шаг: добавление SSH-ключа. Если у вас его нет — создайте на локальной машине. Без ключа заходить по паролю — это как оставить дверь открытой в криминальном районе.

# Генерация ключа на вашем компьютере (не на сервере!)
ssh-keygen -t ed25519 -C "your_email@example.com"
# Копируете содержимое ~/.ssh/id_ed25519.pub
# Вставляете в Digital Ocean при создании инстанса

Нажимаете "Create Droplet". Через 2-3 минуты инстанс готов. Запишите IP-адрес. Он понадобится через секунду.

2 Первый вход и базовая зачистка

Подключаетесь по SSH. Меняете root-пароль на сложный. Отключаете вход по паролю для root. Создаете отдельного пользователя. Стандартная процедура, но 90% ее пропускают. А потом удивляются, когда их сервер становится частью ботнета.

ssh root@ваш_ip_адрес
# Меняем пароль root
passwd
# Создаем пользователя, например, 'ai'
adduser ai
usermod -aG sudo ai
# Копируем SSH-ключ для нового пользователя
rsync --archive --chown=ai:ai ~/.ssh /home/ai
# Отключаем вход по паролю и для root
sed -i 's/PermitRootLogin yes/PermitRootLogin prohibit-password/' /etc/ssh/sshd_config
sed -i 's/PasswordAuthentication yes/PasswordAuthentication no/' /etc/ssh/sshd_config
systemctl restart sshd

Теперь выходите и заходите под пользователем 'ai'. Дальше все команды от его имени.

3 Установка CUDA, Docker и всего необходимого

На 2026 год актуальная версия CUDA — 12.5. Устанавливаем драйверы и тулкыт. Не через apt-get c репозиторием NVIDIA, а через сетевой установщик. Это гарантирует свежие версии.

# Обновляем систему
sudo apt update && sudo apt upgrade -y

# Устанавливаем зависимости для CUDA
sudo apt install -y build-essential dkms

# Скачиваем и устанавливаем CUDA 12.5
wget https://developer.download.nvidia.com/compute/cuda/12.5.0/local_installers/cuda_12.5.0_555.42.02_linux.run
sudo sh cuda_12.5.0_555.42.02_linux.run --silent --driver --toolkit --samples --override

# Добавляем CUDA в PATH
echo 'export PATH=/usr/local/cuda-12.5/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.5/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

# Проверяем установку
nvidia-smi

В выводе nvidia-smi должна быть ваша карта (A10G или L40S) и версия CUDA 12.5. Если видите ошибку — перезагрузите инстанс через панель Digital Ocean.

Теперь Docker. Устанавливаем последнюю версию, добавляем пользователя в группу docker.

# Установка Docker
curl -fsSL https://get.docker.com -o get-docker.sh
sudo sh get-docker.sh
sudo usermod -aG docker $USER

# Установка NVIDIA Container Toolkit (для работы GPU в контейнерах)
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

# Проверяем: GPU должен быть виден в контейнере
sudo docker run --rm --gpus all nvidia/cuda:12.5.0-base-ubuntu24.04 nvidia-smi

Если последняя команда показала те же GPU, что и на хосте — отлично. Теперь у вас есть основа.

4 Выбор фреймворка: между скоростью и простотой

Для инференса в 2026 году есть два лидера: vLLM (для максимальной скорости) и Ollama (для простоты). Для обучения — PyTorch 2.3+ с поддержкой Flash Attention 3 и Axolotl для тонкой настройки.

Установим vLLM для инференса. Работаем через Python виртуальное окружение.

# Устанавливаем Python 3.11 (на Ubuntu 24.04 по умолчанию)
sudo apt install -y python3.11-venv python3-pip
python3 -m venv ~/venv
source ~/venv/bin/activate

# Устанавливаем torch со сборкой под CUDA 12.5
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu125

# Устанавливаем vLLM
pip install vllm

# Проверяем установку
python -c "import vllm; print('vLLM version:', vllm.__version__)"

Теперь запустим простой сервер инференса для модели Qwen2.5-7B-Instruct (одна из самых сбалансированных на 2026 год).

# Запускаем сервер vLLM в фоновом режиме
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-7B-Instruct \
  --served-model-name qwen-7b \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.9 \
  --port 8000 &

# Проверяем, что сервер работает
curl http://localhost:8000/v1/models

Сервер запустится и начнет скачивать модель с Hugging Face. Это может занять 10-15 минут (модель весит ~15 GB). Убедитесь, что у вас достаточно места на диске. По умолчанию у инстанса 50-100 GB SSD, этого хватит.

Предупреждение: Не оставляйте сервер открытым на все интернет! По умолчанию vLLM слушает на 0.0.0.0:8000. Это значит, что любой может получить доступ к вашему AI. Настройте firewall (UFW) или используйте SSH-туннель для доступа. Или сразу настройте аутентификацию.

5 Тонкая настройка модели: как не сжечь кредиты впустую

Допустим, вы хотите дообучить модель под свои данные. Например, медицинские протоколы, как в статье "Хирургия для нейросетей". На A10G с 24 GB VRAM вы можете использовать QLoRA для моделей до 13B параметров.

Устанавливаем Axolotl — популярный инструмент для тонкой настройки.

# Клонируем репозиторий
cd ~
git clone https://github.com/OpenAccess-AI-Collective/axolotl
cd axolotl

# Устанавливаем зависимости
pip install -e .
pip install -U flash-attn --no-build-isolation  # Для Flash Attention

# Создаем конфиг для дообучения Llama 3.1 8B с QLoRA
# (пример конфига можно найти в документации Axolotl)

Обучение даже с QLoRA может занять часы. Ваша задача — минимизировать время работы инстанса. Подготовьте данные локально. Напишите скрипты заранее. Запускайте обучение, только когда все готово. И не забудьте настроить сохранение чекпоинтов в облачное хранилище (например, Digital Ocean Spaces), чтобы не потерять прогресс при остановке инстанса.

Как не убить $800 за неделю: контроль расходов

Самый важный раздел. Digital Ocean не предупредит вас, когда кредиты на исходе (только если вы настроили алерт). Вот ваши действия:

Автоматическое выключение по расписанию. Используйте cron для остановки инстанса в нерабочее время.
Мониторинг использования. Каждый день заходите в Billing -> Usage. Смотрите, сколько сожгли.
Удаление неиспользуемых ресурсов. Диски, снапшоты, Load Balancers — все это стоит денег. Удаляйте.
Используйте spot-инстансы? У Digital Ocean их нет. Но можно имитировать, создавая инстансы только когда нужны, и удаляя после работы.

Пример cron-задания для выключения инстанса в 22:00 и включения в 8:00 (если нужно работать только днем):

# Добавляем в crontab -e
0 22 * * * /usr/bin/curl -X POST -H "Content-Type: application/json" -H "Authorization: Bearer YOUR_DO_API_TOKEN" -d '{"type":"power_off"}' "https://api.digitalocean.com/v2/droplets/YOUR_DROPLET_ID/actions"
0 8 * * * /usr/bin/curl -X POST -H "Content-Type: application/json" -H "Authorization: Bearer YOUR_DO_API_TOKEN" -d '{"type":"power_on"}' "https://api.digitalocean.com/v2/droplets/YOUR_DROPLET_ID/actions"

Замените YOUR_DO_API_TOKEN и YOUR_DROPLET_ID. Токен создается в Digital Ocean в разделе API. Дайте ему только права на чтение и запись Droplets.

Что делать, когда кредиты кончатся

$800 — это примерно 700-750 часов работы A10G (месяц непрерывной работы) или 300 часов L40S. Хватит на несколько серьезных экспериментов. Но потом придется либо платить, либо искать альтернативы.

Варианты:

Локальное железо. Если у вас уже есть RTX 4070, как в статье "Можно ли делать тонкую настройку Llama 3.1 8B на ноутбуке", то для инференса небольших моделей облако может не понадобиться.
Более дешевые облачные провайдеры. Например, Lambda Labs или Vast.ai. Но там сложнее настройка и нет фиксированных кредитов.
Покупка б/у железа. Как в статье "Мертвые майнеры воскресают". Долгосрочная инвестиция, но требует времени и знаний.

Главный вывод: $800 кредитов — это не для производства, а для обучения и экспериментов. Используйте их, чтобы понять, какие модели и задачи вам действительно нужны. Потом принимайте решение о дальнейших инвестициях.

Частые ошибки, которые съедят ваше время

Не проверили совместимость CUDA и PyTorch. Устанавливаете torch для CUDA 11.8, а у вас 12.5. Модель не видит GPU. Решение: всегда устанавливайте torch с указанием индекса, как показано выше.
Забыли про swap. Даже с 64 GB RAM, загрузка больших датасетов может исчерпать память. Добавьте swap-файл 32 GB.
Качаете модели каждый раз заново. Настройте кэш Hugging Face в постоянном томе. Или используйте предзагруженные образы Docker.
Не тестируете на маленьких данных. Запускаете обучение на 100k примеров, а через 5 часов понимаете, что конфиг кривой. Сначала запустите на 100 примерах, убедитесь, что loss падает.

💡

Если вам нужно обучать действительно большие модели (120B+), то даже L40S не спасет. В таком случае смотрите статью "Дешёвые GPU для тонкой настройки 120B моделей". Там тактика аренды нескольких инстансов и распределенного обучения.

И последний совет: не пытайтесь сделать все за один раз. Разбейте на этапы: день 1 — настройка инстанса и запуск инференса. День 2 — подготовка данных. День 3 — тонкая настройка. И так далее. Так вы не перегорите и не потратите кредиты впустую.

Удачи. И следите за счетом.

Как использовать $800 кредитов Digital Ocean для обучения и инференса AI-моделей: пошаговый гайд по настройке GPU