Используем $800 кредитов Digital Ocean для AI: настройка GPU для обучения и инференса | AiManual
AiManual Logo Ai / Manual.
18 Фев 2026 Гайд

Как использовать $800 кредитов Digital Ocean для обучения и инференса AI-моделей: пошаговый гайд по настройке GPU

Пошаговый гайд по настройке GPU-инстансов в Digital Ocean для обучения и инференса AI-моделей с использованием $800 кредитов. Актуально на 2026 год.

Зачем вам эта статья, если у вас нет денег на A100?

Потому что у вас есть $800. Бесплатных. От Digital Ocean. И это не маркетинговая уловка, а реальный кредит, который сжигает дыру в кармане, если его не использовать. Пока гиганты платят по $10 в час за H200, вы можете запустить свой инференс или дообучить модель за копейки. Вернее, за ноль копеек.

Проблема в том, что облачные GPU — это минное поле. Запустил инстанс, забыл выключить — через неделю кредиты кончились. Выбрал не ту конфигурацию — модель не влезает в память. Не настроил сеть — данные качаются со скоростью диалапа. Этот гайд — не про "нажмите вот эту кнопку". Он про то, как выжать из этих $800 максимум, не облажавшись на ровном месте.

Важно: Цены и доступность инстансов на 18.02.2026. Digital Ocean регулярно обновляет железо, поэтому проверяйте актуальность в панели управления. Например, в начале 2026 появились инстансы с GPU L40S, которые отлично подходят для смешанных нагрузок.

Откуда берутся $800 и как их не потерять

Кредиты — часть программы для стартапов или промо-акций. Регистрируетесь по партнерской ссылке (да, это она), подтверждаете почту и телефон — на счету появляется $200. Потом привязываете карту и получаете еще $600. Итого $800 на 60 дней. Звучит просто? А теперь ловушки.

  • Таймер тикает с первой секунды. 60 дней — это не "потом разберусь". Это "настраивай сегодня".
  • Кредиты не конвертируются в деньги. Не использовал — сгорели. Без жалости.
  • После окончания срока списывают с карты. Если забыть выключить инстансы, получите счет. Я видел счета на $300 за неделю.

Поэтому первый шаг — не создание инстанса, а настройка бюджетов и алертов. В панели Digital Ocean идете в Billing -> Budgets и выставляете лимит в $790. Получаете уведомление на почту при 80% использовании. Это спасет вашу карту.

Выбор GPU: между A100-тоской и реальностью

У Digital Ocean нет H200 или A100. И слава богу — они бы сожрали ваш кредит за пару дней. Вместо них — практичные, бюджетные карты. На 2026 год актуальны три типа:

Тип GPU VRAM Цена в час Для чего годится
NVIDIA A10G 24 GB ~$1.10 Инференс моделей до 13B параметров, тонкая настройка QLoRA
NVIDIA L40S 48 GB ~$2.30 Обучение с нуля небольших моделей, инференс 30B+ моделей
NVIDIA RTX 6000 Ada 48 GB ~$2.50 То же, что L40S, но с лучшей поддержкой дисплеев (для визуальных задач)

Если ваша цель — попробовать инференс Llama 3.1 8B или Gemma 3 4B, хватит A10G. Планируете дообучить Llama 3.1 70B с QLoRA? Берите L40S. Хотите поиграть с Stable Diffusion 3 или другими диффузионными моделями — тоже L40S. Главное правило: не берите GPU "про запас". Каждый лишний доллар в час — это 24 доллара в день. Ваши $800 испарятся за месяц.

💡
Сравнивать цены с другими провайдерами? В статье "Как арендовать H200 и A100 в 2-3 раза дешевле рынка" есть подробная аналитика. Но для хобби-проектов Digital Ocean выигрывает за счет простоты и предсказуемости тарификации.

1 Создание GPU-инстанса за 3 минуты

Забудьте про CLI на этом этапе. Заходите в панель, нажимаете "Create Droplet". В разделе "Choose an image" — критически важный момент. Не берите Ubuntu 22.04 с предустановленным Docker. Берите Ubuntu 24.04 LTS (самая свежая на 2026 год) без всяких надстроек. Почему? Потому что предустановленные образы часто содержат устаревшие драйверы CUDA, а вам нужен контроль.

# Как НЕ надо делать:
# Выбираете "Docker on Ubuntu 22.04"
# Потом пытаетесь обновить CUDA с 11.7 до 12.4
# Ломаете зависимости
# Тратите день на отладку

# Как надо:
# Чистый Ubuntu 24.04
# Дальше по инструкции ниже

В разделе "Choose a plan" выбираете "GPU". Появится список карт. Выбираете A10G или L40S в зависимости от задачи. Размер CPU и RAM подбирается автоматически. Обычно это 8-16 vCPU и 32-64 GB RAM — более чем достаточно.

Дальше — регион. Выбирайте самый близкий к вам географически. Если вы в Европе — Frankfurt. В США — NYC. Это уменьшит задержку при подключении по SSH.

Финальный шаг: добавление SSH-ключа. Если у вас его нет — создайте на локальной машине. Без ключа заходить по паролю — это как оставить дверь открытой в криминальном районе.

# Генерация ключа на вашем компьютере (не на сервере!)
ssh-keygen -t ed25519 -C "your_email@example.com"
# Копируете содержимое ~/.ssh/id_ed25519.pub
# Вставляете в Digital Ocean при создании инстанса

Нажимаете "Create Droplet". Через 2-3 минуты инстанс готов. Запишите IP-адрес. Он понадобится через секунду.

2 Первый вход и базовая зачистка

Подключаетесь по SSH. Меняете root-пароль на сложный. Отключаете вход по паролю для root. Создаете отдельного пользователя. Стандартная процедура, но 90% ее пропускают. А потом удивляются, когда их сервер становится частью ботнета.

ssh root@ваш_ip_адрес
# Меняем пароль root
passwd
# Создаем пользователя, например, 'ai'
adduser ai
usermod -aG sudo ai
# Копируем SSH-ключ для нового пользователя
rsync --archive --chown=ai:ai ~/.ssh /home/ai
# Отключаем вход по паролю и для root
sed -i 's/PermitRootLogin yes/PermitRootLogin prohibit-password/' /etc/ssh/sshd_config
sed -i 's/PasswordAuthentication yes/PasswordAuthentication no/' /etc/ssh/sshd_config
systemctl restart sshd

Теперь выходите и заходите под пользователем 'ai'. Дальше все команды от его имени.

3 Установка CUDA, Docker и всего необходимого

На 2026 год актуальная версия CUDA — 12.5. Устанавливаем драйверы и тулкыт. Не через apt-get c репозиторием NVIDIA, а через сетевой установщик. Это гарантирует свежие версии.

# Обновляем систему
sudo apt update && sudo apt upgrade -y

# Устанавливаем зависимости для CUDA
sudo apt install -y build-essential dkms

# Скачиваем и устанавливаем CUDA 12.5
wget https://developer.download.nvidia.com/compute/cuda/12.5.0/local_installers/cuda_12.5.0_555.42.02_linux.run
sudo sh cuda_12.5.0_555.42.02_linux.run --silent --driver --toolkit --samples --override

# Добавляем CUDA в PATH
echo 'export PATH=/usr/local/cuda-12.5/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.5/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

# Проверяем установку
nvidia-smi

В выводе nvidia-smi должна быть ваша карта (A10G или L40S) и версия CUDA 12.5. Если видите ошибку — перезагрузите инстанс через панель Digital Ocean.

Теперь Docker. Устанавливаем последнюю версию, добавляем пользователя в группу docker.

# Установка Docker
curl -fsSL https://get.docker.com -o get-docker.sh
sudo sh get-docker.sh
sudo usermod -aG docker $USER

# Установка NVIDIA Container Toolkit (для работы GPU в контейнерах)
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

# Проверяем: GPU должен быть виден в контейнере
sudo docker run --rm --gpus all nvidia/cuda:12.5.0-base-ubuntu24.04 nvidia-smi

Если последняя команда показала те же GPU, что и на хосте — отлично. Теперь у вас есть основа.

4 Выбор фреймворка: между скоростью и простотой

Для инференса в 2026 году есть два лидера: vLLM (для максимальной скорости) и Ollama (для простоты). Для обучения — PyTorch 2.3+ с поддержкой Flash Attention 3 и Axolotl для тонкой настройки.

Установим vLLM для инференса. Работаем через Python виртуальное окружение.

# Устанавливаем Python 3.11 (на Ubuntu 24.04 по умолчанию)
sudo apt install -y python3.11-venv python3-pip
python3 -m venv ~/venv
source ~/venv/bin/activate

# Устанавливаем torch со сборкой под CUDA 12.5
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu125

# Устанавливаем vLLM
pip install vllm

# Проверяем установку
python -c "import vllm; print('vLLM version:', vllm.__version__)"

Теперь запустим простой сервер инференса для модели Qwen2.5-7B-Instruct (одна из самых сбалансированных на 2026 год).

# Запускаем сервер vLLM в фоновом режиме
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-7B-Instruct \
  --served-model-name qwen-7b \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.9 \
  --port 8000 &

# Проверяем, что сервер работает
curl http://localhost:8000/v1/models

Сервер запустится и начнет скачивать модель с Hugging Face. Это может занять 10-15 минут (модель весит ~15 GB). Убедитесь, что у вас достаточно места на диске. По умолчанию у инстанса 50-100 GB SSD, этого хватит.

Предупреждение: Не оставляйте сервер открытым на все интернет! По умолчанию vLLM слушает на 0.0.0.0:8000. Это значит, что любой может получить доступ к вашему AI. Настройте firewall (UFW) или используйте SSH-туннель для доступа. Или сразу настройте аутентификацию.

5 Тонкая настройка модели: как не сжечь кредиты впустую

Допустим, вы хотите дообучить модель под свои данные. Например, медицинские протоколы, как в статье "Хирургия для нейросетей". На A10G с 24 GB VRAM вы можете использовать QLoRA для моделей до 13B параметров.

Устанавливаем Axolotl — популярный инструмент для тонкой настройки.

# Клонируем репозиторий
cd ~
git clone https://github.com/OpenAccess-AI-Collective/axolotl
cd axolotl

# Устанавливаем зависимости
pip install -e .
pip install -U flash-attn --no-build-isolation  # Для Flash Attention

# Создаем конфиг для дообучения Llama 3.1 8B с QLoRA
# (пример конфига можно найти в документации Axolotl)

Обучение даже с QLoRA может занять часы. Ваша задача — минимизировать время работы инстанса. Подготовьте данные локально. Напишите скрипты заранее. Запускайте обучение, только когда все готово. И не забудьте настроить сохранение чекпоинтов в облачное хранилище (например, Digital Ocean Spaces), чтобы не потерять прогресс при остановке инстанса.

Как не убить $800 за неделю: контроль расходов

Самый важный раздел. Digital Ocean не предупредит вас, когда кредиты на исходе (только если вы настроили алерт). Вот ваши действия:

  1. Автоматическое выключение по расписанию. Используйте cron для остановки инстанса в нерабочее время.
  2. Мониторинг использования. Каждый день заходите в Billing -> Usage. Смотрите, сколько сожгли.
  3. Удаление неиспользуемых ресурсов. Диски, снапшоты, Load Balancers — все это стоит денег. Удаляйте.
  4. Используйте spot-инстансы? У Digital Ocean их нет. Но можно имитировать, создавая инстансы только когда нужны, и удаляя после работы.

Пример cron-задания для выключения инстанса в 22:00 и включения в 8:00 (если нужно работать только днем):

# Добавляем в crontab -e
0 22 * * * /usr/bin/curl -X POST -H "Content-Type: application/json" -H "Authorization: Bearer YOUR_DO_API_TOKEN" -d '{"type":"power_off"}' "https://api.digitalocean.com/v2/droplets/YOUR_DROPLET_ID/actions"
0 8 * * * /usr/bin/curl -X POST -H "Content-Type: application/json" -H "Authorization: Bearer YOUR_DO_API_TOKEN" -d '{"type":"power_on"}' "https://api.digitalocean.com/v2/droplets/YOUR_DROPLET_ID/actions"

Замените YOUR_DO_API_TOKEN и YOUR_DROPLET_ID. Токен создается в Digital Ocean в разделе API. Дайте ему только права на чтение и запись Droplets.

Что делать, когда кредиты кончатся

$800 — это примерно 700-750 часов работы A10G (месяц непрерывной работы) или 300 часов L40S. Хватит на несколько серьезных экспериментов. Но потом придется либо платить, либо искать альтернативы.

Варианты:

Главный вывод: $800 кредитов — это не для производства, а для обучения и экспериментов. Используйте их, чтобы понять, какие модели и задачи вам действительно нужны. Потом принимайте решение о дальнейших инвестициях.

Частые ошибки, которые съедят ваше время

  • Не проверили совместимость CUDA и PyTorch. Устанавливаете torch для CUDA 11.8, а у вас 12.5. Модель не видит GPU. Решение: всегда устанавливайте torch с указанием индекса, как показано выше.
  • Забыли про swap. Даже с 64 GB RAM, загрузка больших датасетов может исчерпать память. Добавьте swap-файл 32 GB.
  • Качаете модели каждый раз заново. Настройте кэш Hugging Face в постоянном томе. Или используйте предзагруженные образы Docker.
  • Не тестируете на маленьких данных. Запускаете обучение на 100k примеров, а через 5 часов понимаете, что конфиг кривой. Сначала запустите на 100 примерах, убедитесь, что loss падает.
💡
Если вам нужно обучать действительно большие модели (120B+), то даже L40S не спасет. В таком случае смотрите статью "Дешёвые GPU для тонкой настройки 120B моделей". Там тактика аренды нескольких инстансов и распределенного обучения.

И последний совет: не пытайтесь сделать все за один раз. Разбейте на этапы: день 1 — настройка инстанса и запуск инференса. День 2 — подготовка данных. День 3 — тонкая настройка. И так далее. Так вы не перегорите и не потратите кредиты впустую.

Удачи. И следите за счетом.