Облачный ML - это не только Jupyter ноутбуки
В 2026 году разговор о машинном обучении в облаке вышел далеко за рамки выбора между SageMaker Studio и Azure ML Studio. Речь идет об архитектуре, которая либо масштабируется вместе с вами, либо ломается при первой же попытке запустить распределенное обучение модели на 500 GPU. Проблема в том, что обе платформы - AWS SageMaker и Azure ML - на словах делают одно и то же, но под капотом у них абсолютно разная философия управления доступом, данными и вычислениями.
Выбор между ними - это выбор стека на годы вперед. Ошибетесь - будете месяцами бороться с пермишенами, лимитами и несовместимостью инструментов. Сделаете правильно - получите конвейер, который из коробки масштабируется от эксперимента до продакшена.
Забудьте про сравнение по ценам на инстансы. Реальная стоимость владения определяется тем, сколько времени ваши инженеры тратят на настройку инфраструктуры, а не на обучение моделей.
Управление доступом: IAM против Managed Identities
Здесь начинается самое интересное. AWS подходит к безопасности с позиции тотального контроля, Azure - с позиции управляемой простоты.
1 AWS IAM: мощно, но сложно
В SageMaker все вращается вокруг IAM ролей. Каждый training job, каждый endpoint, каждый processing job должен иметь свою роль с точно настроенными политиками. Это дает невероятную гибкость, но становится кошмаром для новичков.
Типичная ошибка: создать одну роль на все случаи жизни с разрешением *:* на S3. Звучит логично? А потом ваш training job случайно удаляет все данные из бакета. Вместо этого нужно использовать fine-grained политики, которые разрешают только чтение из конкретных префиксов и запись в другие.
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:ListBucket"
],
"Resource": [
"arn:aws:s3:::my-ml-data-bucket/training/*",
"arn:aws:s3:::my-ml-data-bucket"
]
}
]
}Новый тренд 2026 года - использование S3-шаблонов вместо Service Catalog для управления ML pipelines. Это уменьшает зависимость от сложных IAM политик для развертывания.
2 Azure Managed Identities: просто, но менее гибко
Azure пошел другим путем. Вместо IAM ролей у вас есть Managed Identities - сущности, которые автоматически управляются Azure. Вы назначаете identity вашему workspace, и он получает доступ к ресурсам через Azure RBAC.
Плюс: настройка занимает минуты. Минус: если вам нужен сложный сценарий (например, доступ к конкретному файлу в хранилище, но не ко всем), придется использовать SAS-токены или работать на уровне файловой системы.
Данные: S3 против Blob Storage
Где живут ваши данные? Как они попадают в training job? Ответы на эти вопросы определяют половину успеха.
| Аспект | AWS SageMaker | Azure ML |
|---|---|---|
| Основное хранилище | S3 (объектное) | Azure Blob Storage (объектное) |
| Интеграция с тренировкой | S3DataSource в TrainingJob | Datastores, Dataset объектов |
| Производительность | S3 Express One Zone для низкой задержки | Premium Block Blob с высоким IOPS |
| Стоимость за 1 ТБ/мес | ~$23 (стандартный S3) | ~$20 (Hot Tier) |
SageMaker глубоко интегрирован с S3. Когда вы создаете Training Job, вы указываете S3 пути для входных данных и выходных артефактов. Данные автоматически загружаются в контейнер перед началом обучения. Проблема в том, что при работе с огромными датасетами (100+ ТБ) эта загрузка может занимать часы.
Решение - использовать оптимизированные форматы данных или FSx for Lustre, который кэширует данные S3 на высокопроизводительной файловой системе.
Azure ML предлагает более абстрактный подход через Datastores и Datasets. Вы регистрируете хранилище как Datastore, затем создаете Dataset, который может быть файловым или табличным. Плюс в версионировании данных и отслеживании lineage. Минус - дополнительный слой абстракции, который иногда мешает.
Вычисления: Training Jobs против Compute Clusters
Здесь разница наиболее заметна. AWS мыслит job-ами, Azure - compute targets.
3 SageMaker Training Jobs: изолированные и одноразовые
Каждое обучение модели в SageMaker - это отдельный job, который запускается в своем кластере контейнеров. Job завершается - кластер уничтожается. Это идеально для воспроизводимости, но неэффективно для итеративной разработки.
Новые фичи 2026 года: SageMaker теперь поддерживает GRPO и другие продвинутые методы RLHF из коробки, что ускоряет тонкую настройку LLM.
Для выбора инстансов помните: память важнее скорости для большинства задач. p4d.24xlarge с 8x A100 и 320 ГБ памяти часто лучше, чем p5.48xlarge с более новыми чипами, но меньшим объемом памяти на GPU.
4 Azure ML Compute: постоянные кластеры
В Azure вы создаете compute cluster (например, GPU кластер) и используете его для множества экспериментов. Кластер масштабируется от 0 до N нод, что экономит деньги. Но есть нюанс: если один job падает с ошибкой CUDA, он может оставить кластер в нестабильном состоянии, влияя на следующие jobs.
Azure ML Compute Operator для Kubernetes - это мощный инструмент, который позволяет запускать training jobs в вашем AKS кластере. Но подготовка нод с правильными драйверами NVIDIA, CUDA и библиотеками - это отдельный квест.
Не используйте автоматическое масштабирование от 0 для GPU кластеров. Запуск ноды с GPU занимает 5-10 минут, что убивает всю идею быстрой итерации. Держите хотя бы одну ноду всегда активной.
Интеграции: экосистема имеет значение
SageMaker - часть огромной экосистемы AWS. Хотите использовать Bedrock модели для synthetic data generation? Легко. Нужен векторный поиск в Kendra для RAG? Есть интеграция.
Но самая сильная сторона SageMaker в 2026 - это глубокая интеграция с Hugging Face. Вы можете запускать training jobs с Hugging Face estimators, используя оптимизированные контейнеры, которые на 30-40% быстрее стандартных.
Azure ML тесно интегрирован со всем Microsoft stack. Если вы используете Power BI для анализа результатов, Azure Synapse для обработки данных, и Teams для collaboration - Azure ML будет естественным выбором. Также есть прямые интеграции с Azure OpenAI Service для доступа к GPT-4o, Claude 3.5 Sonnet и другим моделям.
Для стартапов и хакатонов интересен подход AWS AI League с SageMaker JumpStart, где можно быстро начать с предобученных моделей.
Стоимость: считаем не только инстансы
Все смотрят на цену за час GPU инстанса. Но реальные расходы скрываются в:
- Хранение данных в S3/Blob Storage
- Трафик между сервисами (например, из S3 в SageMaker)
- Логирование и мониторинг (CloudWatch vs Azure Monitor)
- Резервные копии моделей и данных
- Стоимость endpoint-ов для инференса 24/7
Вот пример для обучения модели Llama 3 70B на 8x A100 в течение 24 часов:
| Статья расходов | AWS SageMaker | Azure ML |
|---|---|---|
| Инстансы (p4d.24xlarge / NC96ads A100 v4) | ~$73/час × 24 = $1,752 | ~$68/час × 24 = $1,632 |
| Данные (загрузка 5 ТБ из S3/Blob) | ~$0.05/ГБ × 5000 = $250 | ~$0.04/ГБ × 5000 = $200 |
| Артефакты (хранение моделей 500 ГБ) | ~$11.50/мес | ~$10/мес |
| Итого за один run | ~$2,013.50 | ~$1,842 |
Azure выглядит дешевле, но учтите: в SageMaker цена часто включает managed Kubernetes кластер (EKS) для распределенного обучения, а в Azure за AKS нужно платить отдельно.
Ошибки, которые все совершают
- Не тестируют лимиты заранее. В AWS по умолчанию лимит на p4d инстансы - 0. Нужно открывать тикет за неделю до начала обучения. В Azure квоты на GPU тоже ограничены.
- Забывают про cooling-off период. После завершения training job SageMaker не сразу удаляет инстансы, а ждет 5-10 минут для возможного debug. Это время тоже тарифицируется.
- Используют стандартные контейнеры для custom алгоритмов. Гораздо эффективнее построить свой Docker image с нужными версиями CUDA, cuDNN и библиотек.
- Не настраивают мониторинг памяти GPU. OOM ошибка может возникнуть через 20 часов обучения, потеряв все результаты. Используйте CloudWatch или Azure Monitor для отслеживания потребления памяти.
История единого AI-стека в VK показывает: стандартизация инструментов важнее, чем выбор самой передовой платформы.
Что выбрать в 2026: неочевидный совет
Если вы уже глубоко в одной экосистеме - оставайтесь там. Миграция с SageMaker на Azure ML (или наоборот) займет месяцы и будет стоить дороже, чем потенциальная экономия.
Если начинаете с нуля: смотрите не на платформу, а на доступность GPU. В 2026 году дефицит H100 и Blackwell все еще существует. Проверьте, в каком регионе у вас есть гарантированный доступ к нужным инстансам.
Для исследовательских проектов, где важна скорость итерации, рассмотрите альтернативы вроде Railway, которые предлагают более простой интерфейс за чуть большую цену.
И последнее: не зацикливайтесь на инфраструктуре. Лучше потратить время на качество данных и оценку моделей, чем на оптимизацию стоимости вычислений на 5%.
Через два года обе платформы изменятся до неузнаваемости. Но принципы останутся: изоляция окружений, воспроизводимость экспериментов и гранулярный контроль доступа к данным. Настройте эти процессы правильно сейчас - и любая платформа будет работать на вас.