Доллар за долларом, мегаватт за мегаваттом — обучение больших языковых моделей (LLM) превратилось в один из самых энергоемких процессов в IT. Счета за электричество для кластеров на тысячах GPU уже превышают зарплаты инженеров. И вот появляется техника, которая обещает срезать до 14% энергопотребления без единой секунды задержки. Звучит как сказка? Исследователи из MIT и NVIDIA утверждают, что это реальность. Имя ей — DVFS.
Старый трюк на новой сцене
DVFS (Dynamic Voltage and Frequency Scaling) — не какая-то магия. Это стандартный механизм энергосбережения в CPU и GPU, который десятилетиями используется в ноутбуках и телефонах. Идея проста: когда чипу не нужно работать на максимуме, снижаем напряжение и частоту, экономя энергию квадратично. Но в мире обучения LLM к этому относились с опаской: а вдруг скорость упадет? Ведь каждая секунда простоя кластера из 4096 H200 стоит бешеных денег.
Ключевой инсайт нового исследования: во время обучения GPU далеко не всегда загружен на 100%. Есть фазы передачи данных, синхронизации градиентов, ожидания. Именно в эти промежутки DVFS срезает энергопотребление, не трогая пиковые вычислительные моменты.
Как они это проверили?
Команда взяла флагманские модели — Llama 3 (65B) и внутреннюю версию GPT-4 (порядка 1.8 трлн параметров, не спрашивайте детали) — и запустила обучение на кластере из 512 NVIDIA H200 с поддержкой программного управления частотами. Они применили динамическое профилирование: в реальном времени определяли, когда GPU можно безопасно снизить частоту, а когда нужно выжать максимум. Результат: на предобучении Llama 3 — 13.7% экономии энергии, на fine-tuning — 11.2%. Скорость — ни одной потерянной итерации. Ни одного процента падения throughput.
Сравните с другими методами. Нейроморфные чипы для LLM обещают 100-кратную экономию, но до серийного производства как до луны пешком. Tuneable Attention ускоряет сходимость, но требует переписывания архитектуры. А DVFS — это софтверная надстройка, которую можно накрутить поверх любого фреймворка: PyTorch, JAX, TensorFlow.
Подводные камни, о которых молчат в пресс-релизах
Звучит логично, но есть нюанс. Не все GPU одинаково дружат с DVFS. На старых V100 и A100 управление частотами было грубым — шаг в 100 МГц, что вызывало скачки напряжения и нестабильность. На H200 и свежих AMD MI400 появилось тонкое регулирование с шагом в 10 МГц и программный интерфейс (NVML, ROCm SMI). Авторы тестировали именно на H200 — и предупреждают: на предыдущих поколениях экономия может быть ниже (5-8%), а риск сбоев — выше.
Что дальше? Симбиоз техник
Один DVFS проблему энергопотребления не решит. Но в комбинации с другими подходами — например, bare-metal запуском, который убирает оверхед ОС, или аппаратным охлаждением из сборки компактного DGX-кластера — можно выжать 25-30% экономии. Уже сейчас исследователи открыли код библиотеки dvfs-train (на GitHub), которая интегрируется с PyTorch в три строки. В релизе от 8 июня 2026 — поддержка AMD MI400 и Intel Gaudi 3.
Лично меня бесит, что датацентры до сих пор не используют DVFS системно. Инженеры годами настраивают frequency scaling для CPU в облаке, но для GPU — религия «всегда макс». Пора ломать стереотипы. Как вам идея: сделать DVFS стандартным пунктом в чек-листе перед запуском обучения? Поставьте себе напоминание — сэкономите не только деньги, но и планету.