Сколько стоило обучение модели Dhi-5B?

Общая стоимость облачных вычислений составила $1200: $400 на pre-training, $150 на расширение контекста, $500 на vision training и $150 на инференс и тестирование.

На каком железе обучалась модель?

Pre-training: 8xA100 40GB (7 дней), context extension: 4xA100 40GB (3 дня), vision training: 8xA100 80GB (5 дней). Все на спотовых инстансах с системой checkpointing.

Какие ключевые компоненты архитектуры Dhi-5B?

SwiGLU MLPs (активационные функции), FlashAttention-3 (внимание), Muon optimizer (оптимизация градиентов), RoPE с xPos (позиционные эмбеддинги).

Для каких задач подходит Dhi-5B?

Образовательные платформы, анализ документов, код-ревью, мультимодальные приложения. Модель работает на одной RTX 4090 и окупается за 3 месяца по сравнению с API крупных провайдеров.

Где можно использовать модель Dhi-5B?

Веса модели открыты. Модель можно запускать локально на RTX 4090, дообучать на специфичных датасетах, интегрировать в веб-приложения. Подходит для стартапов с ограниченным бюджетом.

Dhi-5B: мультимодальная модель за $1200 - архитектура, обучение, кейс для стартапов

Студент против гигантов: $1200 против $100 миллионов

Представьте: один человек, студенческий бюджет, 1200 долларов на карте. С другой стороны - OpenAI с их миллиардами, Google с TPU-кластерами, Anthropic с венчурными раундами. Кажется, шансов нет. Но именно так родилась Dhi-5B - мультимодальная модель на 5 миллиардов параметров, которая понимает текст, изображения и код одновременно.

Это не теоретическая история. Модель работает, веса открыты, а код обучения доступен. И самое главное - любой стартап может повторить этот путь сегодня, 13 февраля 2026 года.

Архитектура: что внутри этой бюджетной машины

Dhi-5B не просто очередной трансформер. Это хитрая сборка из лучших компонентов 2025-2026 годов, которые работают вместе эффективнее, чем по отдельности.

Компонент	Что делает	Почему выбрали
SwiGLU MLPs	Активационные функции	На 30% эффективнее GELU при том же количестве параметров
FlashAttention-3	Внимание	Сокращает потребление памяти на 45% для длинных контекстов
Muon optimizer	Оптимизация градиентов	Сходится в 2 раза быстрее AdamW на мультимодальных данных
RoPE с xPos	Позиционные эмбеддинги	Лучше экстраполирует на длинные последовательности

Сравнивать с другими моделями - странное занятие. MiniCPM-o 4.5 почти в два раза больше, но не мультимодальная. Falcon-H1-Tiny в 50 раз меньше, но это совсем другой класс моделей.

Реальная конкуренция начинается с моделями в 2-3 раза дороже. Но студент выбрал другой путь: не гнаться за размерами, а оптимизировать каждую деталь.

Обучение: три этапа вместо одного

Большинство пытается обучать мультимодальные модели сразу на всем. Это как учиться ходить, бегать и плавать одновременно. Dhi-5B использует поэтапный подход, который оказался ключевым для бюджета.

1 Pre-training на FineWeb-Edu

Первые 2.5 миллиарда токенов - только текст. FineWeb-Edu, отфильтрованная версия FineWeb с акцентом на образовательный контент. Почему именно она? Потому что в 2026 году это один из немногих датасетов, где качество проверяется не только количеством.

"Текстовый фундамент должен быть идеальным," - объясняет создатель. "Если модель не понимает язык, зачем ей изображения?"

💡

FineWeb-Edu стал стандартом для бюджетного обучения в 2025-2026. Его используют даже в коммерческих проектах, потому что соотношение цена/качество лучше, чем у платных альтернатив.

2 Расширение контекста до 32K

После текстовой базы - обучение на длинных последовательностях. Не с нуля, а постепенное увеличение контекста от 4K до 32K токенов. Здесь пригодился RoPE с xPos - он экстраполирует лучше, чем обычные позиционные эмбеддинги.

Зачем 32K, если большинство задач используют 4-8K? "Потому что я хотел, чтобы модель понимала структурированные данные, документы, код. Короткий контекст для этого не подходит," - говорит автор.

3 Vision-модуль и мультимодальность

Самый дорогой этап. Обучение на парах изображение-текст из открытых датасетов. Здесь FlashAttention-3 показал себя во всей красе - без него обучение на изображениях с высоким разрешением съело бы весь бюджет.

Vision-модуль не просто прикручен к текстовой модели. Он интегрирован через кросс-внимание, которое обучалось совместно с основными весами. Результат - модель действительно понимает связь между визуальным и текстовым контентом, а не просто генерирует описания по шаблону.

Бюджет: где сэкономили, где потратили

1200 долларов - это не случайная цифра. Это точная сумма, которую студент потратил на облачные вычисления. Разберем по пунктам:

Pre-training: 400 долларов на 8xA100 40GB (7 дней)
Context extension: 150 долларов на 4xA100 40GB (3 дня)
Vision training: 500 долларов на 8xA100 80GB (5 дней)
Инференс и тестирование: 150 долларов на различных конфигурациях

Секрет экономии? Не в железе, а в коде. Кастомная реализация Muon optimizer, батчирование данных с учетом памяти, смешанная точность с динамическим скейлингом градиентов. Каждая мелочь экономила 5-10% времени, а в сумме - сотни долларов.

Важный момент: все вычисления делались на спотовых инстансах с прерыванием. Если бы использовались on-demand инстансы, стоимость выросла бы в 3-4 раза. Но студент написал систему checkpointing, которая выдерживала прерывания без потери прогресса.

Для кого эта модель на самом деле

Dhi-5B - не замена GPT-4o или Gemini Ultra. Она решает другие задачи.

Стартапы с ограниченным бюджетом: Представьте, что вы делаете образовательную платформу. Вам нужна модель, которая понимает учебники, диаграммы, математические формулы. Заказывать кастомную модель у больших компаний - от 50 тысяч долларов. Обучать свою с нуля - еще дороже. Dhi-5B дает 80% качества за 2% цены.

Исследовательские группы: Хотите экспериментировать с архитектурами, но нет бюджета на обучение с нуля? Берите Dhi-5B как базовую модель и дообучайте на своих данных. Fine-tuning займет часы, а не недели.

Энтузиасты: Модель работает на одной RTX 4090 в режиме инференса. С квантованием до 4 бит - даже на более слабых картах. Это не абстрактная "облачная" технология, а реальный инструмент, который можно запустить у себя.

Чего не хватает и что раздражает

Идеальных моделей не существует. Dhi-5B - не исключение.

Первое: английский доминирует. Несмотря на мультиязычность, лучшие результаты - на английском. Русский, китайский, испанский работают, но с заметным отставанием.

Второе: vision-модуль иногда "галлюцинирует" с деталями. Видит кошку на картинке, но может назвать ее породу неправильно. Для большинства задач это некритично, но для медицинских или технических применений - проблема.

Третье: документация написана как будто в последнюю ночь перед дедлайном. Приходится разбираться в коде, чтобы понять, как правильно использовать модель. Типичная студенческая болезнь - сделать крутую вещь, но забыть объяснить, как ей пользоваться.

Кейс для стартапа: образовательная платформа за месяц

Представьте стартап из трех человек. Бюджет - 5000 долларов. Задача - сделать платформу, которая помогает студентам с домашними заданиями: распознает рукописные решения, проверяет правильность, объясняет ошибки.

С Dhi-5B это выглядит так:

Берем базовую модель (бесплатно, веса открыты)
Дообучаем на датасете математических задач (200 долларов на облачных вычислениях)
Интегрируем в простой веб-интерфейс (неделя работы фронтенд-разработчика)
Запускаем бета-тестирование

Общие затраты: меньше 1000 долларов на модель плюс разработка. Альтернатива - платить по 0.01 доллара за запрос к API крупных компаний. При 1000 пользователей в день - 300 долларов в месяц. За год - 3600 долларов. Dhi-5B окупается за 3 месяца.

Именно поэтому сегодня можно делать AI-продукты почти бесплатно. Не нужны миллионы долларов инвестиций. Нужны знания, упорство и готовность работать с открытыми инструментами.

Что дальше? Будущее бюджетных моделей

Dhi-5B - не конечная точка. Это начало тренда, который ускоряется с каждым месяцем.

В 2026 году появляются новые оптимизаторы, более эффективные архитектуры, лучше датасеты. Модели в 600 миллионов параметров уже решают задачи, которые год назад требовали миллиардов.

Следующий шаг - специализированные модели для узких задач. Не универсальные монстры, а точные инструменты. Медицинская диагностика по снимкам. Анализ юридических документов. Проверка кода на безопасность.

И главное - эти модели будут создавать не корпорации, а небольшие команды. Иногда - один человек с ноутбуком и облачным кредитом. Диплом перестает быть обязательным, когда результаты говорят сами за себя.

Так что если вы думаете, что создание AI-моделей - удел гигантов с бесконечными бюджетами, посмотрите на Dhi-5B. 5 миллиардов параметров. Мультимодальность. 1200 долларов. И студент, который доказал, что главное - не деньги, а понимание, как каждая строчка кода влияет на итоговый результат.

Попробуйте повторить. У вас получится. Только не ждите идеальных условий - их не будет никогда. Начинайте с того, что есть. Обучайте на том, что доступно. Оптимизируйте каждый доллар. И через месяц у вас будет своя модель, которая решает ваши задачи, а не абстрактные бенчмарки.

Как студент создал мультимодальную модель Dhi-5B за $1200: архитектура, обучение с нуля и кейс для стартапов