Студент против гигантов: $1200 против $100 миллионов
Представьте: один человек, студенческий бюджет, 1200 долларов на карте. С другой стороны - OpenAI с их миллиардами, Google с TPU-кластерами, Anthropic с венчурными раундами. Кажется, шансов нет. Но именно так родилась Dhi-5B - мультимодальная модель на 5 миллиардов параметров, которая понимает текст, изображения и код одновременно.
Это не теоретическая история. Модель работает, веса открыты, а код обучения доступен. И самое главное - любой стартап может повторить этот путь сегодня, 13 февраля 2026 года.
Архитектура: что внутри этой бюджетной машины
Dhi-5B не просто очередной трансформер. Это хитрая сборка из лучших компонентов 2025-2026 годов, которые работают вместе эффективнее, чем по отдельности.
| Компонент | Что делает | Почему выбрали |
|---|---|---|
| SwiGLU MLPs | Активационные функции | На 30% эффективнее GELU при том же количестве параметров |
| FlashAttention-3 | Внимание | Сокращает потребление памяти на 45% для длинных контекстов |
| Muon optimizer | Оптимизация градиентов | Сходится в 2 раза быстрее AdamW на мультимодальных данных |
| RoPE с xPos | Позиционные эмбеддинги | Лучше экстраполирует на длинные последовательности |
Сравнивать с другими моделями - странное занятие. MiniCPM-o 4.5 почти в два раза больше, но не мультимодальная. Falcon-H1-Tiny в 50 раз меньше, но это совсем другой класс моделей.
Реальная конкуренция начинается с моделями в 2-3 раза дороже. Но студент выбрал другой путь: не гнаться за размерами, а оптимизировать каждую деталь.
Обучение: три этапа вместо одного
Большинство пытается обучать мультимодальные модели сразу на всем. Это как учиться ходить, бегать и плавать одновременно. Dhi-5B использует поэтапный подход, который оказался ключевым для бюджета.
1 Pre-training на FineWeb-Edu
Первые 2.5 миллиарда токенов - только текст. FineWeb-Edu, отфильтрованная версия FineWeb с акцентом на образовательный контент. Почему именно она? Потому что в 2026 году это один из немногих датасетов, где качество проверяется не только количеством.
"Текстовый фундамент должен быть идеальным," - объясняет создатель. "Если модель не понимает язык, зачем ей изображения?"
2 Расширение контекста до 32K
После текстовой базы - обучение на длинных последовательностях. Не с нуля, а постепенное увеличение контекста от 4K до 32K токенов. Здесь пригодился RoPE с xPos - он экстраполирует лучше, чем обычные позиционные эмбеддинги.
Зачем 32K, если большинство задач используют 4-8K? "Потому что я хотел, чтобы модель понимала структурированные данные, документы, код. Короткий контекст для этого не подходит," - говорит автор.
3 Vision-модуль и мультимодальность
Самый дорогой этап. Обучение на парах изображение-текст из открытых датасетов. Здесь FlashAttention-3 показал себя во всей красе - без него обучение на изображениях с высоким разрешением съело бы весь бюджет.
Vision-модуль не просто прикручен к текстовой модели. Он интегрирован через кросс-внимание, которое обучалось совместно с основными весами. Результат - модель действительно понимает связь между визуальным и текстовым контентом, а не просто генерирует описания по шаблону.
Бюджет: где сэкономили, где потратили
1200 долларов - это не случайная цифра. Это точная сумма, которую студент потратил на облачные вычисления. Разберем по пунктам:
- Pre-training: 400 долларов на 8xA100 40GB (7 дней)
- Context extension: 150 долларов на 4xA100 40GB (3 дня)
- Vision training: 500 долларов на 8xA100 80GB (5 дней)
- Инференс и тестирование: 150 долларов на различных конфигурациях
Секрет экономии? Не в железе, а в коде. Кастомная реализация Muon optimizer, батчирование данных с учетом памяти, смешанная точность с динамическим скейлингом градиентов. Каждая мелочь экономила 5-10% времени, а в сумме - сотни долларов.
Важный момент: все вычисления делались на спотовых инстансах с прерыванием. Если бы использовались on-demand инстансы, стоимость выросла бы в 3-4 раза. Но студент написал систему checkpointing, которая выдерживала прерывания без потери прогресса.
Для кого эта модель на самом деле
Dhi-5B - не замена GPT-4o или Gemini Ultra. Она решает другие задачи.
Стартапы с ограниченным бюджетом: Представьте, что вы делаете образовательную платформу. Вам нужна модель, которая понимает учебники, диаграммы, математические формулы. Заказывать кастомную модель у больших компаний - от 50 тысяч долларов. Обучать свою с нуля - еще дороже. Dhi-5B дает 80% качества за 2% цены.
Исследовательские группы: Хотите экспериментировать с архитектурами, но нет бюджета на обучение с нуля? Берите Dhi-5B как базовую модель и дообучайте на своих данных. Fine-tuning займет часы, а не недели.
Энтузиасты: Модель работает на одной RTX 4090 в режиме инференса. С квантованием до 4 бит - даже на более слабых картах. Это не абстрактная "облачная" технология, а реальный инструмент, который можно запустить у себя.
Чего не хватает и что раздражает
Идеальных моделей не существует. Dhi-5B - не исключение.
Первое: английский доминирует. Несмотря на мультиязычность, лучшие результаты - на английском. Русский, китайский, испанский работают, но с заметным отставанием.
Второе: vision-модуль иногда "галлюцинирует" с деталями. Видит кошку на картинке, но может назвать ее породу неправильно. Для большинства задач это некритично, но для медицинских или технических применений - проблема.
Третье: документация написана как будто в последнюю ночь перед дедлайном. Приходится разбираться в коде, чтобы понять, как правильно использовать модель. Типичная студенческая болезнь - сделать крутую вещь, но забыть объяснить, как ей пользоваться.
Кейс для стартапа: образовательная платформа за месяц
Представьте стартап из трех человек. Бюджет - 5000 долларов. Задача - сделать платформу, которая помогает студентам с домашними заданиями: распознает рукописные решения, проверяет правильность, объясняет ошибки.
С Dhi-5B это выглядит так:
- Берем базовую модель (бесплатно, веса открыты)
- Дообучаем на датасете математических задач (200 долларов на облачных вычислениях)
- Интегрируем в простой веб-интерфейс (неделя работы фронтенд-разработчика)
- Запускаем бета-тестирование
Общие затраты: меньше 1000 долларов на модель плюс разработка. Альтернатива - платить по 0.01 доллара за запрос к API крупных компаний. При 1000 пользователей в день - 300 долларов в месяц. За год - 3600 долларов. Dhi-5B окупается за 3 месяца.
Именно поэтому сегодня можно делать AI-продукты почти бесплатно. Не нужны миллионы долларов инвестиций. Нужны знания, упорство и готовность работать с открытыми инструментами.
Что дальше? Будущее бюджетных моделей
Dhi-5B - не конечная точка. Это начало тренда, который ускоряется с каждым месяцем.
В 2026 году появляются новые оптимизаторы, более эффективные архитектуры, лучше датасеты. Модели в 600 миллионов параметров уже решают задачи, которые год назад требовали миллиардов.
Следующий шаг - специализированные модели для узких задач. Не универсальные монстры, а точные инструменты. Медицинская диагностика по снимкам. Анализ юридических документов. Проверка кода на безопасность.
И главное - эти модели будут создавать не корпорации, а небольшие команды. Иногда - один человек с ноутбуком и облачным кредитом. Диплом перестает быть обязательным, когда результаты говорят сами за себя.
Так что если вы думаете, что создание AI-моделей - удел гигантов с бесконечными бюджетами, посмотрите на Dhi-5B. 5 миллиардов параметров. Мультимодальность. 1200 долларов. И студент, который доказал, что главное - не деньги, а понимание, как каждая строчка кода влияет на итоговый результат.
Попробуйте повторить. У вас получится. Только не ждите идеальных условий - их не будет никогда. Начинайте с того, что есть. Обучайте на том, что доступно. Оптимизируйте каждый доллар. И через месяц у вас будет своя модель, которая решает ваши задачи, а не абстрактные бенчмарки.