От миллиардов к триллионам: новая гонка масштабов
Если в 2020 году модель GPT-3 с 175 миллиардами параметров казалась монстром, то сегодня это лишь средний игрок. Современные флагманы вроде GPT-4, Claude 3 и Gemini Ultra уже оперируют параметрами, измеряемыми, по разным оценкам, в диапазоне от одного до нескольких триллионов. Но это только начало. Лаборатории OpenAI, Google DeepMind, Anthropic и Meta уже работают над следующими поколениями, где счёт пойдёт на десятки и сотни триллионов. Что движет этой гонкой и есть ли у неё предел?
Параметр в контексте нейросетей — это настраиваемый вес связи между нейронами. Чем их больше, тем больше информации и сложных паттернов может хранить и обрабатывать модель. Триллион — это 1 000 000 000 000 (тысяча миллиардов).
Зачем нужны такие гиганты? Аргументы «за»
Увеличение масштаба — не самоцель, а проверенный путь к новым возможностям. Закон масштабирования (Scaling Laws), эмпирически открытый исследователями, показывает, что производительность модели предсказуемо растёт с увеличением трёх факторов: размера модели, объёма обучающих данных и вычислительных ресурсов для обучения.
- Эмерджентные способности: Многие сложные навыки, такие как рассуждение, планирование или решение многоэтапных задач, проявляются только после достижения определённого масштаба. Модель на триллионах параметров может демонстрировать качественно иное, более глубокое понимание.
- Универсальность и глубина знаний: Чтобы стать истинным ассистентом в науке, медицине или инженерии, ИИ должен обладать энциклопедическими знаниями и уметь их связывать. Как показала хронология AI-революции от Google, компании делают ставку на создание моделей-универсалов.
- Снижение галлюцинаций и повышение точности: Большая модель может хранить более точные и непротиворечивые факты, уменьшая склонность к выдумыванию информации.
Архитектурный прорыв: Mixture of Experts (MoE)
Прямое масштабирование плотной (dense) нейросети до триллионов параметров экономически и технически невозможно: стоимость обучения и инференса взлетела бы до астрономических величин. Ключом к будущему стала архитектура Mixture of Experts (MoE) — «смесь экспертов».
Вместо одной гигантской сети, где все нейроны активны для каждого запроса, MoE-модель состоит из множества подсетей-«экспертов», каждый из которых специализируется на определённом типе данных или задач. На каждый входной запрос (токен) специальный маршрутизатор (router) активирует только 2-4 наиболее релевантных эксперта. Таким образом, общее число параметров может быть колоссальным (триллионы), но вычислительные затраты на обработку одного запроса остаются сравнимыми с гораздо меньшей плотной моделью.
| Архитектура | Общие параметры | Активные параметры на запрос | Пример |
|---|---|---|---|
| Плотная (Dense) | 100 млрд | 100 млрд (все) | GPT-3, LLaMA 2 |
| MoE (Смесь экспертов) | 1.5 трлн | ~20 млрд (только избранные эксперты) | GPT-4, Mixtral 8x22B, Grok-1 |
1 Как работает маршрутизатор в MoE
Маршрутизатор — это небольшая нейросеть, которая анализирует входные данные и решает, каким экспертам их передать. Обучение маршрутизатора — одна из самых сложных задач, так как необходимо сбалансировать нагрузку между экспертами и избежать ситуации, когда один эксперт становится «любимчиком».
# Упрощённая иллюстрация логики маршрутизатора в MoE
import torch
import torch.nn.functional as F
# Допустим, у нас есть 8 экспертов и эмбеддинг входного токена
input_embedding = torch.randn(1, 1024) # [batch_size, hidden_size]
router_weights = torch.nn.Linear(1024, 8) # Матрица маршрутизатора
# Получаем логиты для каждого эксперта
logits = router_weights(input_embedding) # [1, 8]
# Выбираем топ-2 эксперта для активации
top_k_values, top_k_indices = torch.topk(logits, k=2, dim=-1)
# Применяем softmax только к выбранным логитам
top_k_probs = F.softmax(top_k_values, dim=-1)
# Далее: передаём взвешенную сумму входных данных выбранным экспертам
# и суммируем их взвешенные выходы.
Когда ждать модели на десятки триллионов параметров?
Прогнозы экспертов сходятся в следующем:
- 2025-2026 годы: Появление первых публично анонсированных моделей с параметрами в диапазоне 10-30 триллионов. Вероятно, это будут закрытые системы от лидеров рынка, используемые через API.
- 2027-2030 годы: Модели на 100+ триллионов параметров могут стать исследовательским инструментом для крупнейших корпораций и государств. Их обучение потребует новых прорывов в эффективности алгоритмов и энергоснабжении дата-центров.
- После 2030 года: Выход на уровень квадриллионов (10^15) параметров будет зависеть от фундаментальных открытий, возможно, связанных с нейроморфными вычислениями или гибридными архитектурами.
Важно: Количество параметров — не единственный показатель «интеллекта». Архитектурные инновации (как в случае с гипотезой Римана и иерархией признаков), качество данных и алгоритмы обучения играют не меньшую, а иногда и большую роль.
Теоретические и практические пределы
Бесконечное масштабирование невозможно. Уже сейчас исследователи обсуждают несколько видов пределов:
- Экономический: Стоимость обучения модели растёт быстрее, чем её производительность. Точка окупаемости может быть достигнута раньше, чем физические пределы.
- Энергетический: Датчики ИИ уже потребляют значительную долю энергии некоторых стран. Обучение триллионных моделей требует переосмысления энергоэффективности.
- Данные: Высококачественные текстовые данные интернета могут быть исчерпаны для обучения уже в этом десятилетии. Потребуются синтетические данные или новые парадигмы обучения.
- Архитектурный: Даже MoE имеет свои ограничения по координации тысяч экспертов. Проблема дисбаланса и «мёртвых» экспертов усугубляется с ростом масштаба.
Вывод: не только больше, но и умнее
Движение к триллионам параметров — это неизбежный этап эволюции ИИ, движимый поиском более способных и надёжных систем. Однако будущее, вероятно, будет определяться не только грубым масштабом, но и качественными скачками в архитектуре, подобными переходу к MoE. Исследования в области нейробиологии, как в проектах, где ИИ стал мостом между человеком и машиной, и этики, изучающей тёмные паттерны поведения ИИ, будут столь же важны, как и инженерные достижения. Модели-гиганты станут фундаментом, но истинная ценность будет создаваться на их основе — в приложениях, которые изменят науку, творчество и повседневную жизнь.