Конец? Это только начало
Снова и снова слышу одно и то же: «Мы достигли предела. Данные закончились. LLM уперлись в потолок». Особенно громко это звучало в 2024-2025 годах, когда казалось, что все тексты интернета уже скормили моделям. Эксперты строили графики, показывали пересекающиеся кривые и делали мрачные прогнозы.
А потом появился GPT-5. И Claude 4. И Qwen 3.5. И все они оказались лучше предыдущих версий. Что-то здесь не сходится.
Проблема в том, что мы смотрим на один график — объем текстовых данных в интернете — и забываем про пять других осей прогресса. Это как измерять скорость автомобиля только по размеру бензобака.
Ось первая: качество против количества
Раньше работало просто: больше текста — лучше модель. Собрали Common Crawl, почистили, обучили. Но к 2025 году стало ясно — этот ресурс действительно исчерпан. Не в смысле «текстов больше нет», а в смысле «новые тексты не добавляют нового знания».
Вот почему все перешли на специализированные датасеты. Возьмите медицинские LLM — они обучаются не на общем интернете, а на миллионах научных статей, клинических протоколов, историй болезней. Юридические модели (слепой тест показал это наглядно) требуют судебных решений, договоров, законодательных актов.
Ось вторая: синтетические данные — не копия, а улучшение
«Синтетика — это просто пережевывание того, что уже есть». Так говорили в 2024-м. А в 2026-м оказалось, что синтетические данные могут быть лучше реальных.
Возьмите задачу обучения математике. В интернете мало качественных объяснений сложных теорем. Но можно взять GPT-5, попросить ее генерировать тысячи вариантов доказательств, а потом отфильтровать лучшие через системы формальной верификации. Получается датасет, которого никогда не существовало, но который идеально подходит для обучения.
| Тип данных | Объем (2024) | Объем (2026 прогноз) | Качество |
|---|---|---|---|
| Интернет-тексты | ~20 трлн токенов | ~22 трлн токенов | Низкое/среднее |
| Специализированные датасеты | ~2 трлн токенов | ~8 трлн токенов | Высокое |
| Синтетические данные | ~0.5 трлн токенов | ~5 трлн токенов | Контролируемое |
Ось третья: мультимодальность — это не «картинка+текст»
Когда говорят «мультимодальность», обычно имеют в виду «модель понимает изображения». Скучно. Примитивно.
Настоящая мультимодальность — это когда модель работает с графиками финансовых инструментов (хотя здесь есть нюансы), с медицинскими снимками, с 3D-моделями, с видео операций, с данными сенсоров. Каждый тип данных требует своей архитектуры обработки, но все они обогащают языковую модель.
Квантовые трейдеры уже используют этот подход — они кормят моделям не только новости, но и сырые рыночные данные, графики ордеров, даже настроение в соцсетях (подробнее в нашем материале). И это работает лучше, чем чистый текст.
Ось четвертая: архитектура съедает данные
Transformer 2017 года — это как двигатель внутреннего сгорания. Работает, но КПД 20%. Новые архитектуры 2025-2026 годов (State Space Models, RWKV, Mamba) показывают, что можно извлекать больше знаний из тех же данных.
Простой пример: модель на 10 миллиардах параметров с новой архитектурой может превзойти модель на 100 миллиардах со старой. Это значит, что «данные закончились» только для старых архитектур. Для новых — их еще хватит на годы.
Scaling laws не отменены — они переписаны. Раньше рост производительности был линейно-логарифмическим относительно параметров. Теперь кривая стала круче благодаря архитектурным улучшениям.
Ось пятая: обучение на собственных ошибках
Самая недооцененная ось. Раньше модель обучали один раз и выпускали в продакшен. Теперь модели постоянно дообучаются на собственных ошибках.
Возьмите проблему interpretation drift — когда модель со временем начинает отвечать иначе. Раньше это считали багом. Теперь это фича. Системы автоматически собирают случаи, где модель ошиблась (или где человек поправил ответ), и используют их для дообучения.
Каждый день каждая крупная модель генерирует терабайты «мета-данных» о том, как она используется, где ошибается, что пользователи исправляют. Это золотая жила для улучшения.
Ось шестая: специализация против универсальности
Миф: нужна одна огромная модель для всего. Реальность 2026 года: экосистема специализированных моделей.
Есть модель для код-ревью (да, она убила классическое ревью). Есть модель для медицинской диагностики. Есть модель для финансового анализа. Каждая из них использует свои данные, свои методы обучения, свои архитектурные хитрости.
Универсальная модель теперь выступает как диспетчер — она определяет, какую специализированную модель вызвать для решения задачи. И сама при этом становится лучше, изучая, как специализированные модели решают проблемы.
!Главная ошибка экспертов
Эксперты смотрят на одну метрику — объем текстовых данных в интернете — и экстраполируют ее на все LLM. Это все равно что в 1900 году предсказывать конец транспорта, потому что лошади закончатся.
Данные не закончились. Они изменились. Стали качественнее, разнообразнее, специализированнее. И главное — мы научились их лучше использовать.
Что будет дальше? Прогноз на 2027-2028
1. Слияние осей. Синтетические данные станут мультимодальными. Модель будет генерировать не только текст, но и схемы, диаграммы, даже простые симуляции для обучения других моделей.
2. Персональные датасеты. Каждая компания будет строить свои модели на собственных данных — переписках, документах, процессах. Эти данные никогда не попадут в общий интернет, но их хватит для обучения мощных специализированных моделей.
3. Модели-учителя. Большие модели будут создавать учебные материалы для маленьких. GPT-6 будет генерировать датасеты для обучения моделей размером с GPT-3, но с качеством ответов как у GPT-5.
4. Кризис проверки. Когда все начнут генерировать синтетические данные для обучения, возникнет проблема валидации. Как отличить хорошие синтетические данные от плохих? Проблема симуляции реальности станет центральной.
Самый опасный тренд: модели начнут обучаться преимущественно на данных, сгенерированных другими моделями. Это может привести к «инбридингу» — постепенной деградации качества, как в закрытых популяциях.
Практический вывод для разработчиков
Перестаньте думать о данных как о ресурсе, который можно просто скачать из интернета. Данные — это продукт, который нужно проектировать, создавать и поддерживать.
- Собирайте не просто много данных, а релевантные данные для конкретной задачи
- Инвестируйте в создание синтетических данных — это окупится через качество модели
- Экспериментируйте с мультимодальностью, даже если ваша задача кажется чисто текстовой
- Не гонитесь за размером модели — часто маленькая, но хорошо обученная на качественных данных модель бьет большую и ленивую
Конец данных? Нет. Конец эпохи легких данных из интернета — да. Начинается эпоха инженерных данных, спроектированных под конкретные задачи. И это гораздо интереснее.
P.S. Если кто-то говорит вам, что прогресс LLM замедлился из-за нехватки данных — спросите его, какие из шести осей он учитывал в своем прогнозе. Скорее всего, только одну.