Когда язык встречает цифры: почему LLM в трейдинге - это боль
В 2026 году идея скормить языковой модели историю цен и получить прогноз звучит так же разумно, как попросить шеф-повара починить спутник. Но кванты из Hudson River Trading, Citadel и прочих мекк алготрейдинга упорно продолжают пытаться. Потому что если это сработает - счет пойдет на миллиарды. Но не срабатывает. Почти никогда.
Главный парадокс: LLM типа GPT-5.2 или Claude 4.5 гениальны в генерации кода и текста, но слепы в предсказании следующего тика. И дело не в мощности модели, а в фундаментальном несоответствии данных.
Фундаментальный разрыв: язык против временных рядов
Язык дискретен, структурирован и следует правилам грамматики. Цена - это непрерывный, зашумленный, нестационарный процесс с бесконечным контекстом. LLM обучены на токенах с четкими границами. Тик или свеча - это просто число в последовательности, где связи тоньше и коварнее.
Представьте, что вы пытаетесь предсказать следующее слово в романе Толстого. Контекст предыдущих 100 тысяч токенов помогает. А теперь попробуйте предсказать следующее значение в ряду случайных блужданий с дрейфом. Даже если это не совсем случайно, паттерны на три порядка сложнее.
1 Как кванты пытаются обойти проблему
Никто не использует сырые LLM из коробки. Рецепт выглядит так: берут архитектуру трансформера, выкидывают эмбеддинги слов, заменяют их на эмбеддинги числовых признаков, и дообучают на гигабайтах рыночных данных. Это называется "time-series transformer" или "авторегрессионная модель для финансов".
Но даже здесь есть подвох. В 2025 году исследователи из HRT опубликовали работу, где показали: модель, дообученная на 10 годах тиковых данных по фьючерсам, не превзошла простую линейную регрессию на тестовой выборке. Переобучение было тотальным.
| Подход | Суть | Почему часто проваливается |
|---|---|---|
| Чистый авторегрессионный LLM | Предсказание следующего значения по последовательности | Не улавливает структурные breaks, regime changes |
| Мультимодальные модели | Цена + новости + отчеты + соцсети | Шум преобладает над сигналом, latency убивает advantage |
| RL-агенты на LLM | Модель как агент, принимающий решения | Нестационарность среды, reward shaping - это искусство |
Самый перспективный путь - это не предсказание цены, а генерация торговых идей или risk-сигналов. LLM здесь выступают как аномали-детекторы. Например, модель ищет в потоке данных паттерны, которые человек не видит, но которые статистически значимы. Это ближе к тому, как кванты используют LLM для прогнозирования рынка.
2 Данные - главный камень преткновения
Вам нужно не просто OHLCV. Нужны данные о глубине рынка, сделках, отмененных ордерах, news feed, макростатистика, отчеты компаний, данные альтернативных спутников. И все это - с точностью до миллисекунды. Объем таких данных для одной ликвидной акции за год может достигать 10 ТБ.
А теперь вопрос: хватит ли вам 100 ГБ чистого текста из Википедии для обучения LLM? Нет. Так почему вы думаете, что 1 ТБ рыночных данных хватит для обучения финансового трансформера? Информационное содержание в числовых рядах на порядки ниже, чем в тексте. Вам нужны эксабайты.
Практический совет: не начинайте с тиковых данных. Возьмите минутные бары за 5 лет по нескольким сотням инструментов. Это даст вам управляемый датасет для первых экспериментов. Для серьезных же исследований многие обращаются к платформам вроде Databricks, которые позволяют обрабатывать петабайты финансовых временных рядов.
Пошаговый план для тех, кто все равно хочет попробовать
Если вы готовы потерять несколько месяцев жизни и тысячи долларов на GPU, вот маршрут. Без гарантий.
1 Соберите правильные данные
Забудьте про Yahoo Finance. Вам нужны хотя бы данные от платформы вроде QuantConnect или прямой доступ к биржевому фиду. Фокус на ликвидные инструменты (S&P 500 фьючерс, EUR/USD). Добавьте несколько макроиндикаторов (например, VIX, yields). Нормализуйте все до стандартного нормального распределения - это критично для стабильности обучения.
2 Выберите архитектуру
Не берите GPT-5.2. Возьмите открытую архитектуру, типа Llama 3.2 или Mistral 2.0, и модифицируйте эмбеддинг-слой для приема числовых векторов. Или используйте специализированные временные ряды трансформеры, как Temporal Fusion Transformer (TFT). Помните, что кастомные CUDA ядра могут ускорить обучение в разы, но овчинка стоит выделки только при масштабах.
3 Обучайте с умом
Разбейте данные на train/validation/test хронологически. Никакого случайного shuffling! Используйте early stopping по validation loss. Задача - предсказать не абсолютную цену, а log-return на следующем шаге. Это стабилизирует дисперсию. И да, вам понадобится как минимум 4xA100 на месяц.
4 Валидация - это святое
Тестируйте на out-of-sample периоде, который не затрагивал даже валидационный сет. Используйте не только MSE, но и финансовые метрики: Sharpe ratio, максимальная просадка, процент прибыльных сделок при простой пороговой стратегии. Если модель не бьет buy-and-hold на тесте - выбросьте ее и начните сначала.
Ошибки, которые совершают 99% новичков
- Предсказание цены вместо returns. Цена нестационарна, returns стационарны. Модель будет пытаться выучить тренд и сломается при его смене.
- Использование слишком короткого контекста. 512 шагов - это ничего для рынка. Нужны тысячи шагов, но тогда взрывается память. Решение - иерархические трансформеры или рекуррентные механизмы.
- Игнорирование costs и slippage. Даже если модель предсказывает движение правильно, transaction costs могут съесть всю прибыль. Симулируйте торговлю с реалистичными комиссиями.
- Вера в одну модель. Ни один хедж-фонд не использует одну модель. Это всегда ансамбль, где LLM может быть лишь одним из сотни сигналов. Как правильно строить такие ансамбли, смотрите в архитектуре автономного трейдинг-агента.
Самая опасная ошибка - это look-ahead bias при подготовке данных. Вы случайно используете информацию из будущего для нормализации или создания признаков. Результат - фантастическая backtest-производительность и полный провал в реальной торговле.
Что будет дальше? Неочевидный прогноз
К 2027 году LLM для чистого price prediction умрут. Их место займут hybrid architectures, сочетающие символический AI (для правил риск-менеджмента) и нейросети (для распознавания слабых паттернов). Уже сейчас видно движение в сторону World Models, которые пытаются смоделировать не просто ряд, а динамику всей рыночной экосистемы.
Но главный прорыв произойдет не в архитектурах, а в данных. Появятся стандартизированные датасеты финансовых временных рядов с мультимодальным контекстом - что-то вроде ImageNet для квантов. И тогда, возможно, мы увидим первый LLM, который стабильно обыгрывает рынок. Но это будет модель, обученная не на текстах, а на абстрактных паттернах, возможно, даже без явного представления о том, что такое "акция". Она будет мыслить категориями, недоступными человеку. И это уже начало происходить - читайте наш разбор Парето-фронта LLM в 2026, чтобы понять, куда движется поле.
А пока - не верьте хайпу. Трейдинг на LLM это не prompt engineering. Это адская работа с данными, бесконечная валидация и смирение перед рынком, который всегда умнее.