Когда язык встречает цифры: почему LLM в трейдинге - это боль

В 2026 году идея скормить языковой модели историю цен и получить прогноз звучит так же разумно, как попросить шеф-повара починить спутник. Но кванты из Hudson River Trading, Citadel и прочих мекк алготрейдинга упорно продолжают пытаться. Потому что если это сработает - счет пойдет на миллиарды. Но не срабатывает. Почти никогда.

Главный парадокс: LLM типа GPT-5.2 или Claude 4.5 гениальны в генерации кода и текста, но слепы в предсказании следующего тика. И дело не в мощности модели, а в фундаментальном несоответствии данных.

Фундаментальный разрыв: язык против временных рядов

Язык дискретен, структурирован и следует правилам грамматики. Цена - это непрерывный, зашумленный, нестационарный процесс с бесконечным контекстом. LLM обучены на токенах с четкими границами. Тик или свеча - это просто число в последовательности, где связи тоньше и коварнее.

Представьте, что вы пытаетесь предсказать следующее слово в романе Толстого. Контекст предыдущих 100 тысяч токенов помогает. А теперь попробуйте предсказать следующее значение в ряду случайных блужданий с дрейфом. Даже если это не совсем случайно, паттерны на три порядка сложнее.

💡

Именно об этой проблеме - преобразования графика в текст - мы детально писали в статье "LLM для трейдинга: как превратить график в текст и почему это не работает (почти)". Там разобраны все тупиковые подходы.

1 Как кванты пытаются обойти проблему

Никто не использует сырые LLM из коробки. Рецепт выглядит так: берут архитектуру трансформера, выкидывают эмбеддинги слов, заменяют их на эмбеддинги числовых признаков, и дообучают на гигабайтах рыночных данных. Это называется "time-series transformer" или "авторегрессионная модель для финансов".

Но даже здесь есть подвох. В 2025 году исследователи из HRT опубликовали работу, где показали: модель, дообученная на 10 годах тиковых данных по фьючерсам, не превзошла простую линейную регрессию на тестовой выборке. Переобучение было тотальным.

Подход	Суть	Почему часто проваливается
Чистый авторегрессионный LLM	Предсказание следующего значения по последовательности	Не улавливает структурные breaks, regime changes
Мультимодальные модели	Цена + новости + отчеты + соцсети	Шум преобладает над сигналом, latency убивает advantage
RL-агенты на LLM	Модель как агент, принимающий решения	Нестационарность среды, reward shaping - это искусство

Самый перспективный путь - это не предсказание цены, а генерация торговых идей или risk-сигналов. LLM здесь выступают как аномали-детекторы. Например, модель ищет в потоке данных паттерны, которые человек не видит, но которые статистически значимы. Это ближе к тому, как кванты используют LLM для прогнозирования рынка.

2 Данные - главный камень преткновения

Вам нужно не просто OHLCV. Нужны данные о глубине рынка, сделках, отмененных ордерах, news feed, макростатистика, отчеты компаний, данные альтернативных спутников. И все это - с точностью до миллисекунды. Объем таких данных для одной ликвидной акции за год может достигать 10 ТБ.

А теперь вопрос: хватит ли вам 100 ГБ чистого текста из Википедии для обучения LLM? Нет. Так почему вы думаете, что 1 ТБ рыночных данных хватит для обучения финансового трансформера? Информационное содержание в числовых рядах на порядки ниже, чем в тексте. Вам нужны эксабайты.

Практический совет: не начинайте с тиковых данных. Возьмите минутные бары за 5 лет по нескольким сотням инструментов. Это даст вам управляемый датасет для первых экспериментов. Для серьезных же исследований многие обращаются к платформам вроде Databricks, которые позволяют обрабатывать петабайты финансовых временных рядов.

Пошаговый план для тех, кто все равно хочет попробовать

Если вы готовы потерять несколько месяцев жизни и тысячи долларов на GPU, вот маршрут. Без гарантий.

1 Соберите правильные данные

Забудьте про Yahoo Finance. Вам нужны хотя бы данные от платформы вроде QuantConnect или прямой доступ к биржевому фиду. Фокус на ликвидные инструменты (S&P 500 фьючерс, EUR/USD). Добавьте несколько макроиндикаторов (например, VIX, yields). Нормализуйте все до стандартного нормального распределения - это критично для стабильности обучения.

2 Выберите архитектуру

Не берите GPT-5.2. Возьмите открытую архитектуру, типа Llama 3.2 или Mistral 2.0, и модифицируйте эмбеддинг-слой для приема числовых векторов. Или используйте специализированные временные ряды трансформеры, как Temporal Fusion Transformer (TFT). Помните, что кастомные CUDA ядра могут ускорить обучение в разы, но овчинка стоит выделки только при масштабах.

3 Обучайте с умом

Разбейте данные на train/validation/test хронологически. Никакого случайного shuffling! Используйте early stopping по validation loss. Задача - предсказать не абсолютную цену, а log-return на следующем шаге. Это стабилизирует дисперсию. И да, вам понадобится как минимум 4xA100 на месяц.

4 Валидация - это святое

Тестируйте на out-of-sample периоде, который не затрагивал даже валидационный сет. Используйте не только MSE, но и финансовые метрики: Sharpe ratio, максимальная просадка, процент прибыльных сделок при простой пороговой стратегии. Если модель не бьет buy-and-hold на тесте - выбросьте ее и начните сначала.

Ошибки, которые совершают 99% новичков

Предсказание цены вместо returns. Цена нестационарна, returns стационарны. Модель будет пытаться выучить тренд и сломается при его смене.
Использование слишком короткого контекста. 512 шагов - это ничего для рынка. Нужны тысячи шагов, но тогда взрывается память. Решение - иерархические трансформеры или рекуррентные механизмы.
Игнорирование costs и slippage. Даже если модель предсказывает движение правильно, transaction costs могут съесть всю прибыль. Симулируйте торговлю с реалистичными комиссиями.
Вера в одну модель. Ни один хедж-фонд не использует одну модель. Это всегда ансамбль, где LLM может быть лишь одним из сотни сигналов. Как правильно строить такие ансамбли, смотрите в архитектуре автономного трейдинг-агента.

Самая опасная ошибка - это look-ahead bias при подготовке данных. Вы случайно используете информацию из будущего для нормализации или создания признаков. Результат - фантастическая backtest-производительность и полный провал в реальной торговле.

Что будет дальше? Неочевидный прогноз

К 2027 году LLM для чистого price prediction умрут. Их место займут hybrid architectures, сочетающие символический AI (для правил риск-менеджмента) и нейросети (для распознавания слабых паттернов). Уже сейчас видно движение в сторону World Models, которые пытаются смоделировать не просто ряд, а динамику всей рыночной экосистемы.

Но главный прорыв произойдет не в архитектурах, а в данных. Появятся стандартизированные датасеты финансовых временных рядов с мультимодальным контекстом - что-то вроде ImageNet для квантов. И тогда, возможно, мы увидим первый LLM, который стабильно обыгрывает рынок. Но это будет модель, обученная не на текстах, а на абстрактных паттернах, возможно, даже без явного представления о том, что такое "акция". Она будет мыслить категориями, недоступными человеку. И это уже начало происходить - читайте наш разбор Парето-фронта LLM в 2026, чтобы понять, куда движется поле.

А пока - не верьте хайпу. Трейдинг на LLM это не prompt engineering. Это адская работа с данными, бесконечная валидация и смирение перед рынком, который всегда умнее.

Подписаться на канал

LLM в алготрейдинге: как языковые модели предсказывают цену и почему это сложно