Финансовые бенчмарки Finam для LLM: тестирование CFA и рынка | AiManual
AiManual Logo Ai / Manual.
28 Янв 2026 Инструмент

Finam выпустил финансовые бенчмарки для LLM: теперь модели сдают CFA и торгуют акциями

Обзор новых финансовых бенчмарков от Finam AI Lab для тестирования LLM на знание рынка, экзаменов CFA и российской экономики. Сравнение с FinQA, примеры использ

Когда ChatGPT проваливает экзамен CFA, а DeepSeek не знает про дивиденды Газпрома

В январе 2026 года Finam AI Lab выкатила на GitHub то, чего не хватало всем, кто пытался запихнуть LLM в финтех: специализированные бенчмарки для проверки финансовой грамотности моделей. Не общие тесты на эрудицию, а конкретные задачи из реального мира - от вопросов с экзамена CFA до анализа отчетности российских компаний.

На 28.01.2026 фреймворк поддерживает тестирование моделей размером до 70B параметров и включает три основных бенчмарка: CFA Level I/II вопросы, задачи на анализ финансовых отчетов и специализированные кейсы по российскому рынку.

Что внутри: три уровня финансового ада

Finam не стал изобретать велосипед с нуля, а собрал то, что действительно нужно:

  • CFA Exam Suite - 500+ вопросов из реальных экзаменов CFA Institute (уровни I и II). Не абстрактные «что такое EBITDA», а конкретные расчетные задачи с временными ограничениями
  • Financial Statement Analysis - датасеты на основе реальных отчетностей компаний из S&P 500 и Мосбиржи. Модель должна не просто прочитать цифры, а сделать выводы о ликвидности, рентабельности, рисках
  • Russian Market Olympiad - уникальный для рунета блок: вопросы по дивидендной политике российских эмитентов, особенностям налогового законодательства, специфике регулирования ЦБ РФ

Чем это лучше FinQA и ConvFinQA?

Западные аналоги вроде FinQA (2021) и ConvFinQA (2022) устарели. Серьезно. Они построены на данных до 2020 года, не учитывают постковидную экономику, не говорят про криптоактивы и уж тем более не знают про российские реалии.

Бенчмарк Год данных Российский рынок CFA вопросы
FinQA (оригинал) До 2020 Нет Нет
ConvFinQA До 2021 Нет Нет
Finam Benchmarks 2024-2025 Да Да

Фишка Finam в актуальности. Вопросы про дивиденды 2024 года, анализ квартальных отчетов за 2025-й, кейсы с учетом санкционных реалий. Западные модели на этом спотыкаются - они знают теорию, но не понимают контекста.

Как это работает на практике

Установка проще некуда (если у вас уже стоит Python 3.10+):

git clone https://github.com/finam-ai/financial-benchmarks
cd financial-benchmarks
pip install -r requirements.txt

А вот дальше начинается магия. Вы не просто запускаете тесты - вы настраиваете сценарии проверки. Хотите проверить, как модель справится с временным прессингом (как на реальном экзамене CFA)? Легко. Нужно оценить не только конечный ответ, но и ход рассуждений? Есть интеграция с автономными агентами для бенчмаркинга.

💡
Фреймворк поддерживает все популярные модели 2025-2026: GPT-4.5 Turbo, Claude 3.5 Sonnet, Gemini 2.0, DeepSeek-R1, Qwen2.5 и локальные варианты через Ollama. Для российских моделей (GigaChat, YandexGPT) есть оптимизированные промпты.

Кто проваливается и почему

Первые тесты показали предсказуемую картину:

  • Общие LLM (ChatGPT, Claude) набирают 60-70% на CFA вопросах - неплохо, но недостаточно для профессионального использования
  • Специализированные финансовые модели показывают 85-90%, но только на западных данных
  • На российских кейсах все падают ниже 50% (исключение - GigaChat, но у него свои проблемы с английскими терминами)

Проблема не в знаниях, а в контексте. Модель может идеально рассчитать WACC, но не знает, как применить его к российской компании с валютными ограничениями. Она помнит теорию дивидендной политики, но не понимает специфику выплат у «Лукойла».

Зачем это вообще нужно?

Если вы думаете, что это академическая игрушка, ошибаетесь. Реальные кейсы:

  1. Финтех-стартапы - выбирают базовую модель для своего продукта. Вместо общих тестов проверяют именно на финансовых задачах
  2. Инвесткомпании - тестируют внутренние аналитические инструменты перед внедрением
  3. Образовательные платформы - создают симуляторы подготовки к CFA с адаптивными сложностями
  4. Разработчики торговых систем - проверяют, не нагенерит ли модель бредовых торговых сигналов (спойлер: нагенерит, если не тестировать)

Кстати, про торговые системы - если интересно, как LLM вообще справляются с анализом рынка, посмотрите разбор того, почему преобразование графиков в текст работает плохо.

Важный нюанс: бенчмарки Finam проверяют не только знания, но и устойчивость к галлюцинациям в цифрах. Финансовая модель, которая «придумывает» показатели отчетности, опаснее, чем ничего.

Кому подойдет этот инструмент (а кому нет)

Берите, если:

  • Разрабатываете финтех-продукт с AI-компонентом
  • Выбираете LLM для внутреннего использования в финансовой компании
  • Исследуете специализированные дообучения моделей
  • Готовите образовательный контент по финансам

Не тратьте время, если:

Что будет дальше с финансовыми LLM

Тренд 2025-2026 - гиперспециализация. Универсальные модели доминируют в consumer-сегменте, но в профессиональных областях (финансы, право, медицина) выигрывают узкоспециализированные решения. Finam бенчмарки - первый шаг к стандартизации оценки в финансовом секторе.

Следующий логичный шаг - интеграция с реальными торговыми данными и создание симуляторов принятия решений. Представьте: модель не просто отвечает на вопросы, а торгует на исторических данных, а вы оцениваете не только правильность ответов, но и доходность стратегии.

Пока же совет простой: если планируете использовать LLM в чем-то серьезнее генерации отчетных шаблонов - тестируйте на специализированных бенчмарках. Иначе рискуете получить красиво написанную финансовую ересь.