Когда ChatGPT проваливает экзамен CFA, а DeepSeek не знает про дивиденды Газпрома

В январе 2026 года Finam AI Lab выкатила на GitHub то, чего не хватало всем, кто пытался запихнуть LLM в финтех: специализированные бенчмарки для проверки финансовой грамотности моделей. Не общие тесты на эрудицию, а конкретные задачи из реального мира - от вопросов с экзамена CFA до анализа отчетности российских компаний.

На 28.01.2026 фреймворк поддерживает тестирование моделей размером до 70B параметров и включает три основных бенчмарка: CFA Level I/II вопросы, задачи на анализ финансовых отчетов и специализированные кейсы по российскому рынку.

Что внутри: три уровня финансового ада

Finam не стал изобретать велосипед с нуля, а собрал то, что действительно нужно:

CFA Exam Suite - 500+ вопросов из реальных экзаменов CFA Institute (уровни I и II). Не абстрактные «что такое EBITDA», а конкретные расчетные задачи с временными ограничениями
Financial Statement Analysis - датасеты на основе реальных отчетностей компаний из S&P 500 и Мосбиржи. Модель должна не просто прочитать цифры, а сделать выводы о ликвидности, рентабельности, рисках
Russian Market Olympiad - уникальный для рунета блок: вопросы по дивидендной политике российских эмитентов, особенностям налогового законодательства, специфике регулирования ЦБ РФ

Чем это лучше FinQA и ConvFinQA?

Западные аналоги вроде FinQA (2021) и ConvFinQA (2022) устарели. Серьезно. Они построены на данных до 2020 года, не учитывают постковидную экономику, не говорят про криптоактивы и уж тем более не знают про российские реалии.

Бенчмарк	Год данных	Российский рынок	CFA вопросы
FinQA (оригинал)	До 2020	Нет	Нет
ConvFinQA	До 2021	Нет	Нет
Finam Benchmarks	2024-2025	Да	Да

Фишка Finam в актуальности. Вопросы про дивиденды 2024 года, анализ квартальных отчетов за 2025-й, кейсы с учетом санкционных реалий. Западные модели на этом спотыкаются - они знают теорию, но не понимают контекста.

Как это работает на практике

Установка проще некуда (если у вас уже стоит Python 3.10+):

git clone https://github.com/finam-ai/financial-benchmarks
cd financial-benchmarks
pip install -r requirements.txt

А вот дальше начинается магия. Вы не просто запускаете тесты - вы настраиваете сценарии проверки. Хотите проверить, как модель справится с временным прессингом (как на реальном экзамене CFA)? Легко. Нужно оценить не только конечный ответ, но и ход рассуждений? Есть интеграция с автономными агентами для бенчмаркинга.

💡

Фреймворк поддерживает все популярные модели 2025-2026: GPT-4.5 Turbo, Claude 3.5 Sonnet, Gemini 2.0, DeepSeek-R1, Qwen2.5 и локальные варианты через Ollama. Для российских моделей (GigaChat, YandexGPT) есть оптимизированные промпты.

Кто проваливается и почему

Первые тесты показали предсказуемую картину:

Общие LLM (ChatGPT, Claude) набирают 60-70% на CFA вопросах - неплохо, но недостаточно для профессионального использования
Специализированные финансовые модели показывают 85-90%, но только на западных данных
На российских кейсах все падают ниже 50% (исключение - GigaChat, но у него свои проблемы с английскими терминами)

Проблема не в знаниях, а в контексте. Модель может идеально рассчитать WACC, но не знает, как применить его к российской компании с валютными ограничениями. Она помнит теорию дивидендной политики, но не понимает специфику выплат у «Лукойла».

Зачем это вообще нужно?

Если вы думаете, что это академическая игрушка, ошибаетесь. Реальные кейсы:

Финтех-стартапы - выбирают базовую модель для своего продукта. Вместо общих тестов проверяют именно на финансовых задачах
Инвесткомпании - тестируют внутренние аналитические инструменты перед внедрением
Образовательные платформы - создают симуляторы подготовки к CFA с адаптивными сложностями
Разработчики торговых систем - проверяют, не нагенерит ли модель бредовых торговых сигналов (спойлер: нагенерит, если не тестировать)

Кстати, про торговые системы - если интересно, как LLM вообще справляются с анализом рынка, посмотрите разбор того, почему преобразование графиков в текст работает плохо.

Важный нюанс: бенчмарки Finam проверяют не только знания, но и устойчивость к галлюцинациям в цифрах. Финансовая модель, которая «придумывает» показатели отчетности, опаснее, чем ничего.

Кому подойдет этот инструмент (а кому нет)

Берите, если:

Разрабатываете финтех-продукт с AI-компонентом
Выбираете LLM для внутреннего использования в финансовой компании
Исследуете специализированные дообучения моделей
Готовите образовательный контент по финансам

Не тратьте время, если:

Нужны общие тесты на эрудицию (есть коллекции промптов для общего тестирования)
Работаете исключительно с non-financial доменами
Ждете готовых решений «под ключ» (это фреймворк, а не SaaS)

Что будет дальше с финансовыми LLM

Тренд 2025-2026 - гиперспециализация. Универсальные модели доминируют в consumer-сегменте, но в профессиональных областях (финансы, право, медицина) выигрывают узкоспециализированные решения. Finam бенчмарки - первый шаг к стандартизации оценки в финансовом секторе.

Следующий логичный шаг - интеграция с реальными торговыми данными и создание симуляторов принятия решений. Представьте: модель не просто отвечает на вопросы, а торгует на исторических данных, а вы оцениваете не только правильность ответов, но и доходность стратегии.

Пока же совет простой: если планируете использовать LLM в чем-то серьезнее генерации отчетных шаблонов - тестируйте на специализированных бенчмарках. Иначе рискуете получить красиво написанную финансовую ересь.

Finam выпустил финансовые бенчмарки для LLM: теперь модели сдают CFA и торгуют акциями