Когда ChatGPT проваливает экзамен CFA, а DeepSeek не знает про дивиденды Газпрома
В январе 2026 года Finam AI Lab выкатила на GitHub то, чего не хватало всем, кто пытался запихнуть LLM в финтех: специализированные бенчмарки для проверки финансовой грамотности моделей. Не общие тесты на эрудицию, а конкретные задачи из реального мира - от вопросов с экзамена CFA до анализа отчетности российских компаний.
На 28.01.2026 фреймворк поддерживает тестирование моделей размером до 70B параметров и включает три основных бенчмарка: CFA Level I/II вопросы, задачи на анализ финансовых отчетов и специализированные кейсы по российскому рынку.
Что внутри: три уровня финансового ада
Finam не стал изобретать велосипед с нуля, а собрал то, что действительно нужно:
- CFA Exam Suite - 500+ вопросов из реальных экзаменов CFA Institute (уровни I и II). Не абстрактные «что такое EBITDA», а конкретные расчетные задачи с временными ограничениями
- Financial Statement Analysis - датасеты на основе реальных отчетностей компаний из S&P 500 и Мосбиржи. Модель должна не просто прочитать цифры, а сделать выводы о ликвидности, рентабельности, рисках
- Russian Market Olympiad - уникальный для рунета блок: вопросы по дивидендной политике российских эмитентов, особенностям налогового законодательства, специфике регулирования ЦБ РФ
Чем это лучше FinQA и ConvFinQA?
Западные аналоги вроде FinQA (2021) и ConvFinQA (2022) устарели. Серьезно. Они построены на данных до 2020 года, не учитывают постковидную экономику, не говорят про криптоактивы и уж тем более не знают про российские реалии.
| Бенчмарк | Год данных | Российский рынок | CFA вопросы |
|---|---|---|---|
| FinQA (оригинал) | До 2020 | Нет | Нет |
| ConvFinQA | До 2021 | Нет | Нет |
| Finam Benchmarks | 2024-2025 | Да | Да |
Фишка Finam в актуальности. Вопросы про дивиденды 2024 года, анализ квартальных отчетов за 2025-й, кейсы с учетом санкционных реалий. Западные модели на этом спотыкаются - они знают теорию, но не понимают контекста.
Как это работает на практике
Установка проще некуда (если у вас уже стоит Python 3.10+):
git clone https://github.com/finam-ai/financial-benchmarks
cd financial-benchmarks
pip install -r requirements.txt
А вот дальше начинается магия. Вы не просто запускаете тесты - вы настраиваете сценарии проверки. Хотите проверить, как модель справится с временным прессингом (как на реальном экзамене CFA)? Легко. Нужно оценить не только конечный ответ, но и ход рассуждений? Есть интеграция с автономными агентами для бенчмаркинга.
Кто проваливается и почему
Первые тесты показали предсказуемую картину:
- Общие LLM (ChatGPT, Claude) набирают 60-70% на CFA вопросах - неплохо, но недостаточно для профессионального использования
- Специализированные финансовые модели показывают 85-90%, но только на западных данных
- На российских кейсах все падают ниже 50% (исключение - GigaChat, но у него свои проблемы с английскими терминами)
Проблема не в знаниях, а в контексте. Модель может идеально рассчитать WACC, но не знает, как применить его к российской компании с валютными ограничениями. Она помнит теорию дивидендной политики, но не понимает специфику выплат у «Лукойла».
Зачем это вообще нужно?
Если вы думаете, что это академическая игрушка, ошибаетесь. Реальные кейсы:
- Финтех-стартапы - выбирают базовую модель для своего продукта. Вместо общих тестов проверяют именно на финансовых задачах
- Инвесткомпании - тестируют внутренние аналитические инструменты перед внедрением
- Образовательные платформы - создают симуляторы подготовки к CFA с адаптивными сложностями
- Разработчики торговых систем - проверяют, не нагенерит ли модель бредовых торговых сигналов (спойлер: нагенерит, если не тестировать)
Кстати, про торговые системы - если интересно, как LLM вообще справляются с анализом рынка, посмотрите разбор того, почему преобразование графиков в текст работает плохо.
Важный нюанс: бенчмарки Finam проверяют не только знания, но и устойчивость к галлюцинациям в цифрах. Финансовая модель, которая «придумывает» показатели отчетности, опаснее, чем ничего.
Кому подойдет этот инструмент (а кому нет)
Берите, если:
- Разрабатываете финтех-продукт с AI-компонентом
- Выбираете LLM для внутреннего использования в финансовой компании
- Исследуете специализированные дообучения моделей
- Готовите образовательный контент по финансам
Не тратьте время, если:
- Нужны общие тесты на эрудицию (есть коллекции промптов для общего тестирования)
- Работаете исключительно с non-financial доменами
- Ждете готовых решений «под ключ» (это фреймворк, а не SaaS)
Что будет дальше с финансовыми LLM
Тренд 2025-2026 - гиперспециализация. Универсальные модели доминируют в consumer-сегменте, но в профессиональных областях (финансы, право, медицина) выигрывают узкоспециализированные решения. Finam бенчмарки - первый шаг к стандартизации оценки в финансовом секторе.
Следующий логичный шаг - интеграция с реальными торговыми данными и создание симуляторов принятия решений. Представьте: модель не просто отвечает на вопросы, а торгует на исторических данных, а вы оцениваете не только правильность ответов, но и доходность стратегии.
Пока же совет простой: если планируете использовать LLM в чем-то серьезнее генерации отчетных шаблонов - тестируйте на специализированных бенчмарках. Иначе рискуете получить красиво написанную финансовую ересь.