1C Code Bench: бенчмарк кодогенерации LLM для 1С

Вайб-кодинг на 1С? Пока нет

Вы когда-нибудь пробовали попросить нейросеть написать обработку для 1С? Я пробовал. Получалось что-то среднее между "Сделайте расчет зарплаты" и "А давайте просто вызовем Справочники.Сотрудники.НайтиПоКоду()". Без понимания контекста, метаданных и специфики платформы. До недавнего времени измерить, насколько хорошо LLM понимают встроенный язык 1С:Предприятие, было невозможно — бенчмарков для этого просто не существовало.

Ситуация изменилась в мае 2026 года. Группа разработчиков из сообщества Open1C совместно с исследователями из МФТИ представили 1C Code Bench — набор из 100 задач на русском и английском языках, охватывающих типичные сценарии: работа со справочниками, документами, регистрами, отчетами и бизнес-логикой. Идея не нова — это, по сути, HumanEval под 1С, но с одним важным отличием: задачи проверяются не юнит-тестами в Python, а выполнением в реальной платформе 1С:Предприятие 8.3 (конкретно релиз 8.3.25). Прогон занимает 2-3 дня на кластере из 10 инстансов, но результат того стоит.

💡 В отличие от абстрактных задачек HumanEval, 1C Code Bench включает сценарии с реальными метаданными: нужны знания конфигурации "Бухгалтерия предприятия", "Управление торговлей" и даже пустой тестовой базы. LLM не может просто угадать имена реквизитов — она должна их вывести из контекста.

Кто сдал, а кто провалился? Результаты первого забега

Авторы протестировали 12 моделей — от гигантов (GPT-5, Claude 4, Gemini 3) до локальных тяжеловесов (DeepSeek-R1-671B, Qwen3-72B, Llama 4-70B) и российских LLM (YandexGPT 5, GigaChat 3, Saiga 2.0 на базе Qwen). Метрика — стандартный pass@1 (одна попытка) и pass@k (k=5 с выбором лучшего). Результаты — в таблице.

Модель	pass@1 (%)	pass@5 (%)	Размер (B params)
GPT-5 (OpenAI)	72.3	88.1	н/д
Claude 4 (Anthropic)	68.4	83.7	н/д
DeepSeek-R1-671B	64.2	79.0	671
Qwen3-72B-Instruct	61.5	76.3	72
Llama 4-70B-Instruct	55.8	71.2	70
YandexGPT 5	48.6	63.9	н/д
GigaChat 3	44.2	60.1	н/д
Saiga 2.0 (Qwen-14B)	38.7	52.4	14

Сравните с HumanEval: GPT-5 там набирает ~95% pass@1, а на 1С — 72%. Разница в 23 процентных пункта — именно столько стоит незнание платформы. При этом DeepSeek-R1, который на Python почти дышит в спину GPT, на 1С отстаёт на 8%. То есть архитектура "цепочка рассуждений" (CoT) помогает угадать логику, но не заменяет знание конкретных API и метаданных.

"Интересно, что модели с CoT (DeepSeek-R1, Qwen3-72B) лучше справляются с задачами на сложную бизнес-логику, но пасуют на простых запросах вроде 'Получить остатки по регистру' — видимо, перемудривают", — комментирует один из авторов бенчмарка Илья Селезнёв.

А что с российскими моделями? До обидного мало

YandexGPT 5 и GigaChat 3 показали результат ниже 50%. Это грустно, но ожидаемо: их обучали на общих корпусах, где доля 1С-кода мизерна. Saiga 2.0 на базе Qwen-14B — и вовсе 38.7%. Даже если дообучить на специализированных данных, как это делают с SDD для 1С, до GPT всё равно далеко. Но есть нюанс: бенчмарк измеряет только "сырое" знание синтаксиса и стандартных функций. А в реальной работе важнее умение агента ходить по конфигурации, анализировать метаданные и исправлять ошибки. Для этого нужны совсем другие тесты — вроде BigCodeArena, где код не просто пишут, а запускают и проверяют в рантайме. 1C Code Bench как раз движется в этом направлении: вторая версия (анонсирована на осень 2026) будет включать 50 задач на отладку и доработку существующих модулей — мульти-файловые сценарии с настоящими ошибками в конфигурации.

⚠️ Важно: 1C Code Bench — не экзамен на профпригодность, а тест на "заученность" типовых паттернов. Если LLM набрала 70% — это не значит, что она напишет production-ready код. Как показывает практика AI SAST, модели часто выдают синтаксически корректный, но бизнес-нелогичный код. Поэтому не спешите увольнять команду 1С-разработчиков.

Как это повлияет на рынок 1С-разработки?

Сам факт появления бенчмарка — маркер зрелости направления. Если год назад мы гадали, "возможно ли вообще", то теперь появилась линейка — пусть кривая, пусть с погрешностью. Для 1С-программистов, которые хотят остаться востребованными на фоне автоматизации, это сигнал: пора осваивать не только язык запросов, но и работу с LLM-агентами. Через пару лет 80% типовых задач будет генерировать нейросеть, а человек — только контролировать.

Кстати, если вы только начинаете путь в 1С, я бы на вашем месте не полагался на нейросети, а сначала прошел нормальный курс. Вот, например, "1С-программист" от Skillbox — дает базу, которую LLM пока не заменяет. А потом уже можно будет экспериментировать с генерацией кода.

В любом случае, 1C Code Bench — это только начало. Жду версию 2.0 с задачами на интеграцию с внешними системами (HTTP-сервисы, Exchange, RabbitMQ). И, надеюсь, open-source модели, которых сейчас отстают, через полгода догонят — хотя бы за счет дообучения на корпусе 1С-решений, который, кстати, уже собирают на GitHub. Следим за трендом.

Подписаться на канал

1C Code Bench: первый бенчмарк для кодогенерации на 1С — кто из LLM сдал экзамен?

Вайб-кодинг на 1С? Пока нет

Кто сдал, а кто провалился? Результаты первого забега

А что с российскими моделями? До обидного мало

Как это повлияет на рынок 1С-разработки?

Подписывайтесь на наш канал!