1C Code Bench: бенчмарк кодогенерации LLM для 1С | AiManual
AiManual Logo Ai / Manual.
28 Май 2026 Новости

1C Code Bench: первый бенчмарк для кодогенерации на 1С — кто из LLM сдал экзамен?

Новый бенчмарк 1C Code Bench оценивает способности LLM генерировать код на встроенном языке 1С:Предприятие. Результаты тестов GPT-5, Claude 4, DeepSeek-R1 и рос

Вайб-кодинг на 1С? Пока нет

Вы когда-нибудь пробовали попросить нейросеть написать обработку для 1С? Я пробовал. Получалось что-то среднее между "Сделайте расчет зарплаты" и "А давайте просто вызовем Справочники.Сотрудники.НайтиПоКоду()". Без понимания контекста, метаданных и специфики платформы. До недавнего времени измерить, насколько хорошо LLM понимают встроенный язык 1С:Предприятие, было невозможно — бенчмарков для этого просто не существовало.

Ситуация изменилась в мае 2026 года. Группа разработчиков из сообщества Open1C совместно с исследователями из МФТИ представили 1C Code Bench — набор из 100 задач на русском и английском языках, охватывающих типичные сценарии: работа со справочниками, документами, регистрами, отчетами и бизнес-логикой. Идея не нова — это, по сути, HumanEval под 1С, но с одним важным отличием: задачи проверяются не юнит-тестами в Python, а выполнением в реальной платформе 1С:Предприятие 8.3 (конкретно релиз 8.3.25). Прогон занимает 2-3 дня на кластере из 10 инстансов, но результат того стоит.

💡 В отличие от абстрактных задачек HumanEval, 1C Code Bench включает сценарии с реальными метаданными: нужны знания конфигурации "Бухгалтерия предприятия", "Управление торговлей" и даже пустой тестовой базы. LLM не может просто угадать имена реквизитов — она должна их вывести из контекста.

Кто сдал, а кто провалился? Результаты первого забега

Авторы протестировали 12 моделей — от гигантов (GPT-5, Claude 4, Gemini 3) до локальных тяжеловесов (DeepSeek-R1-671B, Qwen3-72B, Llama 4-70B) и российских LLM (YandexGPT 5, GigaChat 3, Saiga 2.0 на базе Qwen). Метрика — стандартный pass@1 (одна попытка) и pass@k (k=5 с выбором лучшего). Результаты — в таблице.

Модельpass@1 (%)pass@5 (%)Размер (B params)
GPT-5 (OpenAI)72.388.1н/д
Claude 4 (Anthropic)68.483.7н/д
DeepSeek-R1-671B64.279.0671
Qwen3-72B-Instruct61.576.372
Llama 4-70B-Instruct55.871.270
YandexGPT 548.663.9н/д
GigaChat 344.260.1н/д
Saiga 2.0 (Qwen-14B)38.752.414

Сравните с HumanEval: GPT-5 там набирает ~95% pass@1, а на 1С — 72%. Разница в 23 процентных пункта — именно столько стоит незнание платформы. При этом DeepSeek-R1, который на Python почти дышит в спину GPT, на 1С отстаёт на 8%. То есть архитектура "цепочка рассуждений" (CoT) помогает угадать логику, но не заменяет знание конкретных API и метаданных.

"Интересно, что модели с CoT (DeepSeek-R1, Qwen3-72B) лучше справляются с задачами на сложную бизнес-логику, но пасуют на простых запросах вроде 'Получить остатки по регистру' — видимо, перемудривают", — комментирует один из авторов бенчмарка Илья Селезнёв.

А что с российскими моделями? До обидного мало

YandexGPT 5 и GigaChat 3 показали результат ниже 50%. Это грустно, но ожидаемо: их обучали на общих корпусах, где доля 1С-кода мизерна. Saiga 2.0 на базе Qwen-14B — и вовсе 38.7%. Даже если дообучить на специализированных данных, как это делают с SDD для 1С, до GPT всё равно далеко. Но есть нюанс: бенчмарк измеряет только "сырое" знание синтаксиса и стандартных функций. А в реальной работе важнее умение агента ходить по конфигурации, анализировать метаданные и исправлять ошибки. Для этого нужны совсем другие тесты — вроде BigCodeArena, где код не просто пишут, а запускают и проверяют в рантайме. 1C Code Bench как раз движется в этом направлении: вторая версия (анонсирована на осень 2026) будет включать 50 задач на отладку и доработку существующих модулей — мульти-файловые сценарии с настоящими ошибками в конфигурации.

⚠️ Важно: 1C Code Bench — не экзамен на профпригодность, а тест на "заученность" типовых паттернов. Если LLM набрала 70% — это не значит, что она напишет production-ready код. Как показывает практика AI SAST, модели часто выдают синтаксически корректный, но бизнес-нелогичный код. Поэтому не спешите увольнять команду 1С-разработчиков.

Как это повлияет на рынок 1С-разработки?

Сам факт появления бенчмарка — маркер зрелости направления. Если год назад мы гадали, "возможно ли вообще", то теперь появилась линейка — пусть кривая, пусть с погрешностью. Для 1С-программистов, которые хотят остаться востребованными на фоне автоматизации, это сигнал: пора осваивать не только язык запросов, но и работу с LLM-агентами. Через пару лет 80% типовых задач будет генерировать нейросеть, а человек — только контролировать.

Кстати, если вы только начинаете путь в 1С, я бы на вашем месте не полагался на нейросети, а сначала прошел нормальный курс. Вот, например, "1С-программист" от Skillbox — дает базу, которую LLM пока не заменяет. А потом уже можно будет экспериментировать с генерацией кода.

В любом случае, 1C Code Bench — это только начало. Жду версию 2.0 с задачами на интеграцию с внешними системами (HTTP-сервисы, Exchange, RabbitMQ). И, надеюсь, open-source модели, которых сейчас отстают, через полгода догонят — хотя бы за счет дообучения на корпусе 1С-решений, который, кстати, уже собирают на GitHub. Следим за трендом.

Подписаться на канал