Вайб-кодинг на 1С? Пока нет
Вы когда-нибудь пробовали попросить нейросеть написать обработку для 1С? Я пробовал. Получалось что-то среднее между "Сделайте расчет зарплаты" и "А давайте просто вызовем Справочники.Сотрудники.НайтиПоКоду()". Без понимания контекста, метаданных и специфики платформы. До недавнего времени измерить, насколько хорошо LLM понимают встроенный язык 1С:Предприятие, было невозможно — бенчмарков для этого просто не существовало.
Ситуация изменилась в мае 2026 года. Группа разработчиков из сообщества Open1C совместно с исследователями из МФТИ представили 1C Code Bench — набор из 100 задач на русском и английском языках, охватывающих типичные сценарии: работа со справочниками, документами, регистрами, отчетами и бизнес-логикой. Идея не нова — это, по сути, HumanEval под 1С, но с одним важным отличием: задачи проверяются не юнит-тестами в Python, а выполнением в реальной платформе 1С:Предприятие 8.3 (конкретно релиз 8.3.25). Прогон занимает 2-3 дня на кластере из 10 инстансов, но результат того стоит.
💡 В отличие от абстрактных задачек HumanEval, 1C Code Bench включает сценарии с реальными метаданными: нужны знания конфигурации "Бухгалтерия предприятия", "Управление торговлей" и даже пустой тестовой базы. LLM не может просто угадать имена реквизитов — она должна их вывести из контекста.
Кто сдал, а кто провалился? Результаты первого забега
Авторы протестировали 12 моделей — от гигантов (GPT-5, Claude 4, Gemini 3) до локальных тяжеловесов (DeepSeek-R1-671B, Qwen3-72B, Llama 4-70B) и российских LLM (YandexGPT 5, GigaChat 3, Saiga 2.0 на базе Qwen). Метрика — стандартный pass@1 (одна попытка) и pass@k (k=5 с выбором лучшего). Результаты — в таблице.
| Модель | pass@1 (%) | pass@5 (%) | Размер (B params) |
|---|---|---|---|
| GPT-5 (OpenAI) | 72.3 | 88.1 | н/д |
| Claude 4 (Anthropic) | 68.4 | 83.7 | н/д |
| DeepSeek-R1-671B | 64.2 | 79.0 | 671 |
| Qwen3-72B-Instruct | 61.5 | 76.3 | 72 |
| Llama 4-70B-Instruct | 55.8 | 71.2 | 70 |
| YandexGPT 5 | 48.6 | 63.9 | н/д |
| GigaChat 3 | 44.2 | 60.1 | н/д |
| Saiga 2.0 (Qwen-14B) | 38.7 | 52.4 | 14 |
Сравните с HumanEval: GPT-5 там набирает ~95% pass@1, а на 1С — 72%. Разница в 23 процентных пункта — именно столько стоит незнание платформы. При этом DeepSeek-R1, который на Python почти дышит в спину GPT, на 1С отстаёт на 8%. То есть архитектура "цепочка рассуждений" (CoT) помогает угадать логику, но не заменяет знание конкретных API и метаданных.
"Интересно, что модели с CoT (DeepSeek-R1, Qwen3-72B) лучше справляются с задачами на сложную бизнес-логику, но пасуют на простых запросах вроде 'Получить остатки по регистру' — видимо, перемудривают", — комментирует один из авторов бенчмарка Илья Селезнёв.
А что с российскими моделями? До обидного мало
YandexGPT 5 и GigaChat 3 показали результат ниже 50%. Это грустно, но ожидаемо: их обучали на общих корпусах, где доля 1С-кода мизерна. Saiga 2.0 на базе Qwen-14B — и вовсе 38.7%. Даже если дообучить на специализированных данных, как это делают с SDD для 1С, до GPT всё равно далеко. Но есть нюанс: бенчмарк измеряет только "сырое" знание синтаксиса и стандартных функций. А в реальной работе важнее умение агента ходить по конфигурации, анализировать метаданные и исправлять ошибки. Для этого нужны совсем другие тесты — вроде BigCodeArena, где код не просто пишут, а запускают и проверяют в рантайме. 1C Code Bench как раз движется в этом направлении: вторая версия (анонсирована на осень 2026) будет включать 50 задач на отладку и доработку существующих модулей — мульти-файловые сценарии с настоящими ошибками в конфигурации.
⚠️ Важно: 1C Code Bench — не экзамен на профпригодность, а тест на "заученность" типовых паттернов. Если LLM набрала 70% — это не значит, что она напишет production-ready код. Как показывает практика AI SAST, модели часто выдают синтаксически корректный, но бизнес-нелогичный код. Поэтому не спешите увольнять команду 1С-разработчиков.
Как это повлияет на рынок 1С-разработки?
Сам факт появления бенчмарка — маркер зрелости направления. Если год назад мы гадали, "возможно ли вообще", то теперь появилась линейка — пусть кривая, пусть с погрешностью. Для 1С-программистов, которые хотят остаться востребованными на фоне автоматизации, это сигнал: пора осваивать не только язык запросов, но и работу с LLM-агентами. Через пару лет 80% типовых задач будет генерировать нейросеть, а человек — только контролировать.
Кстати, если вы только начинаете путь в 1С, я бы на вашем месте не полагался на нейросети, а сначала прошел нормальный курс. Вот, например, "1С-программист" от Skillbox — дает базу, которую LLM пока не заменяет. А потом уже можно будет экспериментировать с генерацией кода.
В любом случае, 1C Code Bench — это только начало. Жду версию 2.0 с задачами на интеграцию с внешними системами (HTTP-сервисы, Exchange, RabbitMQ). И, надеюсь, open-source модели, которых сейчас отстают, через полгода догонят — хотя бы за счет дообучения на корпусе 1С-решений, который, кстати, уже собирают на GitHub. Следим за трендом.