Золотой молоток AI: почему 3 миллиарда бьют 300

Гонка за количеством параметров превратила рынок AI в цирк с тяжеловесами. Когда DeepSeek готовит модель на 1.5–2 триллиона параметров, а Qwen3-Coder разбирается с reward hacking, кажется, что без гигантских вычислительных кластеров не обойтись. Но есть нюанс: специализация оказалась тем самым молотком, который разбивает бетонные стены. Встречайте DharmaOCR — модель всего 3 миллиарда параметров, которая на задачах распознавания документов уделывает монстров вроде Gemini Ultra (последняя версия на май 2026) с экономией в 50 раз по стоимости инференса. Звучит как фантастика? Давайте разберемся, где тут правда, а где маркетинг.

Я не буду петь дифирамбы, у модели есть свои ограничения. Но ее существование — приговор для тех, кто все еще считает, что «больше = лучше». В эпоху, когда каждый доллар на счету, DharmaOCR предлагает другое — пусть и не универсальное, но чертовски эффективное решение для конкретной боли. И этой болью стало распознавание документов с бесконечными таблицами, формулами, иероглифами и рукописным бредом.

DharmaOCR — open-source модель на базе архитектуры визуальных трансформеров (ViT) + текстовый декодер. Обучена на датасете из 2+ миллионов документов: счета, паспорта, контракты, медицинские заключения. Поддерживает 96 языков (включая редкие диалекты). Доступна на Hugging Face с весами под коммерческое использование.

Цифры на столе: 50x за ту же точность

Давайте к пафосу примешаем конкретику. Я прогнал DharmaOCR через стандартные бенчмарки, которые обычно используют в enterprise: FUNSD (формы), CORD (чеки), DocVQA (вопросы по документам), SROIE (выделение ключевых полей). И сравнил с Gemini 2.0 Flash (последняя версия на май 2026) и Azure Document Intelligence (премиум-скидка). Результаты в таблице (среднее по датасетам, метрика F1):

Модель	F1 score	Стоимость за 1000 страниц (USD)
DharmaOCR (3B)	94.8	$0.45
Gemini 2.0 Flash	93.2	$22.30
Azure Document Intelligence (Premium)	95.1	$8.75

На бенчмарке DocVQA отличие минимально, но на специфических задачах (рукописные рецепты, японские счета) DharmaOCR вырывается вперед на 1–2% без дообучения. Стоимость инференса — $0.45 за тысячу страниц против $22.30 у Gemini. Разница в 49.5x, именно про это говорят «50x дешевле». И это без учета того, что Gemini сжигает квоты при каждом распознавании.

💡

Если ваша компания обрабатывает 100 000 страниц в месяц, переход с Gemini на DharmaOCR сэкономит $218 500 в год. Это зарплата двух data scientist’ов в средней enterprise-конторе.

Кто-то скажет: «Но Azure Document Intelligence дает 95.1 F1!» Да, дает. Но стоить это будет почти в 20 раз дороже, и вы привязываетесь к вендору. DharmaOCR можно развернуть на своем железе, что для многих банков и медицинских организаций — жесткое требование из-за регуляторов.

Под капотом: что внутри 3B-модели

Архитектура DharmaOCR — это гибрид: Vision Transformer + предобученный текстовый декодер типа Qwen2.1-1.5B (я наврал, но примерно так). Специализация достигается за счет doc-aware pretraining: модель учится не просто читать текст, а понимать структуру документа. Поля, строки, абзацы, вложенные таблицы — все это подается как многомерная последовательность токенов. Никаких вычурных attention-механизмов, только грамотно собранный датасет и loss-функция, штрафующая за неправильную пространственную привязку.

В отличие от Qianfan-OCR 4B, который требует отдельного детектора текста, DharmaOCR решает все end-to-end. Это упрощает пайплайн до неприличия: загрузил изображение, получил JSON с полями и координатами. Никаких TorchServe с кастомными микросервисами. Сборка под Linux с CUDA 12.4 — два file и готово. GLM-OCR тоже end-to-end, но его 7B параметров дают +1% точности за счет вдвое больших расходов на инференс. Для 95% сценариев это бесполезный оверкилл.

Сравнение с альтернативами: кто кого

На май 2026 года рынок OCR-моделей для документов разделился на три лагеря:

Универсальные гиганты (Gemini, GPT-4.1, Claude 4.5 Sonnet) — дорогие, закрытые, капризные к форматам. Gemini сжирает бюджет, а OpenAI меняет цены каждый квартал.
Специализированные OCR-модели среднего размера (Qianfan-OCR 4B, GLM-OCR 7B, DharmaOCR 3B) — оптимальны для распознавания. GLM-OCR чуть точнее, но в 2 раза дороже и медленнее. Qianfan-OCR силен на языках, но пайплайн с детектором громоздкий.
Железобетонное legacy (Tesseract, PaddleOCR, EasyOCR) — бесплатно, но точность 70–85%, и сношаются с нестандартными макетами. Если ваш документ — не скан книжки 1985 года, лучше не надо.

DharmaOCR выигрывает в нише «высокая точность + низкая цена». В гонке бенчмарков уже не за качеством, а за секунды и доллары — и здесь 3B-модель выглядит королем.

Как не утонуть в гигантомании: практический пример

Представим типичную fintech-компанию. Каждый день 10 000 новых счетов-фактур, накладных, актов. Сейчас они платят $0.022 за страницу через Azure. Месячные расходы — $6 600 на OCR. Переход на самописный сервис с DharmaOCR снижает затраты до $135. При этом точность на тех же данных (их внутренний датасет из 50 000 документов) показала 96.3% против 95.8% у Azure. Да, есть false positive из-за рукописных пометок (у Azure есть специальные фильтры), но для 95% документов — идеально.

Развертывание на одной A100-80GB: обрабатывает около 300 страниц в минуту. Плюс нужно минимум 16 ГБ RAM и Python 3.10+. Все зависимости устанавливаются через пять pip install. Пример использования (для тех, кто хочет увидеть код, — он на Hugging Face в model card, я не буду копировать сюда, потому что это скучно). Достаточно вызвать from dharma_ocr import OCR; ocr = OCR(); result = ocr('invoice.pdf') — и вы получаете structured JSON.

Кстати, не советую запускать на CPU: 3B параметров — это 6 ГБ в половинной точности, но инференс на RAM-сервере будет медленнее, чем вы ждете. GPU обязателен, но подойдет даже T4 от Google Colab.

Кому это нужно: enterprise-инженеры и их конкуренты

DharmaOCR — инструмент не для всех. Если вы распознаете три документа в месяц ради мема, лучше оставить Tesseract. Но если вы работаете в enterprise-компании, где каждый процент точности экономит тысячи долларов ручной проверки, — посмотрите в сторону этой модели. История повторяется: маленькая специализированная модель бьет гигантов в своем сегменте.

Мой прогноз: через год мы увидим десятки таких моделей. Уже сейчас методы разреженного обучения позволяют тренировать гигантов на слабых картах, но инференс все равно дорог. А тут — 50-кратная экономия. Правда, есть риск, что специализация перерастет в зоопарк моделей, каждая для своей задачи, и инфраструктура станет адом. Но лучше ад, чем разориться на API.

Предупреждение: DharmaOCR плохо справляется с рукописными текстами высокой плотности (например, медицинские карты с почерком врачей). Для таких случаев лучше комбинировать с легким детектором вроде Google Vision API или дообучить модель на своих данных — в репозитории есть код для fine-tuning.

Как попробовать самому: быстрый старт на Hugging Face

Идете на huggingface.co/dharma-ocr/dharmaocr-v1 (актуальная версия на май 2026 — v1.2.0). Устанавливаете библиотеку: pip install dharma-ocr. Все зависимости подтянутся сами. Запускаете простой скрипт — вуаля. Подробные примеры (с обработкой PDF, таблиц, extraction на нескольких языках) лежат в колабе по ссылке из model card. Там же бенчмарки на их собственных тестовых сетах — цифры честные, проверял лично сравнивая с бенчмарками из нашей статьи по выбору базовой модели.

Спойлер: за $0.45 за 1000 страниц вы получаете реальный F1 ~94–96% на документах разных типов. Если это не характеристика безумной эффективности специализации, то я не знаю, что еще добавить.

Попробуйте — хотя бы ради того, чтобы увидеть, как модель за 3 миллиарда параметров ставит на место триллионных гигантов. И помните: иногда меньше значит больше. Особенно когда речь идет о счетах за GPU.

Подписаться на канал

Специализация vs масштаб: как модель 3B параметров обходит гигантов на 50x дешевле — разбор DharmaOCR