Локальные OCR модели для GPU 16GB: обзор и сравнение 2026 | AiManual
AiManual Logo Ai / Manual.
10 Май 2026 Инструмент

16 гигов для OCR в 2026: что реально влезет и как не нарваться на тормоза

Сравнение PaddleOCR, GLM-OCR, Nemotron OCR v2 и других моделей для видеокарт с 16 ГБ VRAM. Тесты на печатном тексте, рукописях и формулах. Рекомендации по выбор

16 гигабайт видеопамяти — это уже не роскошь, а рабочая лошадка для AI-энтузиаста. Но хватит ли их, чтобы запустить самую крутую OCR-модель и не словить Out of Memory? Или лучше взять что-то полегче, но с нюансами?

В 2026 году выбор локальных OCR-моделей для GPU с 16 ГБ огромен. Но проблема в другом: как не утонуть в маркетинговых обещаниях «95% точности» и «100+ языков» и выбрать то, что действительно решит твою задачу? Я протестировал пять моделей на реальных данных — от сканов договоров до конспектов с закорючками. Рассказываю, что к чему.

Сразу спойлер: ни одна модель не идеальна для всего. Умный подход — собрать пайплайн из двух-трёх инструментов, переключаясь между ними в зависимости от типа документа. 16 ГБ дают запас для такого комбинирования без танцев с бубном.

Коротко о главном: кто вообще живёт в 16 ГБ?

Давай сразу начистоту. PaddleOCR 4.5 от Baidu — это вечный ветеран, который жрёт всего около 700 МБ VRAM в режиме распознавания и до 2 ГБ с детекцией. Он не требует мощной карты, но на 16 ГБ ты можешь выставить максимальный batch size и одновременно крутить несколько пайплайнов. TrOCR (large) укладывается в 2-3 ГБ, но его качество на рукописном тексте в 2026 году уже не тянет даже на троечку — есть более свежие решения.

А вот GOT-OCR2 (8B параметров) — тёмная лошадка. Официально заявляется, что модель помещается в 8 ГБ с kv-кэшем, но на практике при обработке сложных PDF с кучей bounding boxes потребление скачет до 12-14 ГБ. На 16 ГБ ты в безопасности, но без запаса. Если параллельно крутишь что-то ещё (браузер, IDE), рискуешь получить CUDA out of memory. Так что — или документы, или остальное.

Полевой тест: от печатных договоров до прописи врача

Я прогнал каждую модель через три разных типа контента: идеальный печатный скан (ISO 200), рукописную анкету (средний почерк) и сложную страницу с математическими формулами и таблицами. Результаты — в таблицу:

МодельVRAM (сред.)Печатный текстРукописьФормулы / таблицы
PaddleOCR 4.5 (server)~1.5 ГБОтличноСреднеПлохо
GLM-OCR (CogViT)~6.5 ГБОтличноХорошоОтлично (JSON)
Nemotron OCR v2~3.2 ГБОтличноСреднеХорошо
LightOnOCR-2~2.0-2.5 ГБОтличноХорошоСредне
Qianfan-OCR 4B~3.8 ГБОтличноХорошоХорошо

Как видишь, PaddleOCR по-прежнему король печатного текста и скорости, но на рукописях без дополнительного обучения (финтюнинг) — беспомощен. GLM-OCR, наоборот, отлично понимает контекст, структуру таблиц и даже рукописные формулы — об этом мы уже писали в сравнении с LightOnOCR-2. За это приходится платить не только VRAM, но и временем: на одной странице с таблицами GLM-OCR думает 3-5 секунд на 16 ГБ GPU.

Nemotron OCR v2 от NVIDIA — снайперская винтовка. 34 страницы в секунду на A100, но на RTX 4060 с 16 ГБ — около 12-15 страниц/с. Точность по NED на печатном тексте — ниже 2%. Но на рукописях и формулах она заметно хуже GLM-OCR. Подробнее о её синтетическом обучении — в отдельном материале.

LightOnOCR-2 — французский компромисс. Не такой быстрый, как Nemotron, не такой глубокий, как GLM-OCR, но стабильно хорошо распознаёт печатный и рукописный текст средней сложности. Формулы — проблема, но для 80% задач его хватает. Устанавливается в одну команду — идеально для быстрого старта.

Qianfan-OCR 4B — тёмная лошадка от китайских разработчиков. Поддерживает 192 языка, включая редкие (суахили, вьетнамский, тайский). На печатном тексте точность почти как у PaddleOCR, но на рукописях — чуть хуже. Зато потребляет всего 3.8 ГБ, что оставляет кучу места для пайплайнов. Мы уже рассматривали её как замену громоздкому пайплайну.

Рукописи и формулы: где ломаются даже лучшие

Если ты работаешь с архивами лабораторных или медицинскими картами — готовься к сюрпризам. Я прогнал через все модели один и тот же листок с формулой интеграла, написанной от руки. Результаты:

  • PaddleOCR выдал что-то вроде «S x^2 dx» — потерял знак интеграла, не понял пределы.
  • Nemotron OCR v2 — «∫x^2dx» (без пределов).
  • LightOnOCR-2 — «∫0^1 x^2 dx» (верно!) — редкий случай, когда постпроцессор помог.
  • GLM-OCR — вернул JSON с LaTeX-кодом, правильно расставив пределы и распознав дробь в другом примере.

Вывод: для простых формул LightOnOCR-2 и GLM-OCR пригодны, для сложных — только GLM-OCR. Но GLM-OCR не умеет показывать bounding boxes, что критично для оцифровки таблиц с координатами. В статье о рукописном кошмаре я подробно разбирал, почему большинство моделей «слепнут» на почерке — архитектура CRNN не тянет двумерную структуру формул.

Лучшая стратегия для 16 ГБ: пайплайн, а не одна модель

16 ГБ позволяют запустить две-три модели одновременно. Мой текущий стек на RTX 4060 Ti 16GB выглядит так:

  1. Детекция и простой текст — PaddleOCR 4.5 (быстро, дёшево, сердито).
  2. Сложные документы (таблицы, формулы) — GLM-OCR (точность, но медленно).
  3. Финальная проверка — маленькая LLM (например, Qwen2.5-1.5B) для исправления очевидных ошибок.

В сумме это занимает около 8-9 ГБ, оставшиеся 7 ГБ — для системы и буферизации. Если документы однотипные (только контракты), можно ограничиться Nemotron OCR v2, который выдаёт результат в 10 раз быстрее.

Совет из практики: не пытайся скормить модели PDF целиком. Разбей на страницы, конвертируй в PNG с разрешением 300 DPI — и потребление памяти станет предсказуемым. Особенно это касается GLM-OCR, который на многостраничных документах может незаметно съесть все 16 ГБ из-за скрытого кэширования.

Кому что брать?

Упрощая: если тебе нужно распознавать тонны печатных документов, не глядя на качество рукописей — твой выбор PaddleOCR 4.5 или Nemotron OCR v2. Если работаешь с архивами, где важен каждый символ (медицина, юриспруденция, наука) — GLM-OCR или LightOnOCR-2 (последний — если не хочется заморачиваться с установкой). Для многоязычных проектов (более 100 языков) лучше взять Qianfan-OCR 4B, хотя на редких языках точность может падать.

И главный совет, который я вынес после сотен часов тестов: не гонись за самой большой моделью. Лучший OCR — тот, который не вылетает по памяти в середине батча из 500 страниц. На 16 ГБ RTX 4060 Ti / RTX 5060 Ti ты можешь позволить себе GLM-OCR, если настроишь батч размером 1-2. Но для массовой обработки дешевле и быстрее поставить PaddleOCR + простой корректор. Кстати, о выборе карты — у нас есть гайд по RTX 5060 Ti vs RX 9060 XT.

Подписаться на канал