16 гигабайт видеопамяти — это уже не роскошь, а рабочая лошадка для AI-энтузиаста. Но хватит ли их, чтобы запустить самую крутую OCR-модель и не словить Out of Memory? Или лучше взять что-то полегче, но с нюансами?
В 2026 году выбор локальных OCR-моделей для GPU с 16 ГБ огромен. Но проблема в другом: как не утонуть в маркетинговых обещаниях «95% точности» и «100+ языков» и выбрать то, что действительно решит твою задачу? Я протестировал пять моделей на реальных данных — от сканов договоров до конспектов с закорючками. Рассказываю, что к чему.
Сразу спойлер: ни одна модель не идеальна для всего. Умный подход — собрать пайплайн из двух-трёх инструментов, переключаясь между ними в зависимости от типа документа. 16 ГБ дают запас для такого комбинирования без танцев с бубном.
Коротко о главном: кто вообще живёт в 16 ГБ?
Давай сразу начистоту. PaddleOCR 4.5 от Baidu — это вечный ветеран, который жрёт всего около 700 МБ VRAM в режиме распознавания и до 2 ГБ с детекцией. Он не требует мощной карты, но на 16 ГБ ты можешь выставить максимальный batch size и одновременно крутить несколько пайплайнов. TrOCR (large) укладывается в 2-3 ГБ, но его качество на рукописном тексте в 2026 году уже не тянет даже на троечку — есть более свежие решения.
А вот GOT-OCR2 (8B параметров) — тёмная лошадка. Официально заявляется, что модель помещается в 8 ГБ с kv-кэшем, но на практике при обработке сложных PDF с кучей bounding boxes потребление скачет до 12-14 ГБ. На 16 ГБ ты в безопасности, но без запаса. Если параллельно крутишь что-то ещё (браузер, IDE), рискуешь получить CUDA out of memory. Так что — или документы, или остальное.
Полевой тест: от печатных договоров до прописи врача
Я прогнал каждую модель через три разных типа контента: идеальный печатный скан (ISO 200), рукописную анкету (средний почерк) и сложную страницу с математическими формулами и таблицами. Результаты — в таблицу:
| Модель | VRAM (сред.) | Печатный текст | Рукопись | Формулы / таблицы |
|---|---|---|---|---|
| PaddleOCR 4.5 (server) | ~1.5 ГБ | Отлично | Средне | Плохо |
| GLM-OCR (CogViT) | ~6.5 ГБ | Отлично | Хорошо | Отлично (JSON) |
| Nemotron OCR v2 | ~3.2 ГБ | Отлично | Средне | Хорошо |
| LightOnOCR-2 | ~2.0-2.5 ГБ | Отлично | Хорошо | Средне |
| Qianfan-OCR 4B | ~3.8 ГБ | Отлично | Хорошо | Хорошо |
Как видишь, PaddleOCR по-прежнему король печатного текста и скорости, но на рукописях без дополнительного обучения (финтюнинг) — беспомощен. GLM-OCR, наоборот, отлично понимает контекст, структуру таблиц и даже рукописные формулы — об этом мы уже писали в сравнении с LightOnOCR-2. За это приходится платить не только VRAM, но и временем: на одной странице с таблицами GLM-OCR думает 3-5 секунд на 16 ГБ GPU.
Nemotron OCR v2 от NVIDIA — снайперская винтовка. 34 страницы в секунду на A100, но на RTX 4060 с 16 ГБ — около 12-15 страниц/с. Точность по NED на печатном тексте — ниже 2%. Но на рукописях и формулах она заметно хуже GLM-OCR. Подробнее о её синтетическом обучении — в отдельном материале.
LightOnOCR-2 — французский компромисс. Не такой быстрый, как Nemotron, не такой глубокий, как GLM-OCR, но стабильно хорошо распознаёт печатный и рукописный текст средней сложности. Формулы — проблема, но для 80% задач его хватает. Устанавливается в одну команду — идеально для быстрого старта.
Qianfan-OCR 4B — тёмная лошадка от китайских разработчиков. Поддерживает 192 языка, включая редкие (суахили, вьетнамский, тайский). На печатном тексте точность почти как у PaddleOCR, но на рукописях — чуть хуже. Зато потребляет всего 3.8 ГБ, что оставляет кучу места для пайплайнов. Мы уже рассматривали её как замену громоздкому пайплайну.
Рукописи и формулы: где ломаются даже лучшие
Если ты работаешь с архивами лабораторных или медицинскими картами — готовься к сюрпризам. Я прогнал через все модели один и тот же листок с формулой интеграла, написанной от руки. Результаты:
- PaddleOCR выдал что-то вроде «S x^2 dx» — потерял знак интеграла, не понял пределы.
- Nemotron OCR v2 — «∫x^2dx» (без пределов).
- LightOnOCR-2 — «∫0^1 x^2 dx» (верно!) — редкий случай, когда постпроцессор помог.
- GLM-OCR — вернул JSON с LaTeX-кодом, правильно расставив пределы и распознав дробь в другом примере.
Вывод: для простых формул LightOnOCR-2 и GLM-OCR пригодны, для сложных — только GLM-OCR. Но GLM-OCR не умеет показывать bounding boxes, что критично для оцифровки таблиц с координатами. В статье о рукописном кошмаре я подробно разбирал, почему большинство моделей «слепнут» на почерке — архитектура CRNN не тянет двумерную структуру формул.
Лучшая стратегия для 16 ГБ: пайплайн, а не одна модель
16 ГБ позволяют запустить две-три модели одновременно. Мой текущий стек на RTX 4060 Ti 16GB выглядит так:
- Детекция и простой текст — PaddleOCR 4.5 (быстро, дёшево, сердито).
- Сложные документы (таблицы, формулы) — GLM-OCR (точность, но медленно).
- Финальная проверка — маленькая LLM (например, Qwen2.5-1.5B) для исправления очевидных ошибок.
В сумме это занимает около 8-9 ГБ, оставшиеся 7 ГБ — для системы и буферизации. Если документы однотипные (только контракты), можно ограничиться Nemotron OCR v2, который выдаёт результат в 10 раз быстрее.
Совет из практики: не пытайся скормить модели PDF целиком. Разбей на страницы, конвертируй в PNG с разрешением 300 DPI — и потребление памяти станет предсказуемым. Особенно это касается GLM-OCR, который на многостраничных документах может незаметно съесть все 16 ГБ из-за скрытого кэширования.
Кому что брать?
Упрощая: если тебе нужно распознавать тонны печатных документов, не глядя на качество рукописей — твой выбор PaddleOCR 4.5 или Nemotron OCR v2. Если работаешь с архивами, где важен каждый символ (медицина, юриспруденция, наука) — GLM-OCR или LightOnOCR-2 (последний — если не хочется заморачиваться с установкой). Для многоязычных проектов (более 100 языков) лучше взять Qianfan-OCR 4B, хотя на редких языках точность может падать.
И главный совет, который я вынес после сотен часов тестов: не гонись за самой большой моделью. Лучший OCR — тот, который не вылетает по памяти в середине батча из 500 страниц. На 16 ГБ RTX 4060 Ti / RTX 5060 Ti ты можешь позволить себе GLM-OCR, если настроишь батч размером 1-2. Но для массовой обработки дешевле и быстрее поставить PaddleOCR + простой корректор. Кстати, о выборе карты — у нас есть гайд по RTX 5060 Ti vs RX 9060 XT.