Когда текст — это не только слова

Представьте архив старых медицинских карт. Бумажные листы, пожелтевшие от времени, с рукописными пометками врачей, печатными бланками, вклеенными рентгеновскими снимками. OCR справляется с текстом, но теряет всё остальное: расположение элементов на странице, структуру таблиц, связь между изображением и подписью к нему.

Именно эту проблему решает Nemotron ColEmbed V2 — семейство моделей от NVIDIA, выпущенных в начале 2026 года. Это не очередной текстовый эмбеддер с довеском для картинок. Это инструмент, который понимает документ как единое визуальное целое.

На 10 февраля 2026 года ColEmbed V2 — самая свежая версия в линейке NVIDIA для мультимодального поиска. Все веса доступны на Hugging Face под лицензией Apache 2.0.

Что умеет ColEmbed V2 (и чего не умеет)

Модель работает по принципу late-interaction, о котором мы подробно писали в разборе архитектуры ColEmbed V2. Если коротко: вместо того чтобы смешивать текст и изображение в один вектор сразу, модель генерирует отдельные эмбеддинги для каждой модальности и сравнивает их только в момент поиска.

На практике это означает:

Поиск по скан-копиям договоров, где важны не только слова, но и подписи, печати, штампы
Поиск в технической документации со схемами и диаграммами
Анализ медицинских изображений с сопутствующими описаниями
Работа с историческими документами, где текст и иллюстрации неразделимы

ColEmbed V2 не заменяет полноценный OCR. Модель работает с изображениями страниц, но для извлечения точного текста всё равно нужны инструменты вроде Tesseract или коммерческие OCR-сервисы.

Три размера на выбор: от скромного до монстра

NVIDIA предлагает три варианта, и выбор зависит от двух вещей: сколько у вас видеопамяти и насколько точный поиск вам нужен.

Модель	Параметры	VRAM (FP16)	ViDoRe V3 Score	Для кого
ColEmbed V2-3B	3 миллиарда	~6 ГБ	72.1	Стартапы, тестирование гипотез
ColEmbed V2-4B	4 миллиарда	~8 ГБ	75.8	Производственные системы
ColEmbed V2-8B	8 миллиарда	~16 ГБ	79.3	Критические системы, финансы, медицина

ViDoRe V3 — это актуальный на 2026 год бенчмарк для оценки качества визуального поиска в документах. Он включает 15 датасетов с разными типами документов: от научных статей до юридических контрактов. Разница в 7.2 пункта между 3B и 8B версиями — это не просто цифры. На практике 8B-модель находит документы, которые 3B-версия пропускает.

💡

Если у вас RTX 4090 с 24 ГБ памяти, берите 8B-версию. Разница в качестве стоит дополнительных гигабайтов. Для RTX 4060 Ti (16 ГБ) тоже подойдёт, но без особого запаса. На картах с 8-12 ГБ — только 4B или 3B с квантованием.

Как это работает в коде (без лишней воды)

Установка проще, чем кажется:

pip install transformers torch torchvision
pip install sentencepiece protobuf pillow

Базовый пример генерации эмбеддингов для документа:

from transformers import AutoProcessor, AutoModel
import torch
from PIL import Image

# Загружаем процессор и модель
processor = AutoProcessor.from_pretrained(
    "nvidia/Nemotron-ColEmbed-V2-8B",
    trust_remote_code=True
)
model = AutoModel.from_pretrained(
    "nvidia/Nemotron-ColEmbed-V2-8B",
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

# Загружаем изображение страницы
doc_image = Image.open("contract_scan.jpg")

# Подготавливаем входные данные
inputs = processor(
    images=doc_image,
    text="Find clauses about termination",
    return_tensors="pt",
    padding=True
).to(model.device)

# Генерируем эмбеддинги
with torch.no_grad():
    outputs = model(**inputs)
    # image_embeddings и text_embeddings доступны отдельно
    image_embeds = outputs.image_embeds
    text_embeds = outputs.text_embeds

Ключевой момент: модель возвращает отдельные эмбеддинги для изображения и текста. Сравнивать их можно через косинусное сходство или любой другой метод.

С чем сравнивать (альтернативы на 2026 год)

ColEmbed V2 не единственный игрок на поле. Вот основные конкуренты:

Amazon Nova Multimodal Embeddings — облачное решение, не требует GPU, но данные уходят в AWS. Подробнее в нашем разборе Amazon Nova.
OpenAI CLIP Variants — старые, но проверенные модели. Хуже справляются со структурированными документами, но отлично работают с естественными изображениями.
Google's Vertex AI Multimodal Embeddings — качество сопоставимо с ColEmbed, но только как сервис. Локально не запустить.
Самодельные решения на основе Llama Nemotron — можно собрать свой пайплайн, как в нашем гайде по мультимодальному RAG, но это сложнее и требует тонкой настройки.

Главное преимущество ColEmbed V2 — локальность. Модель работает на вашем железе, данные никуда не уходят. Для юристов, врачей, финансовых компаний это не просто удобство, а требование законодательства.

Где это пригодится (реальные кейсы)

1. Юридические фирмы. Архив сканированных договоров за 20 лет. Нужно найти все документы с определённым типом подписи или штампом. Текстовый поиск бессилен — штампы не распознаются OCR как текст.

2. Медицинские архивы. Исторические карты пациентов с рукописными пометками врачей, вклеенными результатами анализов. Поиск по фразе "подозрение на пневмонию" должен находить и текстовые записи, и рентгеновские снимки с соответствующими пометками.

3. Научные библиотеки. Оцифрованные исторические документы, где важна не только информация, но и визуальное оформление: карты, схемы, иллюстрации.

4. Корпоративные архивы. Отсканированные приказы, распоряжения, внутренние документы с подписями и печатями. Нужно найти все документы, подписанные конкретным руководителем.

ColEmbed V2 не магическая палочка. Качество поиска сильно зависит от качества исходных сканов. Размытые, перекошенные, засвеченные изображения снижают точность на 30-40%.

Что делать, если не хватает памяти

8B-версия требует ~16 ГБ в FP16. На карте с 12 ГБ можно использовать 4-битное квантование:

from transformers import BitsAndBytesConfig

quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True
)

model = AutoModel.from_pretrained(
    "nvidia/Nemotron-ColEmbed-V2-8B",
    quantization_config=quant_config,
    device_map="auto",
    trust_remote_code=True
)

Это снизит потребление памяти до ~8-9 ГБ, но немного ухудшит качество (примерно на 2-3 пункта на ViDoRe V3).

Кому подойдёт ColEmbed V2 (а кому нет)

Берите ColEmbed V2, если:

Работаете с чувствительными данными, которые нельзя отправлять в облако
Имеете дело со структурированными документами (таблицы, формы, бланки)
Нужен поиск не только по тексту, но и по визуальным элементам
Есть GPU с хотя бы 8 ГБ памяти

Не тратьте время, если:

Работаете только с чистым текстом (без сканов, PDF с изображениями)
Нет доступа к GPU или есть только CPU
Документы низкого качества (очень плохие сканы, сильные искажения)
Нужен real-time поиск по миллионам документов — ColEmbed быстрый, но не настолько

Что дальше? (неочевидный совет)

Не используйте ColEmbed V2 изолированно. Комбинируйте его с другими инструментами из экосистемы NVIDIA. Например, для извлечения текста из сканов используйте NVIDIA NeMo Parakeet (последняя версия на 2026 год), а для семантического поиска по извлечённому тексту — Nemotron 3 Nano.

Самый эффективный пайплайн выглядит так:

Извлекаем текст и разметку с помощью OCR
Генерируем визуальные эмбеддинги страниц через ColEmbed V2
Создаём текстовые эмбеддинги через Nemotron 3 Nano
Храним всё в векторной БД с поддержкой мультимодального поиска

И последнее: не ждите, что модель заработает идеально из коробки. ColEmbed V2 обучена на общих данных. Для узких доменов (медицинские снимки, инженерные чертежи) потребуется дообучение. И да, на это уйдёт время и ресурсы. Но результат того стоит — поиск, который действительно понимает, что в ваших документах.

Nemotron ColEmbed V2: NVIDIA заставляет PDF и сканы говорить