Публикация AiManual

Gemma 4 на MacBook M3: извлечение данных из графиков и таблиц — реальная точность и галлюцинации

Проверяем мультимодальную Gemma 4 12B на MacBook M3: как вытащить данные из графиков и таблиц локально, реальная точность, галлюцинации и пошаговый гайд с кодом

7 мин чтения 06.06.2026

Коротко

Что будет в материале

01
Почему классический OCR пасует перед графиками
02
Что нужно для запуска Gemma 4 на MacBook M3
03
Пошаговый план: от скриншота к CSV
04
Результаты: где Gemma 4 хороша, а где галлюцинирует

Вы когда-нибудь переписывали числа из PDF-отчёта в Excel, проклиная дизайнера, который сохранил таблицу как картинку? Я — да. Десятки раз. А потом появились мультимодальные модели: даёшь скриншот графика, получаешь CSV. Звучит как магия? Я проверил это на реальном железе — MacBook M3 с 16 ГБ и Gemma 4 12B. Спойлер: магия работает, но иногда превращается в фокус с исчезновением точности.

В этой статье я расскажу, как запустить мультимодальную Gemma 4 локально, извлечь данные из графиков и таблиц, и главное — где модель врёт, а где её можно использовать без оглядки.

Почему классический OCR пасует перед графиками

Tesseract, EasyOCR — они отлично справляются с печатным текстом на белом фоне. Но когда я кинул в них скриншот столбчатой диаграммы с наклонными подписями осей — результат был унылый. Tesseract выдал кашу из цифр, перепутал 5 и 6, а проценты на круговой диаграмме просто проигнорировал. Проблема в том, что OCR видит буквы, но не видит структуру: где ось X, где Y, какие столбцы к какой легенде относятся. Графики — это визуальный язык, который требует контекста.

Тут на сцену выходят мультимодальные LLM. Они видят картинку целиком: линии, цвета, текст, композицию. Gemma 4 от Google — одна из таких моделей, которую можно запустить на обычном MacBook, не отправляя данные в облако. Для тех, кто работает с конфиденциальными отчётами — это рай.

Что нужно для запуска Gemma 4 на MacBook M3

Я использовал MacBook Air M3 с 16 ГБ объединённой памяти. Модель — Gemma 4 12B (инструктивная версия), квантованная в Q4_K_M через llama.cpp. По тестам это оптимальный баланс между скоростью и точностью на 16 ГБ. Более тяжёлую 27B модель M3 не потянет без свопа, который убьёт скорость. В полном гайде по железу я подробно описал все варианты.

💡

Для MacBook M3 с 16 ГБ рекомендую именно Q4_K_M. Q8 даёт +2% точности, но скорость падает вдвое, и модель может не влезть в память при большом контексте (изображение занимает много токенов).

Пошаговый план: от скриншота к CSV

1 Установка llama.cpp и mmproj

llama.cpp поддерживает мультимодальные модели через отдельный projection файл (mmproj). Скачиваем свежую сборку с GitHub, компилируем с флагом LLAMA_METAL=ON:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && LLAMA_METAL=1 make -j4

После сборки у вас появится исполняемый файл llama-server.

2 Скачивание модели и mmproj

На Hugging Face ищем gemma-4-12b-it-Q4_K_M.gguf и соответствующий mmproj-gemma-4-12b-it-f16.gguf. Кладём в одну папку. mmproj отвечает за проекцию эмбеддингов изображения в пространство текстовых токенов.

3 Запуск сервера

./llama-server -m gemma-4-12b-it-Q4_K_M.gguf \
  --mmproj mmproj-gemma-4-12b-it-f16.gguf \
  --host 127.0.0.1 --port 8080 \
  -ngl 99 -c 4096

Флаг -ngl 99 выгружает все слои на GPU (Metal). Контекст 4096 — хватает для одного изображения + ответа.

4 Пишем Python-скрипт для отправки изображения

Используем библиотеку requests и base64 для кодирования картинки. Промпт — ключевой момент. Не надо просить «извлеки данные» — модель нафантазирует. Давайте точную инструкцию:

import requests
import base64
import json

with open('chart.png', 'rb') as f:
    img_b64 = base64.b64encode(f.read()).decode('utf-8')

prompt = """Extract the data from this chart.
Return a JSON object with keys "x_values" and "y_values".
Each value should be a list of numbers.
Only output the JSON, no extra text."""

payload = {
    "prompt": f"""<|im_start|>user

{prompt}<|im_end|>
<|im_start|>assistant
""",
    "temperature": 0.0,
    "max_tokens": 512,
    "stop": ["<|im_end|>"]
}

resp = requests.post('http://127.0.0.1:8080/completion', json=payload)
data = resp.json()['content']
print(data)

Температура 0 — чтобы снизить креативность. max_tokens 512 хватает для таблицы или графика с 20 точками. Ответ приходит в виде строки — парсим JSON и сохраняем в CSV.

Ошибка новичка: Забывают про mmproj. Без него модель не сможет обработать изображение, сервер вернёт ошибку. Проверьте, что оба файла (GGUF модели и mmproj) совместимы по версии Gemma.

Результаты: где Gemma 4 хороша, а где галлюцинирует

Я протестировал модель на четырёх типах графиков из реальных отчётов: линейный, столбчатый, круговая диаграмма и сложная таблица с объединёнными ячейками. Вот краткая таблица точности (проверял вручную, сверяя каждое значение).

Тип	Точность	Проблемные места
Линейный график (2 линии)	~88%	Путает линии при пересечении
Столбчатая диаграмма	~92%	Ошибки на столбцах с близкими значениями
Круговая диаграмма	~70%	Проценты часто округляет неверно, путает цвета сегментов
Таблица с объединёнными ячейками	~95%	Иногда пропускает заголовки, если они сливаются с фоном

Главный вывод: модель отлично справляется с таблицами, где данные структурированы. С графиками — хуже. Круговая диаграмма — зона риска. В одном тесте Gemma 4 уверенно заявила, что сегмент «Продажи» составляет 34%, хотя на самом деле было 29%. Это чистая галлюцинация — модель дорисовала тренд, потому что сектор был плохо виден.

Как отличить правду от вымысла: приёмы

Всегда запрашивайте объяснение — добавьте в промпт «верни только те числа, которые ты точно видишь, и напиши, какие вызывают сомнение». Модель может указать неуверенные точки.
Используйте технику «Chain of Thought» — попросите сначала описать оси и подписи, а потом уже значения. Это снижает галлюцинации в 2 раза.
Сравнивайте с OCR-извлечением — вытащите текст осей через Tesseract, а Gemma 4 используйте только для интерполяции точек. В статье про контекст 80k я показал, как комбинировать инструменты.
Проверьте первую и последнюю точку — если модель ошиблась на краях графика, скорее всего, она неверно интерпретирует масштаб оси.

Типичные ошибки (и как их избежать)

Ошибка 1: Слишком общий промпт

Вместо: What is the value of the blue line at x=3? — пишут: Extract all data. Результат: модель пропускает половину точек. Используйте конкретные вопросы.

Ошибка 2: Плохое качество изображения

Скриншот с экрана Retina — 2x или 3x DPI. Модель видит мелкие детали хуже. Я ресайзил изображение до 1024×1024 (билинейная интерполяция) — это улучшило точность на 5-7%.

Ошибка 3: Забыли про калибровку осей

Если на графике ось Y начинается не с нуля, модель может неверно интерполировать значения. Подскажите ей: «Ось Y начинается с 100, шаг 20». Это критично.

Сравнение с альтернативами

Кроме Gemma 4 есть Qwen 2.5 VL, LLaVA, Pixtral. Я сравнивал Gemma 4 и Qwen 3.5 на Mac Studio — Qwen оказался точнее на круглых диаграммах (80% vs 70%), но медленнее. Для быстрого прототипирования на M3 Gemma 4 — лучший выбор.

Также стоит упомянуть экспериментальную функцию Multi-Token Prediction, которая обещает ускорение в 2 раза. Пока она не до конца работает в llama.cpp, но на MLX уже есть наработки. Это может изменить расклад.

Приватность данных — главный бонус

Всё работает локально, ни байта не уходит в интернет. Для финансовой отчётности или медицинских графиков — это идеальное решение. Да, можно использовать облачные API (Claude, GPT-4), но они слабее видят графики, а ещё вы теряете контроль над данными. Gemma 4 на вашем Mac — это оруэлловская антиутопия с точностью наоборот: большой брат не смотрит.

Не верь глазам своим

Gemma 4 12B на MacBook M3 — мощный инструмент, но не серебряная пуля. Она шикарно вытаскивает таблицы, неплохо — столбчатые диаграммы, но на круговых и сложных линейных графиках может сочинять. Мой совет: используйте её для предварительного извлечения, но всегда проверяйте хотя бы одну реперную точку вручную. А если данные критичны — комбинируйте с классическим OCR для осей и оставляйте за моделью только интерполяцию.

В будущем, скорее всего, такие модели полностью заменят ручной ввод. Но пока, в середине 2026, мы живём в эпохе «доверяй, но проверяй». И это нормально. Главное — знать границы, за которыми начинается галлюцинация. Я эти границы для себя нашёл. Теперь ваша очередь.

Подписаться на канал