Ollama на llama.cpp: последствия для локальных AI

Бэкенд-революция: Ollama отказывается от GGML

14 мая 2026 года команда Ollama официально объявила о переводе своего бэкенда на нативный llama.cpp. Релиз v0.30.0 больше не использует формат GGML для загрузки моделей — теперь всё крутится напрямую через llama.cpp. Это не просто смена галочки в конфиге, а глубокая перестройка под капотом.

Для сообщества локальных LLM это одновременно и подарок, и пощёчина. С одной стороны — конец тормозам при адаптации новых архитектур. С другой — скандальный шлейф вокруг атрибуции. Разбираемся, кого и за что благодарить (или не благодарить).

Откуда ветер дует: GGML vs llama.cpp

До сих пор Ollama использовала собственную прослойку на базе формата GGML и его библиотеки. Это работало, но медленно. Каждая новая модель от Meta, Mistral или Microsoft проходила долгий путь: сначала её адаптировали под GGML, писали конвертеры, тестировали. Пользователи ждали неделями, пока модель появится в Ollama.

llama.cpp — это детище Gerganov и его команды. Он давно стал золотым стандартом для запуска LLM на CPU и GPU. С ним модель работает быстрее, меньше жрёт памяти и поддерживает квантование на лету. В новом инструменте llama-eval уже заложили векторы для мультимодальности, а сам бэкенд обновляется чуть ли не ежедневно.

Раньше Ollama вынуждена была ждать, пока все фичи llama.cpp пройдут дополнительную прослойку GGML. Теперь — прямой доступ. Если llama.cpp завтра поддержит новую архитектуру, Ollama подхватит её через день, а не через месяц.

Для тех, кто не хочет заморачиваться с бэкендами, но хочет локальный AI, примером может служить история «Чемодан без ручки: как я бросил ChatGPT и перетащил AI к себе на компьютер». Там подробно разбирается, почему прямой доступ к железу через llama.cpp оказывается удобнее замкнутых экосистем.

Драма с атрибуцией: кто автор оды?

Настоящий скандал разгорелся вокруг атрибуции. В анонсе релиза Ollama команда проекта практически не упомянула разработчиков llama.cpp. Ни слова о Gerganov, ни ссылки на репозиторий. Только сухое «обновлён бэкенд». Сообщество взорвалось.

В ответ Gerganov в своём репозитории llama.cpp выложил пост с «претензией к Ollama»: «Мы потратили годы на оптимизацию, а нас просто стирают ластиком». Тред набрал сотни комментариев. Часть пользователей встала на сторону Ollama — мол, они используют код по лицензии MIT, атрибуция необязательна. Но осадочек остался.

Ребята из llama-swap тут же выпустили ехидный пост: «Наш инструмент — легковесный убийца Ollama. При этом мы честно благодарим всех авторов библиотек. Учитесь, Ollama».

Пока официальный ответ от команды Ollama не последовал. Но уже заметно, что они добавили внизу анонса мелкий шрифт с благодарностью «сообществу llama.cpp». Пиксельного размера.

Что это значит для пользователей?

Конкретика:

Скорость появления моделей — теперь при выходе новой архитектуры (например, недавний LLaMA 3.2) не придётся ждать конвертации в GGML. Если llama.cpp поддерживает — Ollama забирает сразу.
Совместимость с квантованными форматами — llama.cpp использует собственную систему квантования (Q4_0, Q5_K_M и т.д.), которая более гибкая, чем GGML. Модели, скачанные до этого, могут не подойти. Придётся перезаливать квантизации.
Производительность — на тестовых запусках Mistral 7B v0.3 прирост скорости инференса составил 12-15% на том же железе. Это за счёт оптимизаций, которые раньше Ollama дублировала.

Тем, кто не хочет переустанавливать модели, стоит обратить внимание на сравнительный обзор LM Studio vs llama.cpp — там разобраны нюансы совместимости между форматами GGUF и GGML. Спойлер: GGUF победил, и Ollama теперь тоже его использует.

Важно: если вы обновили Ollama до v0.30.0, а модели не запускаются — проверьте, не лежат ли у вас файлы *.ggml. Новый бэкенд их просто игнорирует. Скачивайте модели в GGUF через ollama pull — сервер сам подложит правильную версию.

Куда качнётся экосистема?

Переход на llama.cpp — это не просто технический ход, а политическое заявление. Ollama больше не является «дружелюбным посредником» между open-source движками и пользователями. Теперь они — прямой игрок на поле llama.cpp. А это значит, что конкуренция между ними будет только расти.

Моё личное мнение: в ближайшие полгода мы увидим форк llama.cpp, который будет специально заточен под Ollama. Или Ollama начнёт поддерживать ещё один бэкенд — например, от Apple MLX. Иначе зависимость от одного проекта становится критической.

Пока же пользователям стоит быть готовыми к быстрому обновлению. Скачивайте модели заново, отслеживайте changelog и не забывайте ставить звёзды авторам, чей код вы используете. Иначе через год может не остаться ни одного бесплатного бэкенда.

Подписаться на канал

Ollama переходит на llama.cpp: что это значит для пользователей локальных моделей

Бэкенд-революция: Ollama отказывается от GGML

Откуда ветер дует: GGML vs llama.cpp

Драма с атрибуцией: кто автор оды?

Что это значит для пользователей?

Куда качнётся экосистема?

Подписывайтесь на наш канал!