Bleeding Llama: утечка памяти в Ollama и защита

Невидимый вампир, который высасывает вашу память

Представьте: вы запустили локальную LLM через Ollama, гордитесь своей приватностью, а кто-то через простой HTTP-запрос уже читает историю чатов, API-ключи и конфиденциальные документы, которые оказались в памяти процесса. Звучит как сценарий фильма ужасов? В мае 2024 года это стало реальностью — уязвимость Bleeding Llama (CVE-2024-37032) потрясла сообщество. Но даже в 2026 году многие администраторы до сих пор не закрыли эту дыру.

Разберёмся, как работает эта атака, почему она до сих пор актуальна и как не дать своей LLM превратиться в ведро с утечками.

Важно: Exploit уже давно в открытом доступе. Если ваш Ollama сервер всё ещё имеет старую версию — вы под прицелом.

Как работает Bleeding Llama: никакой магии, только переполнение буфера

Ollama использует HTTP-сервер для обработки запросов. Bleeding Llama — это классическая уязвимость типа buffer overflow, но с изюминкой. Злоумышленник отправляет специально сформированный запрос (например, длинный заголовок или некорректный JSON), и сервер, пытаясь его обработать, читает данные за пределами выделенной памяти. В результате атакующий получает фрагменты оперативной памяти процесса — а там может оказаться что угодно: от предыдущих промптов до ключей шифрования.

Самое страшное: уязвимость не требует аутентификации. Любой, кто может достучаться до порта Ollama (по умолчанию 11434), способен вытянуть до нескольких мегабайт чужой памяти за один запрос. И это не теория — PoC-код появился в сети через день после публикации CVE.

Кстати, похожая проблема ранее всплывала в llama.cpp — критическая дыра позволяла RCE. Ollama пошла по стопам «старшего брата», но с другим вектором атаки.

Кто в зоне риска? Практически все, кто не обновился

Уязвимость была исправлена в Ollama 0.1.34, выпущенной в середине 2024 года. Но, как показывают сканирования Shodan, даже в начале 2026 года тысячи серверов всё ещё работают на версиях <0.1.34. Почему? Администраторы забывают обновляться, используют образы Docker с fix-версией, а некоторые и вовсе не знают о проблеме.

Если ваш Ollama сервер доступен из интернета (а такие «гении» встречаются, даже после нашей статьи «Хочешь вытащить свою LLM в интернет? Ты или гений, или самоубийца»), то Bleeding Llama — лишь верхушка айсберга. Но даже во внутренней сети атака возможна от любого скомпрометированного хоста.

Сценарий атаки: от любопытства до кражи секретов

Предположим, ваш Ollama используется для внутреннего чат-бота с базой знаний компании. Сотрудник загружает конфиденциальный документ через RAG, вы задаёте вопросы — всё это остаётся в памяти процесса. Атакующий, получив сетевой доступ, отправляет вредоносный запрос и выгружает куски памяти до того, как они будут перезаписаны. В лучшем случае — увидит обрывки старых диалогов. В худшем — вытащит токены доступа к вашим внутренним сервисам.

Ещё более коварный вариант: если вы используете Ollama вместе с инструментами вроде Continue или Open WebUI, через память могут «протечь» авторизационные хеши или данные других пользователей. И тогда один скомпрометированный юзер может прочитать чужую переписку.

💡 Bleeding Llama — это не единственная угроза для локальных LLM. В нашем полном гайде по защите локальных LLM мы разобрали все популярные векторы атак и способы защиты.

Проверка: уязвим ли ваш сервер прямо сейчас?

Не ждите, пока хакер проверит за вас. Откройте терминал и выполните:

ollama --version

Если версия ниже 0.1.34 — вы в зоне риска. Немедленно обновляйтесь.

Также проверьте, кто имеет доступ к порту 11434. Идеально — слушать только на localhost, если сервер не нужно публиковать. Для удалённого доступа используйте nginx с базовой аутентификацией или SSH-туннель.

Как защититься: четыре простых шага

Обновите Ollama — скачайте последнюю версию с официального сайта. На момент мая 2026 года это 0.6.2 (актуальную проверяйте на ollama.com). И не забудьте перезапустить сервис.
Ограничьте доступ к API — используйте брандмауэр или iptables, чтобы разрешить подключения только доверенным IP.
Отключите лишние эндпоинты — если не используете, например, /api/ps, закройте его через обратный прокси.
Включите изоляцию процессов — запускайте Ollama в Docker с минимальными привилегиями или в отдельной виртуальной машине.

Кстати, любителям тонкой настройки: утечки памяти могут происходить не только из-за уязвимостей, но и из-за банальной фрагментации кучи glibc. В статье «Ваш LLM сервер жрёт память как не в себя?» описано, как это исправить за 5 минут.

Не повторяйте чужих ошибок

История с Bleeding Llama — идеальный пример того, как одна строка кода может похоронить приватность тысяч пользователей. Ollama быстро выпустила патч, но человеческая лень оказалась сильнее. Не становитесь частью печальной статистики.

Если вы только строите свою систему с локальными LLM — сразу закладывайте безопасность на всех уровнях: от изоляции сети до шифрования данных в памяти. И помните: локальный ИИ — это не панацея, если он торчит наружу с открытыми дверями.

Проверьте свой сервер уже сегодня. Утечка памяти не прощает промедления.

Подписаться на канал

Критическая утечка памяти в Ollama: уязвимость Bleeding Llama и меры защиты