IRIS 18B: обзор модели, квантование GGUF, интеграция с локальными ИИ-инструментами | AiManual
AiManual Logo Ai / Manual.
10 Фев 2026 Инструмент

IRIS 18B: Кастомная модель, которая заменит вам ассистента — если у вас есть 24 ГБ VRAM

Разбираем IRIS 18B — кастомную LLM на базе ERNIE с обучением на thinking traces, квантование в GGUF и интеграцию в локальные инструменты. Тесты, сравнения, уста

Китайские модели в 2025 году — это уже не просто клоны LLaMA. ERNIE от Baidu давно перерос статус "местной альтернативы", а кастомные сборки на его основе порой удивляют больше, чем официальные релизы. IRIS 18B — именно такой случай. Это не очередная тонкая настройка на инструкциях, а радикальная переделка с прицелом на работу с инструментами.

Что внутри этого франкенштейна?

IRIS 18B — это 18-миллиардная модель, построенная на базе ERNIE 3.0-50B через агрессивный pruning (обрезание). Авторы выкинули больше половины параметров, но не просто так. Они использовали метод ERNIE Pruning с сохранением архитектуры — модель осталась функционально совместимой с оригиналом, но стала влезать в 24 ГБ VRAM.

На 10 февраля 2026 года актуальная версия — IRIS-18B-v1.1. Ранние релизы v1.0 уже считаются устаревшими, особенно в части стабильности тул-коллинга.

Самое интересное — обучение. Вместо стандартного SFT (Supervised Fine-Tuning) авторы применили "training on thinking traces". Грубо говоря, они кормили модели не просто вопросы и ответы, а полные цепочки рассуждений: "Пользователь спросил X → модель решила использовать веб-поиск → получила данные Y → скомпилировала ответ Z". Это должно было научить IRIS не просто отвечать, а планировать действия.

Зачем это вообще нужно?

Потому что большинство локальных моделей с тул-коллингом в 2026 году — это обман. Они умеют вызывать функции, но делают это хаотично. Вы просите "найди последние новости про ИИ", а модель сначала пытается открыть файл, потом ищет в своей памяти, и только потом догадывается использовать поиск. IRIS пытается решить эту проблему через архитектурное наследие ERNIE (изначально заточенного под поиск) и обучение на цепочках.

В теории. На практике всё сложнее, но об этом позже.

Квантование GGUF: какой вариант выбрать?

Модель доступна на Hugging Face в разных форматах, но для локального запуска нужен GGUF. Здесь стандартный набор:

Версия Размер Качество Минимальные требования
Q8_0 ~12 ГБ Почти полная точность 16 ГБ VRAM
Q6_K ~9 ГБ Отличный баланс 12 ГБ VRAM
Q4_K_M ~6.5 ГБ Приемлемо для инструментов 8 ГБ VRAM
IQ3_XS ~4.8 ГБ Только для тестов 6 ГБ VRAM

Мой совет: если у вас карта уровня RTX 5080 (или эквивалент с 16+ ГБ), берите Q6_K. Потеря качества минимальна, а экономия места существенна. Q4_K_M уже начинает сбоить на сложных цепочках инструментов — модель "забывает", что она только что искала в вебе.

Внимание: IRIS 18B использует специфический формат GGUF с поддержкой CPT (Checkpoint) метаданных. Убедитесь, что ваш инференс-движок (Ollama, llama.cpp и т.д.) поддерживает эту версию формата. Старые сборки от 2024 года могут не загрузить модель.

Интеграция с локальными инструментами: где этот зверь приживется?

Здесь начинается самое интересное. IRIS позиционируется как "daily driver" — модель для повседневных задач с инструментами. Но в 2026 году экосистема локального ИИ фрагментирована до боли.

Ollama + Open WebUI

Стандартный путь. Создаёте Modelfile:

FROM ./iris-18b-v1.1-q6_k.gguf
PARAMETER num_ctx 16384
PARAMETER temperature 0.7
TEMPLATE """{{ .Prompt }}"""
SYSTEM """Ты — ассистент IRIS, умеющий работать с инструментами."""

Запускаете ollama create iris -f ./Modelfile и подключаете к Open WebUI через API. Работает, но тул-коллинг требует дополнительной настройки плагинов — из коробки только базовые функции.

LM Studio / Faraday

Для тех, кто не хочет возиться с терминалом. Оба приложения на 10.02.2026 поддерживают GGUF с CPT. Загружаете файл, выбираете пресет "Tool Calling", настраиваете инструменты через GUI. Faraday удобнее для новичков, LM Studio даёт больше контроля.

Самописные системы на Rust

Если вы из тех, кто собирает локальные AI-рабочие пространства на Rust, IRIS может стать хорошим ядром. Модель относительно стабильна в инференсе, не выкидывает случайные ошибки формата. Но придётся реализовывать свой парсер для её специфического формата вызовов инструментов.

Сравнение с альтернативами: кто реально лучше?

Давайте без иллюзий. В 2026 году на рынке локальных моделей с тул-коллингом творится хаос. Вот как IRIS 18B выглядит на фоне других:

  • MiniMax M2 Ultra (34B) — мощнее, умнее, но требует 48 ГБ VRAM даже в Q4. Для большинства смертных недоступна. IRIS выигрывает в эффективности.
  • Liquid AI LFM2-2.6B — противоположный подход. Крошечная, но невероятно эффективная модель, о которой мы уже писали. IRIS проигрывает в скорости, но выигрывает в сложности задач.
  • Llama 3.3 70B (квантованная) — золотой стандарт. Но её Q4 версия всё ещё требует 32+ ГБ RAM. IRIS работает на более скромном железе.
  • Стандартные китайские модели (Qwen, DeepSeek) — у них лучше общая эрудиция, но тул-коллинг реализован криво. IRIS специализирован именно на инструментах.

Правда в том, что IRIS 18B занимает узкую нишу: те, у кого есть 16-24 ГБ VRAM, но нет желания или возможности запускать 70B модели. Это модель для конкретного использования, а не для общих разговоров.

Где модель сбоит (и это раздражает)

После недели тестов я нашёл несколько болезненных точек:

  1. Английский vs китайский. Модель обучена в основном на английских thinking traces. На русском она иногда "теряет" контекст инструментов. Просишь найти что-то в файле — она отвечает общими фразами.
  2. Длинные цепочки. Заявленные 16K контекста работают, но после 12K токенов модель начинает путать, какой инструмент она уже использовала. Это проблема обучения, не железа.
  3. Специфичный формат ответов. IRIS иногда выдаёт JSON для инструментов в нестандартном формате. Приходится писать кастомные адаптеры.
💡
Если вы только начинаете погружение в мир локальных LLM, посмотрите полный каталог инструментов. Там есть всё, от инференс-движков до систем RAG. IRIS — лишь один из вариантов.

Кому стоит качать IRIS 18B прямо сейчас?

Эта модель не для всех. Вот портрет идеального пользователя:

  • У вас есть GPU с 16+ ГБ VRAM (RTX 5080, 4090, или аналог от AMD с хорошей поддержкой ROCm).
  • Вы уже устали от того, что локальные модели не умеют нормально работать с инструментами.
  • Вам не нужна модель для философских бесед — вам нужен рабочий инструмент.
  • Вы готовы потратить 2-3 часа на настройку и адаптацию под свою систему.
  • Вы понимаете, что кастомная модель — это всегда компромисс.

Если вы подходите под это описание — скачивайте Q6_K версию с Hugging Face и пробуйте. Если нет — возможно, лучше посмотреть на другие модели для RTX 5080 или даже подождать следующих версий.

IRIS 18B — интересный эксперимент, который показывает, куда движется индустрия в 2026 году. Мы уходим от гигантских универсальных моделей к специализированным сборкам, заточенным под конкретные задачи. Это здорово, потому что даёт выбор. И это ужасно, потому что усложняет выбор.

Лично я оставил IRIS в своей ротации моделей. Не как основную, а как специалиста по работе с файловой системой и веб-поиском. Когда нужно проанализировать папку с логами или найти свежие данные по API — она справляется лучше других. Для всего остального есть другие кандидаты в архив на случай апокалипсиса.

Мой прогноз: к середине 2026 года мы увидим десятки таких кастомных сборок. Каждая будет оптимизирована под свой набор инструментов. И выбор "лучшей модели" превратится в выбор "лучшего набора моделей". Готовьте свои SSD.