Три месяца назад модель Ling 17B давала стабильные 24 токена в секунду на RTX 4070. Сегодня - 48. Ровно в два раза быстрее. Это не магия, а результат агрессивной оптимизации, которую провели разработчики inclusionAI. И теперь эта модель - главный претендент на звание "самой быстрой 17B модели для ограниченного железа".
Что случилось за эти 90 дней?
История началась с октябрьского релиза Ling 17B v1. Модель работала стабильно, но медленно. 24 токена в секунду - это уровень, на котором сегодня работают многие 13B модели. Для 17B - откровенно слабо. Разработчики получили тонну фидбека (больше половины - недовольство скоростью) и ушли в тихий режим разработки.
Ключевое изменение: переход на архитектуру Mixture of Experts (MOE) с динамической активацией экспертов. Вместо того чтобы грузить все 17 миллиардов параметров каждый раз, модель теперь загружает только 4-6 миллиардов активных параметров во время инференса. Результат - почти двукратный прирост скорости.
Бенчмарк: холодные цифры против горячих видеокарт
Я тестировал на трех конфигурациях:
- RTX 4070 (12GB VRAM) + 32GB RAM
- RTX 4060 Ti (8GB VRAM) + 32GB RAM
- MacBook M2 Pro (16GB unified memory)
Методика: llama-bench с контекстом 2048 токенов, генерация 512 токенов, температура 0.7. Все тесты проводил 25-27 января 2026 года.
| Конфигурация | Q6_K_L (октябрь) | IQ4_XS (январь) | Прирост |
|---|---|---|---|
| RTX 4070 (12GB) | 24.3 t/s | 48.7 t/s | +100.4% |
| RTX 4060 Ti (8GB) | 18.1 t/s | 36.5 t/s | +101.7% |
| Mac M2 Pro | 15.8 t/s | 31.2 t/s | +97.5% |
Цифры не врут. На всех платформах рост скорости составил примерно 100%. Но самое интересное - как они этого добились.
IQ4_XS: секретное оружие или опасный компромисс?
Квантование IQ4_XS - это новый формат от разработчиков llama.cpp, который вышел в декабре 2025. В отличие от традиционных INT4 квантований, IQ4_XS использует нелинейное распределение битов. Проще говоря: важные веса кодируются точнее, неважные - грубее.
Размер модели Ling 17B в IQ4_XS - 8.2GB. Для сравнения: Q6_K_L весит 12.4GB, Q4_K_M - 9.8GB. То есть IQ4_XS не только быстрее, но и компактнее почти на 20% по сравнению с Q4_K_M.
Но есть нюанс. При тестировании на стандартных бенчмарках IQ4_XS теряет примерно 2-3% точности по сравнению с Q6_K_L. Для большинства задач это незаметно. Для математических вычислений или кодинга - может быть критично.
8GB VRAM: теперь это реально
До января 2026 года запустить 17B модель на 8GB видеопамяти было возможно только с сильным квантованием и потерей качества. Сейчас - совсем другая история.
Ling 17B в IQ4_XS формате:
- Занимает 8.2GB VRAM
- Оставляет ~1.5GB для контекста (до 4096 токенов)
- Работает на 36-38 токенов в секунду
Это меняет правила игры. Теперь владельцы RTX 4060 Ti, RTX 3070 или даже RTX 2070 Super могут работать с полноценной 17B моделью без апгрейда железа.
Важно: для стабильной работы нужен не менее 32GB оперативной памяти. Модель использует CPU offloading для слоев, которые не помещаются в VRAM. При 16GB RAM система начинает активно свапать, и скорость падает в 3-4 раза.
Сравнение с конкурентами: кто кого?
Я взял три популярные 17B-20B модели января 2026 и прогнал их через одинаковый бенчмарк:
| Модель | Архитектура | Скорость (t/s) | VRAM (IQ4_XS) | Качество (MMLU) |
|---|---|---|---|---|
| Ling 17B v2 | MOE (4 эксперта) | 48.7 | 8.2GB | 72.3 |
| Apriel v1.6 | Dense | 31.2 | 10.1GB | 73.1 |
| GLM4.7 Mini | MOE (8 экспертов) | 42.5 | 9.8GB | 71.8 |
| Jan v3 17B | Dense | 28.9 | 11.2GB | 70.5 |
Ling выигрывает по скорости с заметным отрывом. По качеству - немного уступает Apriel v1.6, но разница в 0.8 балла MMLU на практике незаметна. Кстати, если интересно подробный разбор Apriel - у меня есть отдельная статья.
Почему MOE архитектура - не панацея
Mixture of Experts выглядит волшебно на бумаге. Меньше параметров загружается - выше скорость. Но есть подводные камни:
- Потребление памяти скачками. Когда активируется новый эксперт, система резервирует под него память. Если VRAM на пределе - может случиться OOM (out of memory) в самый неподходящий момент.
- Нестабильная скорость. Первые 100 токенов генерируются со скоростью 55 t/s, следующие 100 - 42 t/s, потом снова 55. Пользователь видит "дергающуюся" генерацию.
- Сложность тонкой настройки. Fine-tuning MOE моделей требует специальных техник и больше вычислительных ресурсов.
Разработчики Ling частично решили первую проблему через предварительную аллокацию памяти. Но вторую и третью - только в теории.
Практическое применение: где Ling 17B выстреливает, а где проваливается
Я тестировал модель на трех типах задач:
Кодинг (Python, JavaScript)
Результаты средние. Ling справляется с простыми функциями, но сложные алгоритмы путает. Для сравнения: Jan v3 Instruct 4B показала себя лучше в специализированных задачах кодинга, несмотря на меньший размер.
Анализ текстов
Сильная сторона. Скорость 48 t/s позволяет анализировать длинные документы в реальном времени. Суммаризация 10-страничного PDF занимает 12-15 секунд вместо 25-30 у конкурентов.
Диалоговая поддержка
Отлично. Низкая задержка (latency) делает диалог естественным. Пользователь не ждет по 5-10 секунд ответа. Это критично для чат-ботов и голосовых ассистентов.
Что будет дальше? Прогноз на 2026 год
Тренд очевиден: скорость становится важнее качества. Вернее, качество достигло плато, а скорость - нет. За последние 6 месяцев средняя скорость 17B моделей выросла на 60%, а качество - всего на 3%.
Мой прогноз:
- К марту 2026 появятся 17B модели со скоростью 60+ t/s на 8GB VRAM
- IQ4_XS станет стандартом де-факто для квантования (если не придумают что-то лучше)
- Производители видеокарт начнут оптимизировать драйверы именно под MOE архитектуры
Уже сейчас видно, как меняется фокус бенчмарков. Если раньше все смотрели на MMLU и HellaSwag, то теперь главный показатель - tokens per dollar (или tokens per watt).
Финальный вердикт: стоит ли переходить на Ling 17B?
Да, если:
- У вас ограниченный бюджет на железо (8GB VRAM или меньше)
- Нужна высокая скорость ответа (чат-боты, голосовые ассистенты)
- Работаете с большими объемами текста, где скорость обработки важнее идеальной точности
Нет, если:
- Занимаетесь сложным кодингом или математикой
- Можете позволить себе более мощную видеокарту (16GB+ VRAM)
- Требуется максимальная стабильность (MOE архитектуры все еще менее стабильны, чем dense)
Лично я уже поставил Ling 17B v2 на свой сервер для обработки входящих запросов. Для сложных задач оставил GLM4.7 + CC - она медленнее, но точнее. А для мобильных устройств продолжаю тестировать сверхлегкие модели типа Falcon 90M.
P.S. Кстати, если вы думаете, что 431 токен в секунду - это предел, посмотрите статью про Z.AI. Там цифры, от которых кружится голова. Но это уже совсем другая история.