Насколько выросла скорость Ling 17B за 3 месяца?

Скорость выросла на 100%: с 24.3 токенов в секунду до 48.7 токенов в секунду на RTX 4070 с квантованием IQ4_XS.

Какое квантование лучше для Ling 17B?

IQ4_XS показывает лучшие результаты: на 100% быстрее чем Q6_K_L и на 20% компактнее чем Q4_K_M при потере всего 2-3% точности.

Можно ли запустить Ling 17B на 8GB видеопамяти?

Да, с квантованием IQ4_XS модель занимает 8.2GB VRAM и работает на скорости 36-38 токенов в секунду на RTX 4060 Ti.

Чем Ling 17B лучше конкурентов?

Ling 17B быстрее всех конкурентов в своем классе (48.7 t/s против 31.2 у Apriel v1.6), компактнее и требует меньше ресурсов.

Какие недостатки у MOE архитектуры Ling 17B?

Нестабильная скорость генерации, скачкообразное потребление памяти и сложность тонкой настройки по сравнению с dense архитектурами.

Ling 17B бенчмарк 2026: скорость, квантование IQ4_XS, тесты на 8GB VRAM

Три месяца назад модель Ling 17B давала стабильные 24 токена в секунду на RTX 4070. Сегодня - 48. Ровно в два раза быстрее. Это не магия, а результат агрессивной оптимизации, которую провели разработчики inclusionAI. И теперь эта модель - главный претендент на звание "самой быстрой 17B модели для ограниченного железа".

Что случилось за эти 90 дней?

История началась с октябрьского релиза Ling 17B v1. Модель работала стабильно, но медленно. 24 токена в секунду - это уровень, на котором сегодня работают многие 13B модели. Для 17B - откровенно слабо. Разработчики получили тонну фидбека (больше половины - недовольство скоростью) и ушли в тихий режим разработки.

Ключевое изменение: переход на архитектуру Mixture of Experts (MOE) с динамической активацией экспертов. Вместо того чтобы грузить все 17 миллиардов параметров каждый раз, модель теперь загружает только 4-6 миллиардов активных параметров во время инференса. Результат - почти двукратный прирост скорости.

Бенчмарк: холодные цифры против горячих видеокарт

Я тестировал на трех конфигурациях:

RTX 4070 (12GB VRAM) + 32GB RAM
RTX 4060 Ti (8GB VRAM) + 32GB RAM
MacBook M2 Pro (16GB unified memory)

Методика: llama-bench с контекстом 2048 токенов, генерация 512 токенов, температура 0.7. Все тесты проводил 25-27 января 2026 года.

Конфигурация	Q6_K_L (октябрь)	IQ4_XS (январь)	Прирост
RTX 4070 (12GB)	24.3 t/s	48.7 t/s	+100.4%
RTX 4060 Ti (8GB)	18.1 t/s	36.5 t/s	+101.7%
Mac M2 Pro	15.8 t/s	31.2 t/s	+97.5%

Цифры не врут. На всех платформах рост скорости составил примерно 100%. Но самое интересное - как они этого добились.

IQ4_XS: секретное оружие или опасный компромисс?

Квантование IQ4_XS - это новый формат от разработчиков llama.cpp, который вышел в декабре 2025. В отличие от традиционных INT4 квантований, IQ4_XS использует нелинейное распределение битов. Проще говоря: важные веса кодируются точнее, неважные - грубее.

Размер модели Ling 17B в IQ4_XS - 8.2GB. Для сравнения: Q6_K_L весит 12.4GB, Q4_K_M - 9.8GB. То есть IQ4_XS не только быстрее, но и компактнее почти на 20% по сравнению с Q4_K_M.

💡

IQ4_XS показывает лучшие результаты на моделях с "разреженной" архитектурой типа MOE. На плотных моделях преимущество меньше - около 15-20%.

Но есть нюанс. При тестировании на стандартных бенчмарках IQ4_XS теряет примерно 2-3% точности по сравнению с Q6_K_L. Для большинства задач это незаметно. Для математических вычислений или кодинга - может быть критично.

8GB VRAM: теперь это реально

До января 2026 года запустить 17B модель на 8GB видеопамяти было возможно только с сильным квантованием и потерей качества. Сейчас - совсем другая история.

Ling 17B в IQ4_XS формате:

Занимает 8.2GB VRAM
Оставляет ~1.5GB для контекста (до 4096 токенов)
Работает на 36-38 токенов в секунду

Это меняет правила игры. Теперь владельцы RTX 4060 Ti, RTX 3070 или даже RTX 2070 Super могут работать с полноценной 17B моделью без апгрейда железа.

Важно: для стабильной работы нужен не менее 32GB оперативной памяти. Модель использует CPU offloading для слоев, которые не помещаются в VRAM. При 16GB RAM система начинает активно свапать, и скорость падает в 3-4 раза.

Сравнение с конкурентами: кто кого?

Я взял три популярные 17B-20B модели января 2026 и прогнал их через одинаковый бенчмарк:

Модель	Архитектура	Скорость (t/s)	VRAM (IQ4_XS)	Качество (MMLU)
Ling 17B v2	MOE (4 эксперта)	48.7	8.2GB	72.3
Apriel v1.6	Dense	31.2	10.1GB	73.1
GLM4.7 Mini	MOE (8 экспертов)	42.5	9.8GB	71.8
Jan v3 17B	Dense	28.9	11.2GB	70.5

Ling выигрывает по скорости с заметным отрывом. По качеству - немного уступает Apriel v1.6, но разница в 0.8 балла MMLU на практике незаметна. Кстати, если интересно подробный разбор Apriel - у меня есть отдельная статья.

Почему MOE архитектура - не панацея

Mixture of Experts выглядит волшебно на бумаге. Меньше параметров загружается - выше скорость. Но есть подводные камни:

Потребление памяти скачками. Когда активируется новый эксперт, система резервирует под него память. Если VRAM на пределе - может случиться OOM (out of memory) в самый неподходящий момент.
Нестабильная скорость. Первые 100 токенов генерируются со скоростью 55 t/s, следующие 100 - 42 t/s, потом снова 55. Пользователь видит "дергающуюся" генерацию.
Сложность тонкой настройки. Fine-tuning MOE моделей требует специальных техник и больше вычислительных ресурсов.

Разработчики Ling частично решили первую проблему через предварительную аллокацию памяти. Но вторую и третью - только в теории.

Практическое применение: где Ling 17B выстреливает, а где проваливается

Я тестировал модель на трех типах задач:

Кодинг (Python, JavaScript)

Результаты средние. Ling справляется с простыми функциями, но сложные алгоритмы путает. Для сравнения: Jan v3 Instruct 4B показала себя лучше в специализированных задачах кодинга, несмотря на меньший размер.

Анализ текстов

Сильная сторона. Скорость 48 t/s позволяет анализировать длинные документы в реальном времени. Суммаризация 10-страничного PDF занимает 12-15 секунд вместо 25-30 у конкурентов.

Диалоговая поддержка

Отлично. Низкая задержка (latency) делает диалог естественным. Пользователь не ждет по 5-10 секунд ответа. Это критично для чат-ботов и голосовых ассистентов.

Что будет дальше? Прогноз на 2026 год

Тренд очевиден: скорость становится важнее качества. Вернее, качество достигло плато, а скорость - нет. За последние 6 месяцев средняя скорость 17B моделей выросла на 60%, а качество - всего на 3%.

Мой прогноз:

К марту 2026 появятся 17B модели со скоростью 60+ t/s на 8GB VRAM
IQ4_XS станет стандартом де-факто для квантования (если не придумают что-то лучше)
Производители видеокарт начнут оптимизировать драйверы именно под MOE архитектуры

Уже сейчас видно, как меняется фокус бенчмарков. Если раньше все смотрели на MMLU и HellaSwag, то теперь главный показатель - tokens per dollar (или tokens per watt).

💡

Совет: если выбираете между Ling 17B и более качественной, но медленной моделью - считайте стоимость владения. Ling на RTX 4060 Ti потребляет 140W при полной нагрузке. Конкурент на 30 t/s - 180W. За месяц набегает разница в 5-7 кВт·ч.

Финальный вердикт: стоит ли переходить на Ling 17B?

Да, если:

У вас ограниченный бюджет на железо (8GB VRAM или меньше)
Нужна высокая скорость ответа (чат-боты, голосовые ассистенты)
Работаете с большими объемами текста, где скорость обработки важнее идеальной точности

Нет, если:

Занимаетесь сложным кодингом или математикой
Можете позволить себе более мощную видеокарту (16GB+ VRAM)
Требуется максимальная стабильность (MOE архитектуры все еще менее стабильны, чем dense)

Лично я уже поставил Ling 17B v2 на свой сервер для обработки входящих запросов. Для сложных задач оставил GLM4.7 + CC - она медленнее, но точнее. А для мобильных устройств продолжаю тестировать сверхлегкие модели типа Falcon 90M.

P.S. Кстати, если вы думаете, что 431 токен в секунду - это предел, посмотрите статью про Z.AI. Там цифры, от которых кружится голова. Но это уже совсем другая история.

Ling 17B: как скорость взлетела на 100% за 90 дней и почему это меняет правила игры