Большие модели сломались об узкую задачу
Февраль 2026 года. Ваша команда три месяца пытается заставить GPT-5 стабильно генерировать SQL-запросы по вашей схеме базы данных. Точность плавает от 70% до 90%, счёт за API приближается к стоимости нового инженера, а каждый проваленный запрос — это разгневанный клиент. Вы включаете Qwen3-8B, дообученную на 5000 примеров ваших таблиц. Она делает 96% запросов с первого раза. Стоимость токена ниже в 47 раз. Вы спрашиваете себя — зачем мы вообще использовали GPT-5?
Это не гипотеза. Это реальные цифры из продакшена на март 2026. Qwen3-8B-Instruct, дообученная на данных конкретного продукта, бьёт GPT-5-0326 в Text2SQL на 8-15 процентных пунктов. Каждый день.
Парадокс 2026 года: чем умнее становится общая модель, тем хуже она справляется с узкими, повторяющимися задачами. GPT-5 и Claude 3.7 Sonnet «думают» слишком много. Они рассматривают десятки путей решения, взвешивают контекст из всего своего тренировочного корпуса, предлагают альтернативы. Для анализа рынка — прекрасно. Для преобразования JSON в фиксированный SQL-шаблон — смертельно.
Почему 0.6 миллиарда параметров бьют триллионы
Ответ лежит не в архитектуре, а в тренировке. Frontier-модели вроде GPT-5 обучаются на всём интернете, чтобы уметь всё. Qwen3-0.6B доучивается на 10 000 примеров одной задачи. Вся её «ментальная энергия» фокусируется на одном паттерне.
Есть три технические причины:
- Переобучение как фича. В узкой задаче вам нужно не обобщение, а чёткое следование шаблону. Мелкая модель после дообучения «запоминает» именно ваш синтаксис, ваши названия полей, ваши исключения.
- Низкий noise-to-signal ratio. Большие модели страдают от интерференции — знания о поэзии эпохи Возрождения мешают генерировать валидный WHERE clause. Маленькая модель этих знаний просто не имеет.
- Прямая оптимизация под метрику. Вы можете дообучать Qwen3 именно на той метрике, которая важна для бизнеса (F1-score для классификации, точность синтаксиса SQL), а не на общей perplexity.
1 Сравнительная таблица: где Qwen3 бьёт гигантов (данные на март 2026)
| Задача | Лучшая модель Qwen3 | Точность (Qwen3) | Точность (GPT-5) | Экономия на 1M токенов |
|---|---|---|---|---|
| Text-to-SQL (внутренняя схема) | Qwen3-8B-Instruct + LoRA | 96.2% | 88.5% | $47.5 |
| Классификация обращений (10 классов) | Qwen3-1.5B + полный fine-tune | 99.1% | 95.3% | $62.8 |
| Функциональное вызов (JSON API) | Qwen3-3B-Instruct | 99.8% валидный JSON | 97.1% | $33.2 |
| Извлечение сущностей из договоров | Qwen3-0.6B + PEFT | F1=0.973 | F1=0.941 | $78.9 |
Экономия считается как разница между стоимостью API GPT-5-0326 ($5.00 за 1M входных токенов) и стоимостью инференса на собственном инстансе g5.2xlarge (примерно $0.95 в час) при загрузке 80%. Цифры приблизительные, но порядок ясен.
Руководство по выбору: какая Qwen3 вам нужна
Выбрать размер модели — это искусство баланса между точностью, скоростью и стоимостью железа. Вот алгоритм, который работает в 2026 году.
2 Шаг 1. Определите «узость» задачи
Задайте себе два вопроса:
- Можно ли описать входные данные формальной грамматикой? (Хотя бы на 70%). Если да — ваша задача идеальна для модели меньше 3B.
- Требуется ли для решения привлекать знания из внешнего мира, не зашитые в промпт? Если нет — смело берите Qwen3-0.6B или 1.5B.
Практический тест: возьмите 100 примеров задачи. Дайте их GPT-5 с нулевым шотом. Если в 90% случаев ответ имеет одинаковую структуру (например, JSON с полями A, B, C) — ваша задача «узкая». Мелкая модель справится лучше.
3 Шаг 2. Сопоставьте задачу и размер модели
| Размер модели | Идеальные задачи | Минимальное железо (инференс) | Стоимость часа (облако, март 2026) |
|---|---|---|---|
| Qwen3-0.6B / 1.5B | Классификация, NER, простой парсинг, валидация формата | CPU (современный), или T4 (1x) | $0.20 - $0.50 |
| Qwen3-3B / 4B | Text2SQL, суммаризация по шаблону, генерация простого кода, функциональное вызов | L4 (1x) или A10G (1x) | $0.80 - $1.50 |
| Qwen3-7B / 8B | Сложный SQL, анализ тональности с контекстом, многошаговое извлечение данных, чат-боты с узкой экспертизой | A100 40GB (1x) или H100 (для высокой пропускной) | $3.50 - $12.00 |
Выбор железа — критичен. Запуск 8B модели на A10G будет работать, но вы не получите того самого ускорения, ради которого всё затевалось. Для высоконагруженных задач смотрите в сторону H100 и оптимизаторов вроде vLLM или TensorRT-LLM.
4 Шаг 3. Соберите или сгенерируйте датасет
Здесь 90% команд ошибаются. Не берите общие датасеты вроде Spider для SQL. Они не отражают вашу схему, ваши идиомы, ваши ошибки.
# Плохой подход: берем готовый датасет
from datasets import load_dataset
ds = load_dataset("spider")
# Хороший подход: генерируем синтетику на основе своей схемы
import sqlite3
import json
def generate_sql_examples(db_schema, n=5000):
examples = []
# Ваш код, который генерирует осмысленные пары (вопрос, SQL)
# Ключ: используйте GPT-5 или Claude как «учителя» для генерации сложных примеров
# Но обучайте на них маленькую Qwen3
return examples
Нужно 500-5000 примеров высокого качества. Лучше 500 идеальных, чем 5000 посредственных. Используйте большую модель (ту самую GPT-5) как генератор датасета — это иронично и эффективно.
Развертывание: vLLM, квантование и подводные камни
Вы дообучили модель. Точность на тестовом наборе 98%. Вы запускаете её в продакшен на скрипте на Flask и получаете 5 токенов в секунду. Поздравляем, вы только что потеряли все преимущества.
В 2026 году стандарт де-факто для высокопроизводительного инференса — vLLM версии 0.5.6 или новее. Он умеет непрерывную пакетную обработку, PagedAttention и оптимизирован для современного GPU.
# Запуск Qwen3-8B-Instruct с vLLM на H100
pip install vLLM==0.5.6 torch==2.4.0
# Самая важная настройка для узких задач — ограничение темплейта ответа
python -m vLLM.entrypoints.api_server \
--model /path/to/your/finetuned_qwen3_8b \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 8192 \
--enforce-eager # Меньше overhead для маленьких моделей
Осторожно с квантованием. Для задач, где важна точность синтаксиса (SQL, JSON, код), 4-битное квантование AWQ может добавить 1-2% ошибок. Сначала измерьте потери качества на валидационном наборе. Иногда лучше заплатить за более мощную карту, чем терять клиентов из-за битого JSON.
Мониторинг — это не только метрики модели. Следите за дрифтом данных. Если ваша схема базы данных изменилась, а модель продолжает генерировать запросы к старым полям, нужен пайплайн автоматического ре-дообучения.
Ошибки, которые убьют ваш проект
- Дообучать на сырых логах промптов к GPT-5. Там будут ошибки, повторы, эксперименты. Нужна чистка и нормализация.
- Игнорировать latency SLA. Если ваша задача — классификация в реальном времени, а модель выдаёт ответ за 800 мс вместо нужных 100, вы проиграли.
- Выбирать модель только по размеру. Архитектура Qwen3-7B отличается от Qwen3-8B-Instruct. Для задач инструкций берите Instruct-версии. Для классификации — базовые.
- Не планировать обновления. Модель — это код. Вышли новые веса Qwen3.1? Нужно провести A/B тест, возможно, дообучить заново.
Что будет дальше? Прогноз до конца 2026
Гонка размеров закончилась. Никто не будет тренировать 500B модель для вашей CRM. Будущее — за экосистемами мелких, сверхспециализированных моделей, которые оркеструются мета-моделью.
OpenAI и Anthropic ответят сервисами «Instant Fine-Tuning», где за $500 и 10 минут вы получите кастомный эндпоинт для вашей задачи. Но их стоимость останется в 5-10 раз выше, чем у самописного решения на Qwen3.
Самый неочевидный совет: начните собирать данные сегодня. Даже если вы пока используете GPT-5. Каждый промпт и ответ — это будущий тренировочный пример. Через полгода вы сможете переключиться на свою модель и сократить расходы в десятки раз. Прямо сейчас откройте документацию vLLM и посмотрите, как запустить тестовый инстанс (партнёрская ссылка). Первый шаг — самый важный.
И помните: если ваша задача вдруг перестала быть «узкой» и требует креативности, всегда можно отправить её большой модели. Но сначала дайте шанс маленькой. В 96% случаев она справится лучше.