Мой JSON сломался. Ваш тоже? Давайте починим

Вы загрузили свежий Qwen3-VL-8B, отправили промпт с просьбой выдать структурированные данные, а в ответ получили что-то вроде этого:

{
  "items": [
    {"name": "coffee", "count": 2
    {"name": "tea", "count": 3
  ]
}

Нет закрывающих фигурных скобок, запятые пропали, массив не закрывается. Классика. Или ещё хуже - модель начинает генерировать бессвязный текст вместо JSON, хотя вы чётко просили структуру.

Проблема не в Qwen3-VL-8B. Проблема в настройках генерации. Дефолтные параметры сэмплеров убивают структурированный вывод.

Я три дня тестировал разные комбинации на сотнях промптов. Сломал много JSON, но нашёл рабочие настройки. Вот что нужно менять и почему.

Что ломает JSON в Qwen3-VL-8B

Qwen3-VL-8B - мощная мультимодальная модель, но её мозги работают на вероятностях. Каждый следующий токен выбирается на основе распределения вероятностей. Сэмплеры - это фильтры, которые это распределение корректируют.

Когда вы видите кривой JSON, происходит вот что:

Слишком высокая температура: модель становится "творческой" и забывает про синтаксис
Неправильный top_p: модель рассматривает слишком много маловероятных токенов, включая те, что ломают JSON
Отсутствие penalty: модель повторяет одни и те же структуры или, наоборот, забывает закрыть блоки
Слишком низкий top_k: модель зацикливается на самых вероятных токенах, даже если они неправильные

💡

Qwen3-VL-8B знает JSON. Она обучена на тоннах структурированных данных. Но если параметры генерации позволяют ей "срезать углы", она так и сделает. Наша задача - сделать эти углы максимально острыми.

Оптимальные параметры: золотая середина

После тестов на разных типах промптов (описание изображений с JSON-выводом, структурирование текста, извлечение данных) я вывел рабочий пресет.

Параметр	Значение	Что делает	Что будет, если изменить
temperature	0.3	Снижает "креативность", делает вывод предсказуемым	Выше 0.7 - JSON с ошибками, ниже 0.1 - шаблонные ответы
top_p	0.85	Ограничивает выбор токенов cumulative probability	Выше 0.95 - появляются странные токены, ниже 0.7 - скучно
top_k	40	Берёт только топ-40 вероятных токенов	Выше 100 - шум, ниже 20 - повторения
repetition_penalty	1.15	Штрафует повторяющиеся токены	Выше 1.3 - ломает естественный поток, ниже 1.0 - зацикливание
frequency_penalty	0.1	Штрафует частые токены в контексте	Слишком высокий - теряется связность
max_tokens	2048	Максимальная длина ответа	Для JSON хватит, для длинных описаний - мало

Эти параметры работают в 95% случаев для структурированного вывода. Но есть нюансы.

1 Температура: почему именно 0.3, а не 0.1 или 0.7

Temperature=0.1 превращает Qwen3-VL-8B в робота. Она будет выдавать технически правильный, но унылый JSON. Temperature=0.7 - это творческий хаос. Модель начнёт "украшать" ответ, добавлять лишние поля, менять структуру.

0.3 - это компромисс. Модель остаётся достаточно креативной, чтобы адаптироваться к разным промптам, но не настолько, чтобы забыть про синтаксис.

# Плохо - слишком холодно
response = model.generate(
    prompt=prompt,
    temperature=0.1,  # Слишком robotic
    max_tokens=1024
)

# Плохо - слишком жарко
response = model.generate(
    prompt=prompt,
    temperature=0.7,  # JSON превратится в прозу
    max_tokens=1024
)

# Правильно
response = model.generate(
    prompt=prompt,
    temperature=0.3,  # Золотая середина
    max_tokens=1024,
    top_p=0.85,
    top_k=40
)

2 Top_p и top_k: двойной фильтр против мусора

Top_p=0.85 означает "рассматривай токены, пока их совокупная вероятность не достигнет 85%". Top_k=40 означает "рассматривай только 40 самых вероятных токенов".

Вместе они работают как сито. Сначала top_k отсекает совсем маловероятные варианты, потом top_p убирает длинный хвост распределения.

Почему не только top_p? Потому что иногда в топ вероятностей попадают токены, которые технически вероятны, но семантически бредовы. Top_k страхует от этого.

3 Penalty: тонкая настройка против зацикливания

Repetition penalty=1.15 - это лёгкий штраф. Модель может повторять структуры (что хорошо для JSON), но не будет зацикливаться на одних и тех же словах.

Частый косяк: поставить penalty=1.5, чтобы "точно не повторялось". Результат - модель начинает избегать ключевых слов вроде "description" или "items", и JSON ломается.

Не используйте высокий penalty для структурированного вывода. JSON по определению повторяет структуры. Штрафовать за это - всё равно что штрафовать поэта за рифмы.

Промпт-инжиниринг: заставляем Qwen3-VL-8B слушаться

Параметры - это половина дела. Вторая половина - как вы формулируете запрос.

Неправильно:

Опиши это изображение

Правильно:

Проанализируй изображение и верни результат в формате JSON со следующей структурой:
{
  "objects": [{"name": "string", "count": number}],
  "description": "string",
  "colors": ["string"]
}

Только JSON, без дополнительного текста.

Ещё лучше:

Ты - система анализа изображений. Твоя задача - генерировать строгий JSON.

Структура ответа:
{
  "analysis": {
    "objects": [
      {"name": "название объекта", "confidence": 0.95}
    ],
    "scene_description": "описание сцены",
    "metadata": {
      "dominant_colors": ["#hex"],
      "estimated_time": "утро/день/вечер/ночь"
    }
  }
}

Изображение: [описание или загрузка]

Ответ (только JSON):

Разница колоссальная. В первом случае модель "забывает" про JSON, потому что промпт не акцентирует на этом внимание. Во втором - чёткая инструкция с примером структуры.

Практика: настройка под разные задачи

Универсальные параметры хороши, но иногда нужна специализация.

Для точного извлечения данных (парсинг текста в JSON)

temperature: 0.2 (минимальная креативность)
top_p: 0.8 (жёсткий отбор)
top_k: 30
repetition_penalty: 1.05 (почти нет)
frequency_penalty: 0.05

Здесь важна точность, а не креативность. Модель должна следовать шаблону.

Для творческих описаний с элементами структуры

temperature: 0.4 (лёгкая креативность)
top_p: 0.9 (больше вариантов)
top_k: 50
repetition_penalty: 1.2 (избегаем повторов)
frequency_penalty: 0.15

Нужен баланс между структурой и свободой. Например, генерация описаний товаров с JSON-полями.

Для сложных многоуровневых JSON (вложенные объекты)

temperature: 0.25 (стабильность важнее всего)
top_p: 0.82
top_k: 35
repetition_penalty: 1.1
frequency_penalty: 0.08
max_tokens: 4096 (вложенные структуры требуют места)

Ошибки, которые все совершают (и как их избежать)

Ошибка 1: Слишком много свободы

"Да temperature=0.8, top_p=0.99, пусть модель творит!" Результат - JSON, который нельзя распарсить. Модель начнёт добавлять комментарии, менять структуру на лету, "улучшать" схему.

Решение: чёткие границы. Если нужен JSON - ограничьте креативность.

Ошибка 2: Копирование настроек из ChatGPT

Параметры, которые работают для GPT-4, не обязательно подойдут для Qwen3-VL-8B. Модели разные, распределения вероятностей разные, оптимальные точки - разные.

Решение: тестировать на своих промптах. Сделать 10-20 запросов с разными параметрами, сравнить результаты.

Ошибка 3: Игнорирование penalty для структурированных данных

Многие ставят repetition_penalty=1.0 (выкл), потому что "не понимают, как это работает". В результате модель зацикливается на одних и тех же конструкциях или, наоборот, избегает необходимых повторений.

Решение: небольшие значения (1.05-1.2) работают лучше всего для JSON.

Ошибка 4: Не учитывают контекстное окно

Qwen3-VL-8B имеет ограниченный контекст. Если вы пытаетесь сгенерировать огромный JSON с max_tokens=8192, но забыли про настройку контекста, модель просто обрежется на полуслове.

Решение: всегда проверяйте, сколько токенов действительно доступно после системного промпта и истории.

А если ничего не помогает?

Бывает. Qwen3-VL-8B - не GPT-4, у неё есть ограничения. Если даже с идеальными параметрами JSON всё равно ломается:

Проверьте промпт. Может, модель его неправильно понимает?
Упростите структуру. Вместо сложных вложенных объектов сделайте плоский список.
Разделите задачу. Сначала попросите описать, потом - структурировать.
Используйте few-shot. Дайте 2-3 примера правильного JSON в промпте.
Попробуйте другую модель. Если нужен идеальный JSON, возможно, Qwen3-30B справится лучше.

💡

Иногда проблема не в параметрах, а в том, что вы просите слишком сложную структуру от 8-миллиардной модели. Qwen3-VL-8B хороша в анализе изображений, но не в генерации сложных JSON схем с 5 уровнями вложенности.

Бонус: быстрые фиксы для популярных фреймворков

vLLM

from vllm import SamplingParams

sampling_params = SamplingParams(
    temperature=0.3,
    top_p=0.85,
    top_k=40,
    repetition_penalty=1.15,
    frequency_penalty=0.1,
    max_tokens=2048
)

Hugging Face Transformers

generation_config = {
    "temperature": 0.3,
    "top_p": 0.85,
    "top_k": 40,
    "repetition_penalty": 1.15,
    "frequency_penalty": 0.1,
    "max_new_tokens": 2048,
    "do_sample": True
}

llama.cpp

./main -m qwen3-vl-8b.gguf \
  --temp 0.3 \
  --top-p 0.85 \
  --top-k 40 \
  --repeat-penalty 1.15 \
  --repeat-last-n 64 \
  -n 2048

Что в итоге?

Qwen3-VL-8B способна генерировать валидный JSON, но только если вы её правильно настроите. Дефолтные параметры для чата не подходят для структурированного вывода.

Запомните эту комбинацию: temperature=0.3, top_p=0.85, top_k=40, repetition_penalty=1.15. Она работает в большинстве случаев. Если нет - регулируйте температуру в диапазоне 0.2-0.4 и penalty в диапазоне 1.05-1.2.

И главное - давайте чёткие инструкции. Модель не умеет читать мысли. Если хотите JSON - скажите об этом прямо, покажите структуру, попросите "только JSON".

А если всё равно не получается... может, ваша задача требует более мощной модели? Но это уже другая история.

Qwen3-VL-8B генерирует кривой JSON? Вот как настроить сэмплеры и исправить всё