Логика ломается: больше денег — хуже работа

Вы ставите GPT-5 на максимальные настройки "усилия" (effort). Платите в 2-3 раза дороже за каждый запрос. Уверены, что получаете самый качественный, глубокий, выверенный ответ. А что, если я скажу, что вы просто выбрасываете деньги и получаете результат хуже, чем на базовых настройках?

Звучит как ересь. Логика подсказывает: больше вычислительных ресурсов → лучше результат. Платишь премиум — получаешь премиум качество. Но в мире LLM, особенно в задачах веб-исследований и анализа данных, эта логика даёт сбой. И сбой этот стоит реальных денег.

Стоп-факт: Согласно свежему бенчмарку Deep Research Bench (февраль 2026), Gemini Flash 3 на настройке усилия "low" показывает точность 74.8%. На настройке "high" — 73.1%. Вы платите больше за проценты в минус. GPT-5 демонстрирует схожую динамику.

Что такое "настройки усилия" и почему все ошибаются

Effort settings, параметры усилия — это не просто "сложность вычислений". Это комплексный параметр, который в разных моделях и у разных вендоров управляет разными вещами. В Gemini Flash 3 от Google это, по сути, регулятор длины цепочки рассуждений (Chain-of-Thought) и глубины поиска. В GPT-5 от OpenAI — комбинация параметров поиска, анализа и синтеза информации.

Когда вы ставите "high", модель начинает "думать" дольше. Больше итераций. Больше внутреннего диалога. Больше предположений. И вот здесь кроется ловушка.

💡

Представьте, что вы дали задание очень умному, но дотошному стажеру: "Найди информацию о последних изменениях в налоговом кодексе для IT-компаний". На низком усилии он быстро пробежится по трём авторитетным источникам, выпишет ключевые тезисы и даст вам. На высоком усилии он уйдёт в rabbit hole: начнёт читать обсуждения на форумах 10-летней давности, сравнивать региональные практики, анализировать законопроекты, которые даже не были внесены. В итоге принесёт гору информации, 80% которой — шум. Ваша задача не стала проще.

Именно это и происходит с LLM. Задачи веб-исследований в бенчмарке Deep Research Bench — это не абстрактные философские вопросы. Это конкретные, фактологические запросы: "Каковы последние рекомендации FDA по применению препарата X?", "Какие условия получения визы типа Y в стране Z на начало 2026 года?". Здесь нужна точность и релевантность, а не глубина ради глубины.

Цифры не врут: разбор Deep Research Bench

Давайте посмотрим на холодные данные, актуальные на февраль 2026.

Модель	Настройка усилия	Точность (Accuracy)	Относительная стоимость запроса
Gemini Flash 3 (Google)	Low	74.8%	1x (базовая)
Gemini Flash 3 (Google)	Medium	73.5%	~1.7x
Gemini Flash 3 (Google)	High	73.1%	~2.5x
GPT-5 (OpenAI)	Standard / Low	~78%*	1x (базовая)
GPT-5 (OpenAI)	High / Extensive	~76-77%*	2x - 3x

*Точные цифры по GPT-5 варьируются в зависимости от конкретного подтеста бенчмарка, но тренд одинаков: максимальные настройки не дают прироста, а часто снижают результат. Падение на 1-2 процентных пункта при двукратном удорожании — это не статистическая погрешность. Это системная ошибка в понимании задачи.

Почему так происходит? Исследователи, проводившие бенчмарк, указывают на две ключевые причины:

Накопление ошибок в длинных цепочках рассуждений. Каждый дополнительный шаг "размышления" модели — это ещё одна возможность сбиться с пути, неправильно интерпретировать промежуточный факт, уйти в сторону. Короткий, прямой путь часто оказывается самым верным.
Повышенная склонность к "творчеству" и галлюцинациям. Давая модели больше "пространства для мысли", вы одновременно даёте ей больше пространства для выдумки. Вместо того чтобы чётко следовать найденным в сети фактам, модель начинает их дополнять, предполагать, экстраполировать. В исследовательских задачах это смерть.

Практический гайд: как настроить модели, чтобы не терять деньги

Теория — это хорошо. Но что делать прямо сейчас в вашем коде или no-code панели?

1 Определите тип задачи

Не всё нужно ставить на low. Парадокс работает для задач веб-исследований, фактчекинга, извлечения конкретной информации из текста, сравнения данных по чётким критериям.

Для чего оставить высокие настройки? Для творческих задач: генерация идей, мозговой штурм, написание нарративов, сочинение кода с неочевидной логикой. Там, где ценность приносит именно нестандартный ход мысли, а не точность факта.

2 Настройте Gemini Flash 3

В API Google Generative AI параметр называется reasoning_effort. Для исследовательских задач ставьте LOW или MEDIUM. HIGH и ULTRA оставьте для экспериментов.

# Правильно для исследований (экономно и точно)
from google import genai

client = genai.Client(api_key="YOUR_KEY")
response = client.models.generate_content(
    model="gemini-3.0-flash",
    contents="Найди последние финансовые результаты компании NVIDIA за Q4 2025",
    config={
        "reasoning_effort": "LOW",  # или "MEDIUM"
        "temperature": 0.1  # Низкая температура для минимизации творчества
    }
)

# НЕПРАВИЛЬНО (дорого и менее точно)
response = client.models.generate_content(
    model="gemini-3.0-flash",
    contents="Найди последние финансовые результаты компании NVIDIA за Q4 2025",
    config={
        "reasoning_effort": "ULTRA",  # Переплата за шум
        "temperature": 0.7
    }
)

3 Настройте GPT-5 (или GPT-5.2, если она уже вышла)

У OpenAI нет прямого параметра "effort", но есть его аналоги через system prompt и параметры поиска/анализа. Ключ — в явном указании модели быть кратким и фактологичным.

# Эффективный промпт для исследовательских задач в GPT-5
import openai

client = openai.OpenAI(api_key="YOUR_KEY")

system_prompt = """
Ты — специалист по веб-исследованиям. Твоя задача — находить точные, проверенные факты.
ИНСТРУКЦИИ:
1. Ищи информацию строго по теме запроса.
2. Предоставляй только информацию, найденную в авторитетных источниках.
3. Не делай предположений, не экстраполируй, не добавляй своего мнения.
4. Будь максимально кратким. Перечисляй факты списком или в сжатых предложениях.
5. Если информация противоречива — укажи это, но не пытайся её разрешить.
"""

response = client.chat.completions.create(
    model="gpt-5",
    messages=[
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": "Каковы текущие требования к визе Digital Nomad в Португалии на 2026 год? Укажи тип визы, срок, доход, документы."}
    ],
    temperature=0.1,  # Критически важный параметр
    max_tokens=500   # Ограничь вывод, чтобы модель не "растекалась"
)

Этот подход перекликается с принципами из утекшего руководства по промптам от OpenAI, где акцент делается на чёткой роли и жёстких ограничениях. Только здесь мы добавляем специфику для исследований.

4 Всегда измеряйте и сравнивайте

Не верьте слепо бенчмаркам (включая этому). Запустите A/B тест на своих данных. Возьмите 50-100 типичных для вас исследовательских запросов. Прогоните их через модель с настройкой LOW и HIGH. Посчитайте не только субъективное "качество", но и:

Фактическую точность (сколько ответов верны).
Полноту (не упущена ли ключевая информация).
Длину ответа (токены = деньги).
Время выполнения (если это критично).

Скорее всего, вы увидите ту же картину: низкие настройки дают более сфокусированный, точный и дешёвый результат.

А что с другими моделями? GLM, Qwen, Claude

Парадокс не уникален для Google и OpenAI. Он проявляется везде, где есть параметры, управляющие "глубиной обработки". Например, в GLM-4.7-Flash чрезмерное увеличение контекста или параметров поиска может привести к зацикливанию и генерации шума — мы уже писали, как с этим бороться.

У локальных моделей, таких как Qwen3-30B, проблема выражается не в деньгах, а во времени и ресурсах. Установка высоких параметров "мыслящей" нагрузки (через параметры sampling или расширенного контекста) может увеличить время генерации в разы без улучшения результата для фактологических задач.

Универсальное правило: Для задач поиска и извлечения фактов начинайте с минимальных настроек "умственных усилий". Повышайте их только если видите, что модель постоянно упускает важные связи или контекст. В 80% случаев повышать не придётся.

Ошибки, которые все совершают (и как их избежать)

Ошибка: "Поставим температуру 0.7 для разнообразия ответов". Для исследований температура должна быть близка к нулю (0.1-0.2). Разнообразие в фактах — это ошибки, а не фича.
Ошибка: "Пусть модель сама решает, сколько токенов выдать". Всегда устанавливайте разумный max_tokens. Без ограничения модель в режиме "high effort" может выдать вам диссертацию вместо списка фактов.
Ошибка: Использовать общие system prompt. Не "Ты — полезный ассистент". А "Ты — факт-чекер, который ищет только конкретную информацию по запросу. Не рассуждай".
Ошибка: Не учитывать стоимость в расчёте ROI. Если точность на low — 75%, а на high — 76%, но стоит в 2.5 раза дороже, вы платите на 150% больше за 1% улучшения. Это почти всегда невыгодно.

Что дальше? Будущее "умных" настроек

Текущая реализация параметров усилия — тупая. Больше циклов = больше денег. Будущее за адаптивными системами, где модель сама оценивает сложность запроса и выделяет необходимый объём вычислений. Первые признаки этого уже есть: Gemini Flash 3 в некоторых режимах пытается определять, нужен ли ей расширенный reasoning. Но пока это сыро.

До тех пор ваша лучшая стратегия — ручное, осмысленное управление. Не платите за "премиум", который делает хуже. Используйте силу моделей, но не позволяйте им бесконтрольно тратить ваши деньги на внутренние монологи, которые только мешают.

И помните: самый дорогой инструмент — не всегда самый точный. Иногда самый простой и дешёвый попадает прямо в цель.

Почему вы платите больше за худшие результаты: парадокс настроек усилия в GPT-5 и Gemini Flash 3