Логика ломается: больше денег — хуже работа
Вы ставите GPT-5 на максимальные настройки "усилия" (effort). Платите в 2-3 раза дороже за каждый запрос. Уверены, что получаете самый качественный, глубокий, выверенный ответ. А что, если я скажу, что вы просто выбрасываете деньги и получаете результат хуже, чем на базовых настройках?
Звучит как ересь. Логика подсказывает: больше вычислительных ресурсов → лучше результат. Платишь премиум — получаешь премиум качество. Но в мире LLM, особенно в задачах веб-исследований и анализа данных, эта логика даёт сбой. И сбой этот стоит реальных денег.
Стоп-факт: Согласно свежему бенчмарку Deep Research Bench (февраль 2026), Gemini Flash 3 на настройке усилия "low" показывает точность 74.8%. На настройке "high" — 73.1%. Вы платите больше за проценты в минус. GPT-5 демонстрирует схожую динамику.
Что такое "настройки усилия" и почему все ошибаются
Effort settings, параметры усилия — это не просто "сложность вычислений". Это комплексный параметр, который в разных моделях и у разных вендоров управляет разными вещами. В Gemini Flash 3 от Google это, по сути, регулятор длины цепочки рассуждений (Chain-of-Thought) и глубины поиска. В GPT-5 от OpenAI — комбинация параметров поиска, анализа и синтеза информации.
Когда вы ставите "high", модель начинает "думать" дольше. Больше итераций. Больше внутреннего диалога. Больше предположений. И вот здесь кроется ловушка.
Именно это и происходит с LLM. Задачи веб-исследований в бенчмарке Deep Research Bench — это не абстрактные философские вопросы. Это конкретные, фактологические запросы: "Каковы последние рекомендации FDA по применению препарата X?", "Какие условия получения визы типа Y в стране Z на начало 2026 года?". Здесь нужна точность и релевантность, а не глубина ради глубины.
Цифры не врут: разбор Deep Research Bench
Давайте посмотрим на холодные данные, актуальные на февраль 2026.
| Модель | Настройка усилия | Точность (Accuracy) | Относительная стоимость запроса |
|---|---|---|---|
| Gemini Flash 3 (Google) | Low | 74.8% | 1x (базовая) |
| Gemini Flash 3 (Google) | Medium | 73.5% | ~1.7x |
| Gemini Flash 3 (Google) | High | 73.1% | ~2.5x |
| GPT-5 (OpenAI) | Standard / Low | ~78%* | 1x (базовая) |
| GPT-5 (OpenAI) | High / Extensive | ~76-77%* | 2x - 3x |
*Точные цифры по GPT-5 варьируются в зависимости от конкретного подтеста бенчмарка, но тренд одинаков: максимальные настройки не дают прироста, а часто снижают результат. Падение на 1-2 процентных пункта при двукратном удорожании — это не статистическая погрешность. Это системная ошибка в понимании задачи.
Почему так происходит? Исследователи, проводившие бенчмарк, указывают на две ключевые причины:
- Накопление ошибок в длинных цепочках рассуждений. Каждый дополнительный шаг "размышления" модели — это ещё одна возможность сбиться с пути, неправильно интерпретировать промежуточный факт, уйти в сторону. Короткий, прямой путь часто оказывается самым верным.
- Повышенная склонность к "творчеству" и галлюцинациям. Давая модели больше "пространства для мысли", вы одновременно даёте ей больше пространства для выдумки. Вместо того чтобы чётко следовать найденным в сети фактам, модель начинает их дополнять, предполагать, экстраполировать. В исследовательских задачах это смерть.
Практический гайд: как настроить модели, чтобы не терять деньги
Теория — это хорошо. Но что делать прямо сейчас в вашем коде или no-code панели?
1 Определите тип задачи
Не всё нужно ставить на low. Парадокс работает для задач веб-исследований, фактчекинга, извлечения конкретной информации из текста, сравнения данных по чётким критериям.
Для чего оставить высокие настройки? Для творческих задач: генерация идей, мозговой штурм, написание нарративов, сочинение кода с неочевидной логикой. Там, где ценность приносит именно нестандартный ход мысли, а не точность факта.
2 Настройте Gemini Flash 3
В API Google Generative AI параметр называется reasoning_effort. Для исследовательских задач ставьте LOW или MEDIUM. HIGH и ULTRA оставьте для экспериментов.
# Правильно для исследований (экономно и точно)
from google import genai
client = genai.Client(api_key="YOUR_KEY")
response = client.models.generate_content(
model="gemini-3.0-flash",
contents="Найди последние финансовые результаты компании NVIDIA за Q4 2025",
config={
"reasoning_effort": "LOW", # или "MEDIUM"
"temperature": 0.1 # Низкая температура для минимизации творчества
}
)
# НЕПРАВИЛЬНО (дорого и менее точно)
response = client.models.generate_content(
model="gemini-3.0-flash",
contents="Найди последние финансовые результаты компании NVIDIA за Q4 2025",
config={
"reasoning_effort": "ULTRA", # Переплата за шум
"temperature": 0.7
}
)
3 Настройте GPT-5 (или GPT-5.2, если она уже вышла)
У OpenAI нет прямого параметра "effort", но есть его аналоги через system prompt и параметры поиска/анализа. Ключ — в явном указании модели быть кратким и фактологичным.
# Эффективный промпт для исследовательских задач в GPT-5
import openai
client = openai.OpenAI(api_key="YOUR_KEY")
system_prompt = """
Ты — специалист по веб-исследованиям. Твоя задача — находить точные, проверенные факты.
ИНСТРУКЦИИ:
1. Ищи информацию строго по теме запроса.
2. Предоставляй только информацию, найденную в авторитетных источниках.
3. Не делай предположений, не экстраполируй, не добавляй своего мнения.
4. Будь максимально кратким. Перечисляй факты списком или в сжатых предложениях.
5. Если информация противоречива — укажи это, но не пытайся её разрешить.
"""
response = client.chat.completions.create(
model="gpt-5",
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": "Каковы текущие требования к визе Digital Nomad в Португалии на 2026 год? Укажи тип визы, срок, доход, документы."}
],
temperature=0.1, # Критически важный параметр
max_tokens=500 # Ограничь вывод, чтобы модель не "растекалась"
)
Этот подход перекликается с принципами из утекшего руководства по промптам от OpenAI, где акцент делается на чёткой роли и жёстких ограничениях. Только здесь мы добавляем специфику для исследований.
4 Всегда измеряйте и сравнивайте
Не верьте слепо бенчмаркам (включая этому). Запустите A/B тест на своих данных. Возьмите 50-100 типичных для вас исследовательских запросов. Прогоните их через модель с настройкой LOW и HIGH. Посчитайте не только субъективное "качество", но и:
- Фактическую точность (сколько ответов верны).
- Полноту (не упущена ли ключевая информация).
- Длину ответа (токены = деньги).
- Время выполнения (если это критично).
Скорее всего, вы увидите ту же картину: низкие настройки дают более сфокусированный, точный и дешёвый результат.
А что с другими моделями? GLM, Qwen, Claude
Парадокс не уникален для Google и OpenAI. Он проявляется везде, где есть параметры, управляющие "глубиной обработки". Например, в GLM-4.7-Flash чрезмерное увеличение контекста или параметров поиска может привести к зацикливанию и генерации шума — мы уже писали, как с этим бороться.
У локальных моделей, таких как Qwen3-30B, проблема выражается не в деньгах, а во времени и ресурсах. Установка высоких параметров "мыслящей" нагрузки (через параметры sampling или расширенного контекста) может увеличить время генерации в разы без улучшения результата для фактологических задач.
Универсальное правило: Для задач поиска и извлечения фактов начинайте с минимальных настроек "умственных усилий". Повышайте их только если видите, что модель постоянно упускает важные связи или контекст. В 80% случаев повышать не придётся.
Ошибки, которые все совершают (и как их избежать)
- Ошибка: "Поставим температуру 0.7 для разнообразия ответов". Для исследований температура должна быть близка к нулю (0.1-0.2). Разнообразие в фактах — это ошибки, а не фича.
- Ошибка: "Пусть модель сама решает, сколько токенов выдать". Всегда устанавливайте разумный max_tokens. Без ограничения модель в режиме "high effort" может выдать вам диссертацию вместо списка фактов.
- Ошибка: Использовать общие system prompt. Не "Ты — полезный ассистент". А "Ты — факт-чекер, который ищет только конкретную информацию по запросу. Не рассуждай".
- Ошибка: Не учитывать стоимость в расчёте ROI. Если точность на low — 75%, а на high — 76%, но стоит в 2.5 раза дороже, вы платите на 150% больше за 1% улучшения. Это почти всегда невыгодно.
Что дальше? Будущее "умных" настроек
Текущая реализация параметров усилия — тупая. Больше циклов = больше денег. Будущее за адаптивными системами, где модель сама оценивает сложность запроса и выделяет необходимый объём вычислений. Первые признаки этого уже есть: Gemini Flash 3 в некоторых режимах пытается определять, нужен ли ей расширенный reasoning. Но пока это сыро.
До тех пор ваша лучшая стратегия — ручное, осмысленное управление. Не платите за "премиум", который делает хуже. Используйте силу моделей, но не позволяйте им бесконтрольно тратить ваши деньги на внутренние монологи, которые только мешают.
И помните: самый дорогой инструмент — не всегда самый точный. Иногда самый простой и дешёвый попадает прямо в цель.