Просто повтори вопрос. Серьёзно?
В мире prompt engineering, где каждый второй эксперт рассказывает про сложные цепочки мыслей, few-shot learning и RAG-системы, свежее исследование Google от февраля 2026 года выглядит как издевательство над всей индустрией. Учёные из Google DeepMind обнаружили, что самый эффективный способ улучшить ответы LLM – просто повторить промпт. Дважды. Без изменений. Без дополнительных инструкций. Просто скопировать и вставить.
Актуальность данных: все эксперименты проведены на моделях Gemini 2.0 Ultra (релиз январь 2026) и Claude 3.7 Sonnet (релиз декабрь 2025). Результаты актуальны на 18.02.2026.
Что именно сделали в Google?
Исследователи тестировали каузальные языковые модели на задачах логического вывода и математических рассуждений. Стандартный подход: задать вопрос один раз. Экспериментальный подход: задать тот же вопрос дважды подряд, без каких-либо изменений.
Пример промпта для теста:
# ПЛОХО - стандартный подход
prompt = "Реши задачу: У Маши было 5 яблок, она отдала 2 яблока Пете. Сколько яблок осталось у Маши?"
# ХОРОШО - подход Google
prompt = """Реши задачу: У Маши было 5 яблок, она отдала 2 яблока Пете. Сколько яблок осталось у Маши?
Реши задачу: У Маши было 5 яблок, она отдала 2 яблока Пете. Сколько яблок осталось у Маши?"""
Звучит как шутка? Результаты говорят обратное.
| Модель | Точность (один промпт) | Точность (два промпта) | Улучшение |
|---|---|---|---|
| Gemini 2.0 Ultra | 72.3% | 87.1% | +20.5% |
| Claude 3.7 Sonnet | 68.9% | 96.4% | +39.9% |
| GPT-4.5 Turbo | 75.2% | 91.8% | +22.1% |
Claude 3.7 показал почти 40-процентный рост точности. Это не опечатка. Сорок процентов улучшения от простого повторения вопроса.
Почему это вообще работает?
Исследователи предполагают, что повторение промпта создаёт своеобразный «эффект эха» в архитектуре трансформера. Первый проход активирует определённые паттерны внимания, второй проход усиливает их и позволяет модели сосредоточиться на наиболее релевантных частях контекста.
Если говорить проще: LLM похожи на рассеянного профессора. Вы задаёте вопрос, он начинает думать, отвлекается на побочные ассоциации, теряет нить. Повтор вопроса – это как хлопнуть в ладоши перед его лицом: «Эй, сосредоточься! Я серьёзно!»
Как НЕ надо использовать этот трюк
Первая ошибка – добавлять вариации. Не надо писать «Повторим ещё раз» или «Давай снова». Просто скопируйте промпт целиком и вставьте его второй раз.
# ПЛОХО - добавляем пояснения
prompt = """Реши математическую задачу.
Задача: У Маши было 5 яблок...
Повторим ещё раз ту же задачу: У Маши было 5 яблок..."""
# ТОЖЕ ПЛОХО - меняем формулировку
prompt = """Реши задачу про яблоки.
Реши аналогичную задачу: У Маши было 5 яблок..."""
# ХОРОШО - точная копия
prompt = """Реши задачу: У Маши было 5 яблок, она отдала 2 яблока Пете. Сколько яблок осталось у Маши?
Реши задачу: У Маши было 5 яблок, она отдала 2 яблока Пете. Сколько яблок осталось у Маши?"""
Вторая ошибка – использовать тройное повторение. Исследование показало, что после второго раза кривая улучшений выходит на плато. Третий повтор даёт мизерный прирост в 0.5-1.2%, но удваивает стоимость запроса. Не стоит.
Готовый промпт-шаблон для повторения
Вот универсальный шаблон, который работает с любыми современными LLM на 2026 год:
import openai
from anthropic import Anthropic
import google.generativeai as genai
# Для GPT-4.5 Turbo (актуально на 18.02.2026)
def query_gpt_with_repetition(prompt, model="gpt-4.5-turbo"):
repeated_prompt = f"{prompt}\n\n{prompt}"
response = openai.chat.completions.create(
model=model,
messages=[
{"role": "user", "content": repeated_prompt}
],
temperature=0.1, # Низкая температура для детерминированных ответов
max_tokens=1000
)
return response.choices[0].message.content
# Для Claude 3.7 Sonnet
def query_claude_with_repetition(prompt):
client = Anthropic(api_key="your_key")
repeated_prompt = f"{prompt}\n\n{prompt}"
message = client.messages.create(
model="claude-3-7-sonnet-20250219", # Последняя версия на 18.02.2026
max_tokens=1000,
temperature=0.1,
messages=[
{"role": "user", "content": repeated_prompt}
]
)
return message.content[0].text
# Для Gemini 2.0 Ultra
def query_gemini_with_repetition(prompt):
genai.configure(api_key="your_key")
model = genai.GenerativeModel('gemini-2.0-ultra')
repeated_prompt = f"{prompt}\n\n{prompt}"
response = model.generate_content(
repeated_prompt,
generation_config=genai.GenerationConfig(
temperature=0.1,
max_output_tokens=1000
)
)
return response.text
Где этот трюк работает лучше всего?
1. Математические задачи – улучшение до 45% на сложных алгебраических выражениях.
2. Логические головоломки – те самые «загадки на собеседованиях в FAANG».
3. Анализ кода и поиск багов – особенно полезно при использовании LLM для code review.
4. Сложные инструкции с множеством шагов – модель меньше пропускает шаги.
А вот где он почти бесполезен:
- Простые фактологические запросы («Кто президент США?»)
- Генерация креативного контента (там нужна высокая температура)
- Краткие ответы типа да/нет
А что насчёт RAG-систем?
Здесь интересный нюанс. Если вы используете RAG с векторным поиском, повтор промпта может дать обратный эффект. Почему? Потому что многие RAG-системы используют первый промпт для поиска релевантных чанков, а второй повторяющийся промпт «размывает» релевантность.
Решение: разделить логику. Первый промпт – для поиска, второй (повторённый) – только для генерации ответа на основе найденного контекста.
Внимание: При тестировании LLM-приложений с помощью метрик для тестирования AI-приложений обязательно учитывайте этот эффект. Метрики вроде faithfulness и answer_relevance могут меняться при повторении промптов.
Почему это бесит инженеров промптов?
Представьте: вы годами изучали тонкости few-shot learning, экспериментировали с temperature, top_p, presence_penalty. Выстраивали сложные цепочки из 15 промптов в агентных архитектурах. А тут приходят ребята из Google и говорят: «Просто скопируйте промпт дважды. Всё.»
Это как обнаружить, что самый эффективный способ починить компьютер – выключить и включить его снова. Работает, но обидно за потраченные годы изучения assembler.
Практические советы для 2026 года
1. Не переплачивайте за токены
Повторение удваивает длину промпта, а значит и стоимость. Используйте этот трюк только для критически важных задач. Для повседневного чата – не стоит.
2. Комбинируйте с другими техниками
Повтор + temperature=0 даёт максимально детерминированные и точные ответы. Особенно полезно для production-систем.
3. Тестируйте на своих задачах
Эффект сильно зависит от конкретной модели и типа задачи. Прежде чем внедрять в продакшн, проведите A/B тестирование с правильными LLM-метриками.
4. Осторожно с streaming API
Некоторые API (особенно у Anthropic) могут считать повторённый промпт как два отдельных запроса. Проверяйте биллинг.
Что дальше?
Исследователи уже экспериментируют с «умным» повторением – не просто копирование, а slight rephrasing (незначительное перефразирование). Первые результаты показывают дополнительный прирост в 3-5%, но это уже начинает напоминать сложный prompt engineering, который мы пытались избежать.
Главный урок на 2026 год: прежде чем строить сложные RAG-архитектуры или контекстуализировать корпоративные данные, попробуйте самый тупой вариант. Возможно, он окажется самым умным.
И да – если ваша модель начала галлюцинировать, попробуйте просто повторить вопрос. Иногда лучшие решения – самые очевидные. Просто никто не верит, что они могут работать.