Повтор промпта дважды: хак Google для улучшения LLM ответов | 18.02.2026 | AiManual
AiManual Logo Ai / Manual.
18 Фев 2026 Промпт

Повтор промта дважды: Google доказал, что простейший трюк повышает качество LLM на 40%

Свежее исследование Google на 18.02.2026: повтор промта дважды повышает точность LLM на 40% без дополнительных затрат. Практический гайд с промптами.

Просто повтори вопрос. Серьёзно?

В мире prompt engineering, где каждый второй эксперт рассказывает про сложные цепочки мыслей, few-shot learning и RAG-системы, свежее исследование Google от февраля 2026 года выглядит как издевательство над всей индустрией. Учёные из Google DeepMind обнаружили, что самый эффективный способ улучшить ответы LLM – просто повторить промпт. Дважды. Без изменений. Без дополнительных инструкций. Просто скопировать и вставить.

Актуальность данных: все эксперименты проведены на моделях Gemini 2.0 Ultra (релиз январь 2026) и Claude 3.7 Sonnet (релиз декабрь 2025). Результаты актуальны на 18.02.2026.

Что именно сделали в Google?

Исследователи тестировали каузальные языковые модели на задачах логического вывода и математических рассуждений. Стандартный подход: задать вопрос один раз. Экспериментальный подход: задать тот же вопрос дважды подряд, без каких-либо изменений.

Пример промпта для теста:

# ПЛОХО - стандартный подход
prompt = "Реши задачу: У Маши было 5 яблок, она отдала 2 яблока Пете. Сколько яблок осталось у Маши?"

# ХОРОШО - подход Google
prompt = """Реши задачу: У Маши было 5 яблок, она отдала 2 яблока Пете. Сколько яблок осталось у Маши?

Реши задачу: У Маши было 5 яблок, она отдала 2 яблока Пете. Сколько яблок осталось у Маши?"""

Звучит как шутка? Результаты говорят обратное.

Модель Точность (один промпт) Точность (два промпта) Улучшение
Gemini 2.0 Ultra 72.3% 87.1% +20.5%
Claude 3.7 Sonnet 68.9% 96.4% +39.9%
GPT-4.5 Turbo 75.2% 91.8% +22.1%

Claude 3.7 показал почти 40-процентный рост точности. Это не опечатка. Сорок процентов улучшения от простого повторения вопроса.

Почему это вообще работает?

Исследователи предполагают, что повторение промпта создаёт своеобразный «эффект эха» в архитектуре трансформера. Первый проход активирует определённые паттерны внимания, второй проход усиливает их и позволяет модели сосредоточиться на наиболее релевантных частях контекста.

Если говорить проще: LLM похожи на рассеянного профессора. Вы задаёте вопрос, он начинает думать, отвлекается на побочные ассоциации, теряет нить. Повтор вопроса – это как хлопнуть в ладоши перед его лицом: «Эй, сосредоточься! Я серьёзно!»

💡
Интересно, что этот эффект максимально работает именно на задачах, требующих логического вывода. На простых фактологических вопросах (типа «столица Франции») улучшение минимально – около 2-3%. А вот там, где нужно думать – математика, логические головоломки, анализ текста – там повтор даёт взрывной эффект.

Как НЕ надо использовать этот трюк

Первая ошибка – добавлять вариации. Не надо писать «Повторим ещё раз» или «Давай снова». Просто скопируйте промпт целиком и вставьте его второй раз.

# ПЛОХО - добавляем пояснения
prompt = """Реши математическую задачу.

Задача: У Маши было 5 яблок...

Повторим ещё раз ту же задачу: У Маши было 5 яблок..."""

# ТОЖЕ ПЛОХО - меняем формулировку
prompt = """Реши задачу про яблоки.

Реши аналогичную задачу: У Маши было 5 яблок..."""

# ХОРОШО - точная копия
prompt = """Реши задачу: У Маши было 5 яблок, она отдала 2 яблока Пете. Сколько яблок осталось у Маши?

Реши задачу: У Маши было 5 яблок, она отдала 2 яблока Пете. Сколько яблок осталось у Маши?"""

Вторая ошибка – использовать тройное повторение. Исследование показало, что после второго раза кривая улучшений выходит на плато. Третий повтор даёт мизерный прирост в 0.5-1.2%, но удваивает стоимость запроса. Не стоит.

Готовый промпт-шаблон для повторения

Вот универсальный шаблон, который работает с любыми современными LLM на 2026 год:

import openai
from anthropic import Anthropic
import google.generativeai as genai

# Для GPT-4.5 Turbo (актуально на 18.02.2026)
def query_gpt_with_repetition(prompt, model="gpt-4.5-turbo"):
    repeated_prompt = f"{prompt}\n\n{prompt}"
    
    response = openai.chat.completions.create(
        model=model,
        messages=[
            {"role": "user", "content": repeated_prompt}
        ],
        temperature=0.1,  # Низкая температура для детерминированных ответов
        max_tokens=1000
    )
    return response.choices[0].message.content

# Для Claude 3.7 Sonnet
def query_claude_with_repetition(prompt):
    client = Anthropic(api_key="your_key")
    repeated_prompt = f"{prompt}\n\n{prompt}"
    
    message = client.messages.create(
        model="claude-3-7-sonnet-20250219",  # Последняя версия на 18.02.2026
        max_tokens=1000,
        temperature=0.1,
        messages=[
            {"role": "user", "content": repeated_prompt}
        ]
    )
    return message.content[0].text

# Для Gemini 2.0 Ultra
def query_gemini_with_repetition(prompt):
    genai.configure(api_key="your_key")
    model = genai.GenerativeModel('gemini-2.0-ultra')
    
    repeated_prompt = f"{prompt}\n\n{prompt}"
    
    response = model.generate_content(
        repeated_prompt,
        generation_config=genai.GenerationConfig(
            temperature=0.1,
            max_output_tokens=1000
        )
    )
    return response.text

Где этот трюк работает лучше всего?

1. Математические задачи – улучшение до 45% на сложных алгебраических выражениях.

2. Логические головоломки – те самые «загадки на собеседованиях в FAANG».

3. Анализ кода и поиск багов – особенно полезно при использовании LLM для code review.

4. Сложные инструкции с множеством шагов – модель меньше пропускает шаги.

А вот где он почти бесполезен:

  • Простые фактологические запросы («Кто президент США?»)
  • Генерация креативного контента (там нужна высокая температура)
  • Краткие ответы типа да/нет

А что насчёт RAG-систем?

Здесь интересный нюанс. Если вы используете RAG с векторным поиском, повтор промпта может дать обратный эффект. Почему? Потому что многие RAG-системы используют первый промпт для поиска релевантных чанков, а второй повторяющийся промпт «размывает» релевантность.

Решение: разделить логику. Первый промпт – для поиска, второй (повторённый) – только для генерации ответа на основе найденного контекста.

Внимание: При тестировании LLM-приложений с помощью метрик для тестирования AI-приложений обязательно учитывайте этот эффект. Метрики вроде faithfulness и answer_relevance могут меняться при повторении промптов.

Почему это бесит инженеров промптов?

Представьте: вы годами изучали тонкости few-shot learning, экспериментировали с temperature, top_p, presence_penalty. Выстраивали сложные цепочки из 15 промптов в агентных архитектурах. А тут приходят ребята из Google и говорят: «Просто скопируйте промпт дважды. Всё.»

Это как обнаружить, что самый эффективный способ починить компьютер – выключить и включить его снова. Работает, но обидно за потраченные годы изучения assembler.

Практические советы для 2026 года

1. Не переплачивайте за токены

Повторение удваивает длину промпта, а значит и стоимость. Используйте этот трюк только для критически важных задач. Для повседневного чата – не стоит.

2. Комбинируйте с другими техниками

Повтор + temperature=0 даёт максимально детерминированные и точные ответы. Особенно полезно для production-систем.

3. Тестируйте на своих задачах

Эффект сильно зависит от конкретной модели и типа задачи. Прежде чем внедрять в продакшн, проведите A/B тестирование с правильными LLM-метриками.

4. Осторожно с streaming API

Некоторые API (особенно у Anthropic) могут считать повторённый промпт как два отдельных запроса. Проверяйте биллинг.

Что дальше?

Исследователи уже экспериментируют с «умным» повторением – не просто копирование, а slight rephrasing (незначительное перефразирование). Первые результаты показывают дополнительный прирост в 3-5%, но это уже начинает напоминать сложный prompt engineering, который мы пытались избежать.

Главный урок на 2026 год: прежде чем строить сложные RAG-архитектуры или контекстуализировать корпоративные данные, попробуйте самый тупой вариант. Возможно, он окажется самым умным.

И да – если ваша модель начала галлюцинировать, попробуйте просто повторить вопрос. Иногда лучшие решения – самые очевидные. Просто никто не верит, что они могут работать.