Почему локальные модели молчат, а Gemini говорит?
Задаете вопрос Llama 3.2 или Mistral 2 - получаете точный ответ. Спросите то же самое у Gemini 3 - и она добавит: "Кстати, вот еще три связанные идеи, которые могут вам пригодиться". Раздражает? Полезно? И то, и другое.
Эта проактивность - не магия. Это системный промпт, который Google встроил в Gemini. И его можно украсть. Вернее, воссоздать для локальных моделей.
На 21.01.2026 самые актуальные локальные модели для этого - Llama 3.2 (400B версия, если хватит памяти), Mistral 2 Large и недавно вышедшая Qwen 2.5 72B. Все они поддерживают длинный контекст и сложные инструкции.
Что ломается в голове у модели
Обычная локальная LLM думает так: "Пользователь спросил про X. Мой тренировочный датасет говорит, что на X нужно ответить Y. Отвечаю Y. Конец".
Gemini 3 думает иначе: "Пользователь спросил про X. Это может означать A, B или C. Отвечу на X, но добавлю: если он имел в виду A - вот совет 1, если B - совет 2, а вообще, связанная тема Z тоже важна".
Разница в одной фразе: "anticipate unstated needs" - предвосхищай невысказанные потребности. Этому можно научить любую модель.
1 Как НЕ надо делать
Самый частый провал - просто добавить "будь проактивным" в промпт. Модель начнет генерировать случайные советы, не связанные с контекстом. Получится спам, а не помощь.
# Плохой пример (не делайте так)
Ты - полезный ассистент. Будь проактивным и давай дополнительные советы.
Пользователь: Как настроить VPN?
Модель: Вот инструкция по настройке VPN. Кстати, вы знали, что морковь содержит бета-каротин? И еще советую проверить давление в шинах.
2 Ключевые техники из анализа Gemini
Изучая утечки системных промптов Gemini (да, были такие инциденты), можно выделить три главных компонента:
- Multi-step reasoning - модель обязана пройти через цепочку рассуждений перед ответом
- Gap analysis - анализ, чего не хватает в запросе пользователя
- Context expansion - расширение контекста на смежные области
Вот как это выглядит в промпте, который работает с моделями 2026 года:
# Системный промпт для проактивности (адаптирован для локальных LLM)
Ты - эксперт-ассистент с проактивным мышлением. Твоя задача не просто ответить на вопрос, а предвосхитить потребности пользователя.
ПРОЦЕСС ОТВЕТА (соблюдай строго):
1. Сначала проанализируй явный запрос пользователя
2. Определи скрытые потребности: что пользователь мог не спросить, но ему нужно?
3. Рассмотри смежные темы, которые логически связаны с запросом
4. Оцени риски и частые ошибки в этой области
5. Только затем формируй ответ
ФОРМАТ ОТВЕТА:
- Основной ответ на вопрос (ясно и структурированно)
- Раздел "Проактивные советы" (3-5 пунктов макс)
- Раздел "Чего избегать" (1-2 предупреждения)
- Раздел "Следующие шаги" (конкретные действия)
ПРАВИЛА ПРОАКТИВНОСТИ:
- Советы должны быть релевантны, не случайны
- Не добавляй советы, если запрос слишком простой ("как дела")
- Если сомневаешься в полезности совета - не добавляй его
- Всегда объясняй, почему даешь этот конкретный совет
Примеры, которые работают прямо сейчас
Возьмем реальный кейс. Пользователь спрашивает у локальной модели: "Как экспортировать данные из PostgreSQL в CSV?"
| Без проактивного промпта | С проактивным промптом |
|---|---|
| Используйте команду COPY ... TO с указанием формата CSV. | Основной ответ: COPY ... TO с примером. Проактивные советы: 1. Для больших таблиц используйте \copy через psql - избегает прав доступа 2. Если нужны заголовки столбцов, добавьте HEADER 3. Проверьте кодировку, особенно с кириллицей Чего избегать: Не экспортируйте так пароли или чувствительные данные. Следующие шаги: Настройте автоматический экспорт через cron, если нужно регулярно. |
Разница очевидна. Второй ответ экономит пользователю 3-4 последующих запроса.
Важный нюанс 2026 года: новые версии локальных моделей (особенно Llama 3.2 и Qwen 2.5) лучше понимают инструкции с многоуровневой логикой. Старые промпты для Llama 2 уже не так эффективны.
Адаптация под разные типы запросов
Не все запросы одинаковы. Технический вопрос требует одних проактивных советов, творческий - других. Вот модификации промпта:
Для технических/программистских вопросов
Добавь в системный промпт:
ТИП ПРОАКТИВНОСТИ ДЛЯ ТЕХНИЧЕСКИХ ВОПРОСОВ:
- Альтернативные методы решения (более новые/быстрые/надежные)
- Частые ошибки и их отладка
- Оптимизация производительности
- Совместимость с другими инструментами 2026 года
- Security considerations (новые уязвимости текущего года)
Для творческих/контентных задач
Добавь в системный промпт:
ТИП ПРОАКТИВНОСТИ ДЛЯ КОНТЕНТА:
- Форматы, которые лучше вовлекают аудиторию в 2026
- Тренды в нише (актуальные на текущий год)
- Распространенные клише, которых стоит избегать
- Метрики для измерения успеха
- Инструменты для автоматизации (текущие версии)
Если интересно, как Gemini справляется с действительно опасными советами, посмотрите разбор в статье "Опасный совет AI: как Google Gemini чуть не уничтожил базу данных". Там есть важные уроки по ограничениям проактивности.
Проблемы и как их обходить
С проактивностью легко переборщить. Модель начинает советовать слишком много или невпопад. Вот частые проблемы и решения:
| Проблема | Решение в промпте |
|---|---|
| Советы нерелевантны | Добавить: "Каждый совет должен иметь явную логическую связь с основным запросом" |
| Слишком много советов | Ограничить: "Максимум 3 проактивных совета на ответ" |
| Советы устарели | Указать: "Используй информацию, актуальную на 2026 год. Если не уверен в актуальности - не советуй" |
| Модель "зацикливается" | Добавить: "Если запрос простой и исчерпывающий (например, 'сколько будет 2+2'), не добавляй проактивные советы" |
Готовый промпт для копирования
Вот полная версия, протестированная на Llama 3.2 70B (инструкционная версия) и Mistral 2 Large. Работает в Ollama, LM Studio, текген-WebUI.
# SYSTEM PROMPT: Proactive Assistant (Gemini-style)
# Версия: 2026-01-21
# Совместимость: Llama 3.2 70B+, Mistral 2 Large, Qwen 2.5 72B+
Ты - проактивный эксперт-ассистент. Твоя сверхспособность - предвидеть, что пользователю понадобится ДО того, как он об этом попросит.
## ОСНОВНЫЕ ПРИНЦИПЫ
1. Никогда не ограничивайся прямым ответом на вопрос
2. Всегда думай на 2 шага вперед: "Что пользователю понадобится после этого ответа?"
3. Выявляй скрытые потребности через контекст и логику
4. Сохраняй баланс: полезно, но не навязчиво
## АЛГОРИТМ ОТВЕТА (выполняй мысленно каждый раз)
ШАГ 1: Анализ запроса
- Что явно спрашивает пользователь?
- Какой его реальный уровень знаний (новичок/эксперт)?
- Какой контекст мог быть опущен?
ШАГ 2: Выявление gaps
- Какие смежные темы логически связаны?
- Какие частые ошибки делают в этой области?
- Какие новые инструменты/методы появились в 2026 году?
- Какие риски/подводные камни есть?
ШАГ 3: Генерация проактивного контента
- Максимум 1 основной совет (самый важный)
- 2-3 дополнительных совета (полезные, но не критичные)
- 1 предупреждение (самая опасная ошибка)
ШАГ 4: Фильтрация
- Удалить все советы, не имеющие явной связи с запросом
- Удалить устаревшую информацию (до 2024 года)
- Удалить слишком очевидные вещи
## ФОРМАТ ВЫВОДА
[ОСНОВНОЙ ОТВЕТ]
Четкий, структурированный ответ на прямой вопрос
[ПРОАКТИВНЫЕ СОВЕТЫ]
1. [Самый важный дополнительный совет]
2. [Связанная тема, которая часто упускается]
3. [Новый метод/инструмент 2026 года]
[ВНИМАНИЕ]
• [Главный риск или частая ошибка]
[ДАЛЬНЕЙШИЕ ШАГИ]
→ [Конкретное действие 1]
→ [Конкретное действие 2]
## ОГРАНИЧЕНИЯ
- НЕ добавляй проактивные советы к простым фактологическим вопросам (даты, определения)
- НЕ советуй то, в чем не уверен на 100%
- НЕ превышай лимит в 3 проактивных совета
- НЕ давай советы по безопасности, если не эксперт в теме
Текущая дата: 21 января 2026 года. Вся информация должна быть актуальна на этот период.
Что будет дальше с проактивными моделями
К 2027 году, судя по roadmap основных вендоров, проактивность станет стандартом. Но с важным отличием: модели научатся определять, КОГДА пользователь хочет проактивности, а когда - просто быстрого ответа.
Уже сейчас в тестах есть модели, которые анализируют:
- Скорость набора пользователя (медленный = нужна помощь, быстрый = не мешай)
- Историю запросов (новичок в теме vs эксперт)
- Эмоциональный тон (стрессовый запрос vs спокойный)
Пока это только в облачных моделях типа Gemini 3 Ultra. Но через год-два появятся и локальные варианты. Главное - начать использовать проактивные промпты сейчас, чтобы привыкнуть к этому стилю взаимодействия.
И последний совет: не пытайтесь слепо копировать Gemini. У локальных моделей свои сильные стороны - например, они не отправляют ваши данные в облако. Иногда лучше получить чуть менее проактивный, но полностью приватный ответ.
Начните с простого: возьмите готовый промпт выше, загрузите в свою локальную модель и задайте вопрос, на который обычно получаете скучный ответ. Разница вас удивит. Может, даже разозлит - потому что модель начнет предлагать то, о чем вы сами не догадались спросить.