Почему маленькая модель забывает контекст через несколько сообщений?

Маленькие модели (0.5B-7B параметров) имеют ограниченную способность удерживать информацию в контексте. После 1500-3000 токенов качество начинает падать. Решение - использовать технику скользящего контекста и RAG для хранения информации.

Можно ли запустить RAG систему на Raspberry Pi 5?

Да, но с ограничениями. Используйте ultra-light модели для эмбеддингов (ONNXMiniLM_L6_V2, 40MB), ограничьте базу знаний 500-1000 документами и используйте модель не более 1.5B параметров для генерации ответов.

Какая производительность ожидается от LLM на слабом железе?

На Raspberry Pi 5 с моделью 1B параметров - 4-7 токенов/сек. На MacBook Air M4 с моделью 7B параметров - 18-30 токенов/сек. Этого достаточно для локального помощника, но не для массовой обработки данных.

Запуск LLM 0.5B-7B на Raspberry Pi и MacBook Air: RAG и контекст

Почему маленькие модели не такие уж глупые (если знать секреты)

Вы скачали Phi-3-mini или Qwen2.5-Coder-1.5B, запустили на Raspberry Pi 5 или MacBook Air M4, а в ответ получаете ерунду. Модель путает синтаксис, забывает контекст через три предложения и в целом ведет себя как студент на ночной сессии. Знакомо?

Проблема не в моделях. Проблема в том, как мы с ними работаем. Большие LLM в 70B+ параметров могут позволить себе роскошь хранить в контексте всю историю диалога и пол-Википедии. Маленькие модели (0.5B-7B) на этом падают. Но есть способ заставить их работать не хуже больших братьев, а в некоторых сценариях - даже лучше.

Главное заблуждение: думать, что маленькая модель - это просто урезанная версия большой. На самом деле это другой класс инструментов, требующий другой методологии работы.

Критически важный выбор: какая модель на каком железе

Первая ошибка - пытаться запихнуть на Raspberry Pi модель, которая едва помещается на MacBook Air с M4. Вторая - не учитывать, для чего именно вам нужна модель.

Устройство	Оптимальный размер	Конкретные модели (2026)	Что умеет делать
Raspberry Pi 5 (8GB)	0.5B-1.5B параметров	Phi-3-mini (3.8B в 4-bit), Qwen2.5-Coder-1.5B, TinyLlama-1.1B	Простые запросы, классификация, извлечение информации из коротких текстов
MacBook Air M4 (8GB)	3B-7B параметров	Llama-3.2-3B-Instruct, Qwen2.5-7B-Instruct, DeepSeek-Coder-6.7B	Генерация кода, анализ текста, RAG с документами до 50 страниц
MacBook Air M4 (16GB)	7B-13B параметров	Llama-3.2-7B, Mistral-7B-v0.3, CodeLlama-7B	Сложные RAG-системы, анализ кода, работа с большими контекстами

💡

На Raspberry Pi 5 с 8GB RAM никогда не пытайтесь запускать модели больше 3B параметров даже в 4-bit квантованном виде. Система уйдет в swap, и вы получите 0.5 токенов в секунду. Если у вас Pi с 4GB RAM - максимум 1B параметров. Помните про проблему износа microSD - на Pi 5 всегда используйте внешний SSD.

Сценарий: помощник по Golang на MacBook Air M4 (8GB)

Допустим, вы изучаете Golang и хотите локального помощника, который не будет сливать ваши приватные сниппеты кода в облако. У вас MacBook Air M4 с 8GB RAM. Что делать?

1 Выбираем модель и инструмент

Для генерации кода на Golang в 2026 году лучший выбор - Qwen2.5-Coder-7B или DeepSeek-Coder-6.7B. Обе модели показывают отличные результаты именно в программировании, особенно после fine-tuning на код.

# Устанавливаем Ollama (самый простой способ на 2026 год)
curl -fsSL https://ollama.ai/install.sh | sh

# Скачиваем модель в 4-bit квантовании (занимает ~4GB)
ollama pull qwen2.5-coder:7b-q4_K_M

# Или DeepSeek-Coder, если предпочитаете
ollama pull deepseek-coder:6.7b-q4_K_M

Не используйте модели без указания версии квантования. qwen2.5-coder:7b скачает полную версию в 16-bit (~14GB), которая не влезет в память. Всегда указывайте q4_K_M или q5_K_M для баланса качества и размера.

2 Настраиваем контекст правильно

Вот где большинство ошибается. Маленькие модели не могут держать в голове 8192 токенов контекста (как Llama-3.1-405B). Даже если технически поддерживают, качество падает после 2000-3000 токенов.

Правильный подход: работать с окном в 1500-2000 токенов и использовать технику "скользящего контекста".

# Пример НЕПРАВИЛЬНОГО использования контекста
# Модель забудет начало после 3000 токенов
prompt = """
Вот документация по Go контексту: [500 токенов документации]
Вот мой текущий код: [1000 токенов кода]
Вот история обсуждения проблемы: [2000 токенов]
Исправь вот эту конкретную ошибку...
"""

# Пример ПРАВИЛЬНОГО подхода
# 1. Сначала даем только суть проблемы
prompt1 = """
[Кратко: 200 токенов о проблеме с контекстом в Go]
Предложи три варианта решения.
"""

# 2. Получив ответ, уточняем с дополнительным контекстом
prompt2 = """
[Предыдущий ответ модели: 300 токенов]
[Конкретный сниппет кода с ошибкой: 400 токенов]
Как применить второй вариант к моему коду?
"""

3 Добавляем RAG для документации Go

Маленькая модель не знает всех нюансов стандартной библиотеки Go. Но она может искать информацию в локальной базе знаний. Вот минимальная RAG-система:

# Устанавливаем необходимые библиотеки (2026 год)
pip install chromadb sentence-transformers ollama

import chromadb
from sentence_transformers import SentenceTransformer
import ollama

# Используем маленькую модель для эмбеддингов (работает даже на Pi)
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')  # Всего 80MB

# Создаем базу знаний с документацией Go
docs = [
    "Пакет context в Go позволяет передавать дедлайны...",
    "Функция context.WithCancel создает новый контекст...",
    "Ошибка 'context deadline exceeded' возникает когда...",
    # ... еще 100-200 документов
]

# Генерируем эмбеддинги и сохраняем в ChromaDB
chroma_client = chromadb.PersistentClient(path="./go_docs_db")
collection = chroma_client.create_collection(name="go_docs")

for i, doc in enumerate(docs):
    embedding = embedding_model.encode(doc).tolist()
    collection.add(
        documents=[doc],
        embeddings=[embedding],
        ids=[f"doc_{i}"]
    )

# Функция поиска релевантной документации
def search_go_docs(query, top_k=3):
    query_embedding = embedding_model.encode(query).tolist()
    results = collection.query(
        query_embeddings=[query_embedding],
        n_results=top_k
    )
    return "\n\n".join(results['documents'][0])

# Теперь используем с LLM
def ask_go_question(question):
    # 1. Ищем релевантную документацию
    relevant_docs = search_go_docs(question)
    
    # 2. Формируем промпт с ограниченным контекстом
    prompt = f"""
Используй эту документацию Go:
{relevant_docs[:1500]}  # Ограничиваем длину

Ответь на вопрос: {question}

Ответ должен быть конкретным, с примерами кода если нужно.
"""
    
    # 3. Запрашиваем у локальной LLM
    response = ollama.chat(
        model='qwen2.5-coder:7b-q4_K_M',
        messages=[{'role': 'user', 'content': prompt}]
    )
    
    return response['message']['content']

💡

Ключевой момент: модель для эмбеддингов (all-MiniLM-L6-v2) занимает 80MB и работает даже на Raspberry Pi. Основная LLM (7B параметров) используется только для генерации ответов на основе найденной информации. Это разделение труда - маленькая модель ищет, чуть побольше - генерирует.

Raspberry Pi 5: экстремальная оптимизация

На Pi ситуация жестче. 8GB RAM звучит много, но после загрузки системы и модели в 3B параметров остается ~1GB свободной памяти. Вот как выжимать максимум:

Выбор модели для Pi

Phi-3-mini (3.8B в 4-bit) - лучший баланс качества и размера, занимает ~2.3GB
Qwen2.5-Coder-1.5B - если нужно именно программирование, занимает ~1GB
TinyLlama-1.1B - максимальная скорость, но меньше качество

# На Raspberry Pi используем Ollama с флагами оптимизации
OLLAMA_NUM_PARALLEL=1 OLLAMA_KV_CACHE_PERCENT=0.3 ollama run phi3:mini-q4_K_M

# Флаги объясняю:
# OLLAMA_NUM_PARALLEL=1 - не пытаться распараллеливать на слабых ядрах
# OLLAMA_KV_CACHE_PERCENT=0.3 - ограничить кэш ключ-значение до 30% памяти
# Иначе модель съест всю доступную RAM

Минимальный RAG на Pi

На Pi не получится держать в памяти и модель для эмбеддингов, и основную LLM одновременно. Решение - использовать ultra-light эмбеддинги:

# На Raspberry Pi используем еще более легкую модель
from chromadb.utils.embedding_functions import ONNXMiniLM_L6_V2

# ChromaDB имеет встроенную ultra-light версию
embedding_function = ONNXMiniLM_L6_V2()

# Эта версия использует ONNX Runtime и занимает всего 40MB
# Работает в 2-3 раза быстрее на слабом железе

# Остальной код аналогичен, но с меньшими размерами базы знаний
# На Pi храните не больше 500-1000 документов

Типичные ошибки (и как их не совершать)

Ошибка	Что происходит	Как исправить
Дать слишком длинный контекст	Модель "забывает" начало, качество ответов падает после 70% контекста	Ограничить 1500 токенов для 1B моделей, 2500 для 7B. Использовать summary предыдущих сообщений
Не квантовать модели	Модель 7B в fp16 занимает 14GB, не влезает в память, уходит в swap	Всегда использовать q4_K_M или q5_K_M. Потеря качества 1-3%, экономия памяти 70%
Пытаться fine-tuning на слабом железе	Система зависает, процесс занимает дни вместо часов	Использовать Unsloth-MLX для прототипирования на Mac, затем переносить на Pi только инференс
Хранить всю документацию в одном чанке	Поиск возвращает нерелевантные части, RAG не работает	Делить документы на чанки по 200-400 токенов с перекрытием 50 токенов

Производительность: чего реально ожидать

Цифры на 2026 год (актуальные тесты):

Raspberry Pi 5 (8GB) с Phi-3-mini 4-bit: 4-7 токенов/сек для генерации, 15-20 токенов/сек для processing
MacBook Air M4 (8GB) с Qwen2.5-Coder-7B 4-bit: 18-25 токенов/сек
MacBook Air M4 (16GB) с Llama-3.2-7B 4-bit: 22-30 токенов/сек

Это не Cloud GPU с их сотнями токенов в секунду. Но для локального помощника, который отвечает за 10-20 секунд на сложный вопрос - более чем достаточно. Особенно если учесть нулевую задержку сети и полную приватность.

Совет из практики: на MacBook Air с 8GB не запускайте одновременно LLM и 30 вкладок в Chrome. Система начнет убивать процессы. Выделите под LLM 5-6GB памяти, остальное оставьте системе. На Pi - тем более, закрывайте все лишнее.

Будущее маленьких моделей (прогноз на 2026-2027)

Тренды, которые я наблюдаю:

Специализация - появятся модели 1B параметров, которые в узкой области (например, Go программирование) будут бить общие модели 7B. Как LFM 2.5 1.2B, но для кода.
Аппаратное ускорение - Raspberry Pi 6 (если выйдет в 2026) получит NPU, что ускорит инференс в 3-5 раз. Apple продолжит улучшать Neural Engine.
Квантование без потерь - методы вроде QuIP# станут стандартом, позволяя сжимать модели 7B до 2GB с минимальной деградацией качества.
RAG-first архитектуры - модели будут проектироваться изначально для работы с внешней памятью, а не пытаться все запомнить в параметрах.

Самый неочевидный совет: не гонитесь за последней версией модели. Qwen2.5-Coder-1.5B 2025 года выпуска на практике часто полезнее, чем общая модель 3B 2026 года. Специализация важнее размера.

И последнее: маленькие LLM - это не игрушки. Это серьезные инструменты, которые требуют серьезного подхода. Не пытайтесь заставить их работать как ChatGPT. Вместо этого найдите их сильные стороны - скорость, приватность, специализация - и используйте именно их.

💡

Если вам нужно работать с большими документами на слабом железе, посмотрите мой гайд про локальный RAG для документов. Там подробно разбираю, как выбирать железо под конкретные задачи.

Маленькие LLM на Raspberry Pi и MacBook Air: как заставить их работать умнее, а не тяжелее