Проблема, о которой все молчат
В 2025 году у каждого второго разработчика на столе стоит RTX 5090, а в облаках летают модели с контекстом в 128K токенов. Но реальность для локальных LLM выглядит иначе. Большинство из нас всё ещё работает с 7B-13B моделями, где 4K контекста — это уже достижение, а 8K — несбыточная мечта.
И вот вы пытаетесь запустить на таком железе Cursor или Aider. Системный промпт съедает половину контекста, история диалога — ещё четверть, а на сам код остаются жалкие крохи. Результат? Модель забывает, что она делает, путает переменные и в итоге предлагает перезагрузить компьютер.
Популярные агенты проектировались для GPT-4 с его бесконечным (почти) контекстом. На локальных моделях они работают как Ferrari на грунтовой дороге — красиво, но бесполезно.
Что такое лёгкий coding-агент в 2026 году?
Это не просто обрезанный промпт. Это специализированный инструмент, который:
- Использует минимальный системный промпт (200-500 токенов вместо 2000+)
- Работает с файлами по одному, а не пытается загрузить весь проект в контекст
- Имеет встроенные стратегии для работы с ограниченной памятью
- Поддерживает только самые необходимые инструменты (читать файл, писать файл, выполнять команду)
- Не хранит длинную историю диалога, а только последние несколько сообщений
Звучит примитивно? Возможно. Но это работает. Особенно когда у вас на руках DeepSeek-Coder-V2-Lite-7B с её 4K контекста или Qwen2.5-Coder-7B-Instruct, которая гениальна в коде, но забывчива как золотая рыбка.
PocketCoder: минимализм как искусство
Если бы у coding-агентов был конкурс на самый аскетичный интерфейс, PocketCoder взял бы все призы. Этот инструмент появился в конце 2025 года как ответ на безумие перегруженных агентов.
| Что умеет | Чего НЕ умеет |
|---|---|
| Читать/писать файлы по одному | Работать с несколькими файлами одновременно |
| Выполнять shell-команды | Создавать сложные многофайловые проекты |
| Анализировать ошибки компиляции | Запоминать длинную историю изменений |
| Работать с контекстом до 2K токенов | Интегрироваться с IDE |
Системный промпт PocketCoder весит всего 312 токенов. Для сравнения: у Cursor он около 1800 токенов, а у Aider — больше 2000. Разница в 6-7 раз — это как сравнивать телегу с грузовиком.
Как это выглядит на практике? Вы говорите: "Добавь валидацию email в этот файл". PocketCoder читает файл, понимает структуру, вносит изменения и сохраняет. Всё. Никаких лишних вопросов, никаких попыток переписать весь проект.
TinyAgent: когда нужно чуть больше, но не слишком
TinyAgent появился в начале 2026 как эволюция идеи. Разработчики поняли: иногда всё-таки нужно работать с несколькими файлами. Но как это сделать в условиях ограниченного контекста?
Решение оказалось гениально простым: TinyAgent работает с файлами по очереди, но сохраняет в памяти "карту проекта" — список файлов и их краткое описание (20-30 токенов на файл). Когда нужно внести изменения, затрагивающие несколько файлов, агент сначала смотрит в карту, выбирает нужные файлы, а потом обрабатывает их по одному.
Это как шахматист, который играет вслепую: он не видит всю доску сразу, но помнит расположение фигур.
Пример рабочего процесса TinyAgent
1Инициализация проекта
TinyAgent сканирует папку проекта и создаёт карту: "main.py — точка входа, 150 строк; utils.py — вспомогательные функции, 80 строк; config.json — настройки". Вся карта занимает 150 токенов.
2Запрос на изменение
Вы просите: "Добавь логирование ошибок в utils.py и импортируй логгер в main.py".
3Планирование
TinyAgent смотрит в карту, понимает, что нужно изменить два файла, и составляет план: сначала utils.py, потом main.py.
4Выполнение
Обрабатывает каждый файл отдельно, но помнит, что уже сделал в предыдущем.
Умно? Да. Совершенно? Нет. Если изменения в первом файле влияют на план работы со вторым, TinyAgent может запутаться. Но для 90% задач этого достаточно.
Сравнительная таблица: кто что может
| Инструмент | Размер промпта | Мин. контекст | Мультифайлы | Лучшая модель |
|---|---|---|---|---|
| PocketCoder | 312 токенов | 2K | Нет | DeepSeek-Coder-V2-Lite-7B |
| TinyAgent | 480 токенов | 3K | Ограниченно | Qwen2.5-Coder-7B-Instruct |
| MicroCoder (самописный) | ~250 токенов | 1.5K | Нет | Phi-3.5-mini-instruct |
| Cursor | ~1800 токенов | 8K+ | Да | Claude-3.5-Sonnet/GPT-4 |
А что насчёт самописных решений?
В 2026 году создать свой лёгкий агент проще, чем кажется. Всё, что нужно — это:
- Минимальный системный промпт ("Ты — помощник по программированию. Читай файлы, вноси изменения, выполняй команды.")
- Простой парсер для работы с файлами
- Интеграция с локальной LLM через Ollama или llama.cpp
- Стратегия очистки контекста (например, удалять всё, кроме последних 3 сообщений)
Самый популярный шаблон в 2026 — MicroCoder Template. Это набор Python-скриптов, который за 15 минут превращается в работающего агента. Код открытый, конфигурация — 3 файла, зависимости — 5 библиотек.
Парадокс: самописный агент часто работает лучше готового. Потому что вы настраиваете его под свои конкретные модели и задачи. Не нужно поддерживать совместимость со 100+ моделями, как у крупных проектов.
Какие модели реально работают с такими агентами?
Не все 7B-модели одинаково полезны. Вот что проверено в бою на 14 февраля 2026:
- DeepSeek-Coder-V2-Lite-7B — королева малого контекста. Понимает инструкции с полуслова, не пытается умничать. Лучше всего работает с PocketCoder.
- Qwen2.5-Coder-7B-Instruct — чуть более разговорчивая, но отлично справляется с многошаговыми задачами в TinyAgent.
- Phi-3.5-mini-instruct (4K версия) — если нужно совсем уж экономно. Контекст 2K, качество кода приемлемое для простых задач.
- CodeLlama-7B-Instruct (квантованная GGUF) — старый, но проверенный вариант. Требует точных инструкций, зато стабилен как швейцарские часы.
А вот модели из нашего обзора по Tool Calling часто оказываются избыточными. Им нужен большой контекст для сложных цепочек инструментов, а у нас его нет.
Кому подойдут лёгкие агенты (а кому — нет)
Берите, если:
- Работаете на ноутбуке с 8-16GB RAM
- Используете 7B-13B модели с контекстом до 4K
- Нужны быстрые правки, а не создание проектов с нуля
- Цените простоту выше функциональности
- Хотите полный контроль над тем, что происходит
Не берите, если:
- У вас RTX 6000 Pro Blackwell 96GB и модели с 32K+ контекстом (тогда смотрите этот обзор)
- Работаете над сложными проектами с десятками файлов
- Нужна интеграция с IDE и дебаггером
- Хотите "волшебную кнопку", которая сделает всё сама
Ошибки, которые все совершают (и как их избежать)
1. Давать слишком расплывчатые инструкции. "Улучши код" — это смерть для агента с малым контекстом. Вместо этого: "Добавь обработку ошибок в функцию parse_data на строках 45-60".
2. Пытаться работать с большими файлами. Если файл больше 500 строк, разбейте задачу. Сначала: "Проанализируй структуру файла X". Потом: "Оптимизируй функцию Y в этом файле".
3. Забывать про очистку контекста. После 5-6 обменов сообщениями начинайте новый сеанс. Или используйте стратегию "скользящего окна" — храните только последние 3 сообщения.
4. Игнорировать выходные данные команд. Когда агент выполняет `python test.py`, смотрите на результат. Если тесты падают, а агент этого не замечает — значит, он уже перегружен.
Что будет дальше?
К концу 2026 я ожидаю две тенденции. Во-первых, появление специализированных "ультралайт" моделей, обученных specifically для работы в условиях ограниченного контекста. Не просто обрезанные версии больших моделей, а архитектуры, спроектированные с нуля для такого сценария.
Во-вторых, слияние идей из суб-агентных архитектур с лёгкими coding-агентами. Представьте: главный агент с контекстом 1K распределяет задачи между микро-агентами, каждый из которых работает с одним файлом. Это могло бы решить проблему мультифайловости без увеличения контекста.
А пока что — выбирайте инструмент по размеру. Не пытайтесь впихнуть невпихуемое. Иногда проще сделать три простых запроса, чем один сложный, который сломает всю систему.
И помните: даже самый тупой агент, который работает, лучше самого умного, который не запускается.