Self-hosted AI: гениальная экономия или финансовое безумие?
Ты сидишь в Telegram-чате разработчиков. Кто-то хвастается, что запустил DeepSeek-Coder-V3 на своей RTX 4090 и теперь не платит за Copilot. Другой жалуется, что потратил 300 000 рублей на сервер, а код генерирует медленнее, чем он печатает. Где правда?
Я провел три месяца, тестируя локальные модели на разном железе. От MacBook M3 до сервера с четырьмя A100. И вот что выяснилось.
Контекст 18.03.2026: GitHub Copilot стоит $10 в месяц. Claude Code — $120. OpenAI Codex API — $0.06 за 1K токенов. Локальная модель требует одноразовых вложений в железо от 100 000 до 1 500 000 рублей. Окупится ли это?
Облачные ассистенты: удобство за деньги, которые ты не замечаешь
Copilot стал таким же привычным, как кофе по утрам. $10 в месяц? Мелочь. Но через год это $120. Через пять — $600. И это только один инструмент.
Claude Code за $120 в месяц — это уже серьезно. Для фрилансера из России это 10-15% месячного дохода. Для компании с 20 разработчиками — $28 800 в год.
И вот здесь появляется мысль: "А что если купить железо раз и навсегда?"
| Сервис | Стоимость (месяц) | Контекст (токенов) | Скорость | Приватность |
|---|---|---|---|---|
| GitHub Copilot | $10 | 8K | Мгновенно | Нет (код уходит в Microsoft) |
| Claude Code | $120 | 512K | 1-3 секунды | Частично (Anthropic обещает не использовать данные) |
| OpenAI Codex API | $0.06/1K токенов | 128K | 2-5 секунд | Нет (данные используются для улучшения моделей) |
Локальный AI: железо, которое кусается
Представь, что покупаешь Ferrari, чтобы ездить за хлебом. Self-hosted AI ощущается именно так. Ты платишь за потенциал, который используешь на 10%.
Но есть и плюсы. Твой код никуда не уходит. Ты можешь тренировать модели под свои проекты. И через два года ты все еще не платишь ежемесячную дань.
Бюджетные варианты: от MacBook до игровой видеокарты
- MacBook M3 Pro (36GB RAM): 2 000 000 рублей. Запускает модели до 20B параметров в 4-битной квантовании. Скорость: 10-15 токенов в секунду.
- ПК с RTX 4090 (24GB VRAM): 300 000 рублей. Тянет модели до 70B в 4-битном виде. Скорость: 20-30 токенов/сек.
- Сервер с 2x RTX 6000 Ada (48GB каждая): 1 500 000 рублей. Модели до 180B параметров. Скорость: 50+ токенов/сек.
А теперь посчитай. RTX 4090 за 300к рублей. Copilot за $10 в месяц. Окупаемость: 300 000 / (10 * 100) = 300 месяцев. 25 лет. Да, курс доллара и инфляция, но все равно.
Модели 2026: что работает, а что нет
В теории, локальные модели должны быть хуже облачных. На практике разрыв сократился. Но не исчез.
| Модель | Размер | Минимальное железо | Качество кода | Скорость (токенов/сек) |
|---|---|---|---|---|
| DeepSeek-Coder-V3-Lite | 16B | RTX 4060 (8GB) | Хорошо для простых задач | 40-50 |
| CodeQwen2.5-Coder-32B | 32B | RTX 4090 (24GB) | Отлично, близко к Copilot | 20-30 |
| Llama 3.2 Coder 70B | 70B | 2x RTX 4090 или A100 | Превосходно, но медленно | 10-15 |
Замечание: качество кода — субъективно. Я тестировал на задачах из LeetCode, реальных проектах и багфиксах. DeepSeek-Coder справляется с простыми шаблонами, но пасует перед сложной логикой. CodeQwen2.5 уже лучше, но требует много памяти.
Внимание: Скорость указана для 4-битного квантования (Q4_K_M). Без квантования модели требуют в 2 раза больше памяти, а скорость ниже. Но качество немного лучше.
Продуктивность: цифры против ощущений
В статье 10 уроков выгорания при работе с AI-кодинговыми агентами я писал, что AI не экономит время, а меняет его структуру. С локальными моделями это еще более явно.
Ты ждешь 5 секунд, пока модель подумает. Потом 10 секунд, пока сгенерирует ответ. Потом понимаешь, что она не поняла задачу. Переформулируешь. Ждешь еще. В облаке ответ приходит за 2 секунды.
Но есть и плюс: когда модель работает локально, ты более вдумчиво формулируешь запросы. Меньше "попробовать еще раз", больше "объяснить точно".
По моим замерам, разница в продуктивности между Copilot и локальной CodeQwen2.5 — около 15-20% в пользу облака. Но это если не считать время на настройку железа и модели.
Кому стоит заморачиваться с self-hosted AI?
- Компании с strict compliance: Если код не может покидать периметр, альтернатив нет.
- Энтузиасты с уже купленным железом: Если у тебя уже есть RTX 4090 для игр, почему бы не использовать ее для AI?
- Разработчики в регионах с дорогим интернетом или без него: Офлайн-работа — это суперсила.
- Те, кто хочет fine-tuning: Локально можно дообучать модели под свой код.
Всем остальным, честно, пока выгоднее облако. Особенно если использовать агрегаторы вроде AITUNNEL, который дает доступ к разным моделям по единому API.
Как попробовать без лишних инвестиций
Не готов выкладывать 300к? Начни с малого.
- Установи Ollama 0.5.2 (он бесплатный).
- Загрузи модель DeepSeek-Coder-V3-Lite:
ollama run deepseek-coder:latest - Поставь расширение для VS Code, например, Continue.dev или Tabby.
- Настрой его на локальный endpoint.
- Попробуй на своих проектах.
Если понравится, но будет не хватать скорости или качества, тогда думай об апгрейде.
Прогноз: что будет через год
Железо дешевеет. Модели становятся эффективнее. Уже сейчас CodeQwen2.5 в 4-битном виде занимает 20GB и работает на RTX 4090. Через год появятся модели такого же качества, но в 2 раза меньше.
Облачные сервисы будут добавлять функции, но и повышать цены. Баланс может сместиться.
Мой совет: если у тебя нет железного зуда, подожди до конца 2026 года. Цены на GPU упадут после выхода новых поколений. Модели станут лучше. А пока используй облако через AITUNNEL или Copilot, и трать время на код, а не на настройку серверов.
P.S. Я все же купил RTX 4090. Но не для AI, а для игр. А AI на ней — просто бонус. Честно.