Зачем платить Claude, если можно иметь его рассуждения бесплатно?
Claude 4.6 Opus - это круто. Он пишет код, который почти компилируется. Он думает, как senior-разработчик после пяти чашек кофе. Но он стоит денег. И много. А если вам нужно запускать его каждые пять минут? Бюджет тает быстрее, чем ваша мотивация.
Вот где появляется Devstral-Small-2-24B. Это модель на 24 миллиарда параметров, которую обучили на рассуждениях Claude. Да, именно так - взяли трейсы цепочки мыслей от Claude и fine-tuned'или маленькую модель. Результат? Локальный ассистент, который думает похоже на Claude, но работает на вашем железе. И не просит ни копейки.
На 24.03.2026 эта модель - одна из самых актуальных fine-tuned версий для генерации кода с CoT. Если вы ищете баланс между качеством и размером, она ваш выбор.
1 Что такое Devstral-Small-2-24B и как её мучили трейсами Claude
Devstral-Small-2-24B - это основанная на Llama 3.2 архитектуре модель, которую дообучили на датасете рассуждений Claude. Авторы взяли тысячи примеров, где Claude 4.6 Opus решал задачи по программированию, и заставили маленькую модель повторять его ход мыслей. Chain-of-thought - это не просто модное слово, а реальный метод, который здесь работает.
Fine-tuning сделали с помощью LoRA, так что можно прицепить адаптер к базовой модели. Но для простоты уже есть готовые GGUF-файлы - квантованные версии, которые запускаются даже на MacBook с M3.
Если интересно, как вообще заставить Claude обучать модели за вас, у нас есть отдельная статья про автономный тренинг с Claude.
2 Скачиваем GGUF: не ждите, пока Hugging Face раздумает
Модель живёт на Hugging Face. Но не пытайтесь скачать сырые веса - они займут 50 ГБ. Вместо этого берите GGUF. Вот прямая ссылка на последнюю версию на 24.03.2026:
wget https://huggingface.co/username/devstral-small-2-24B-gguf/resolve/main/devstral-small-2-24b-q4_k_m.gguf
Замените username на актуальное. Или используйте `git lfs`, если любите страдать. Размер файла - около 14 ГБ для квантования q4_K_M. Это нормально для современного SSD.
Внимание: если у вас мало RAM, берите более агрессивное квантование, например q3_K_S. Но качество упадёт. Как всегда, trade-off.
3 Запускаем модель: от терминала до первого кода
У вас есть GGUF. Теперь нужен llama.cpp. Скачайте и соберите последнюю версию - на 24.03.2026 это llama.cpp v4.0.
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j4
Запускаем модель с промптом для кода:
./main -m ../devstral-small-2-24b-q4_k_m.gguf \
-p "Напиши функцию на Python, которая решает задачу о рюкзаке" \
-n 512 --temp 0.7
Если хотите интегрировать модель в Claude Code или другой IDE, читайте наш гайд по подключению локальных LLM. Там всё разжёвано.
Claude vs. Devstral: кто кого в 2026?
Сравним эту модель с альтернативами. Начнём с очевидного - Claude 4.6 Opus. Он больше, умнее, дороже. Devstral-Small-2-24B меньше, но бесплатен. Для повседневных задач по коду - рефакторинг, генерация boilerplate, объяснение - разница не критична. Но если нужны глубокие рассуждения на 10 тысяч токенов, Claude выигрывает.
Другие локальные модели для кода:
| Модель | Размер | Плюсы | Минусы |
|---|---|---|---|
| Devstral-Small-2-24B | 24B | Fine-tuned на рассуждениях Claude, хороший CoT | Только английский? Нет мультиязычности |
| DeepSeek-Coder-V3-28B | 28B | Отличная поддержка кода, много языков | Рассуждения слабее, чем у Claude-like моделей |
| CodeLlama-34B-Python | 34B | Проверенная классика | Уже старая архитектура, нет CoT |
Вывод: Devstral-Small-2-24B выигрывает у других локальных моделей в качестве рассуждений. Но проигрывает в специализации под конкретные языки. Если ваш стек - Python и JavaScript, она подойдёт. Если вам нужен Rust или Go, лучше смотреть другие fine-tuned версии.
Примеры использования: где эта модель блестит, а где тускнеет
Давайте проверим на практике. Попросим написать функцию сортировки с объяснением.
# Запрос: "Напиши функцию быстрой сортировки на Python с комментариями каждого шага"
# Ответ модели (сокращённо):
def quicksort(arr):
"""Sorts an array using the quicksort algorithm."""
if len(arr) <= 1:
return arr
pivot = arr[len(arr) // 2]
left = [x for x in arr if x < pivot]
middle = [x for x in arr if x == pivot]
right = [x for x in arr if x > pivot]
return quicksort(left) + middle + quicksort(right)
# Объяснение модели: "Выбираем опорный элемент, делим массив, рекурсивно сортируем..."
Работает. Но если запросить что-то сложное, например, "напиши CUDA-ядро для матричного умножения с оптимизацией под Turing архитектуру", модель может споткнуться. Для таких задач лучше специализированные модели.
Зато для рефакторинга кода - идеально. Дайте ей кусок спагетти-кода, и она предложит разумные изменения, объясняя, почему так лучше.
Кому подойдёт эта модель? (Спойлер: не всем)
- Разработчикам, которые устали платить за Claude. Особенно если вы запускаете AI-ассистента часто. Локальная модель - это экономия тысяч рублей в месяц.
- Любителям поэкспериментировать с fine-tuning. Берёте базовую модель, добавляете свой датасет - и получаете персонального кодера. Как? Читайте про сборку своей uncensored LLM.
- Командам с строгими требованиями к конфиденциальности. Код не уходит в облако. Всё остаётся на вашем сервере.
А кому не подойдёт? Если вам нужна поддержка 50+ языков программирования или экзотических фреймворков. Или если у вас нет железа с 16+ ГБ RAM. Да, модель требует ресурсов.
И последнее: если вы боитесь, что контекстное окно съест всю память (как иногда бывает с Claude), есть трюки, как избежать OOM.
Devstral-Small-2-24B - это шаг к демократизации AI для разработки. Не идеальный, но работающий. Скачайте, попробуйте, а если не понравится - всегда есть Claude. Но теперь вы знаете альтернативу.