Как скачать модель?

Можно скачать GGUF-файл с Hugging Face с помощью wget или git lfs. Рекомендуется квантование q4_K_M для баланса качества и размера.

Как использовать модель для генерации кода?

Используйте llama.cpp или подобные инструменты для запуска GGUF-файла. Модель можно интегрировать в IDE через соответствующие плагины.

Devstral-Small-2-24B + Claude: fine-tuned модель для кода

Зачем платить Claude, если можно иметь его рассуждения бесплатно?

Claude 4.6 Opus - это круто. Он пишет код, который почти компилируется. Он думает, как senior-разработчик после пяти чашек кофе. Но он стоит денег. И много. А если вам нужно запускать его каждые пять минут? Бюджет тает быстрее, чем ваша мотивация.

Вот где появляется Devstral-Small-2-24B. Это модель на 24 миллиарда параметров, которую обучили на рассуждениях Claude. Да, именно так - взяли трейсы цепочки мыслей от Claude и fine-tuned'или маленькую модель. Результат? Локальный ассистент, который думает похоже на Claude, но работает на вашем железе. И не просит ни копейки.

На 24.03.2026 эта модель - одна из самых актуальных fine-tuned версий для генерации кода с CoT. Если вы ищете баланс между качеством и размером, она ваш выбор.

1 Что такое Devstral-Small-2-24B и как её мучили трейсами Claude

Devstral-Small-2-24B - это основанная на Llama 3.2 архитектуре модель, которую дообучили на датасете рассуждений Claude. Авторы взяли тысячи примеров, где Claude 4.6 Opus решал задачи по программированию, и заставили маленькую модель повторять его ход мыслей. Chain-of-thought - это не просто модное слово, а реальный метод, который здесь работает.

Fine-tuning сделали с помощью LoRA, так что можно прицепить адаптер к базовой модели. Но для простоты уже есть готовые GGUF-файлы - квантованные версии, которые запускаются даже на MacBook с M3.

Если интересно, как вообще заставить Claude обучать модели за вас, у нас есть отдельная статья про автономный тренинг с Claude.

2 Скачиваем GGUF: не ждите, пока Hugging Face раздумает

Модель живёт на Hugging Face. Но не пытайтесь скачать сырые веса - они займут 50 ГБ. Вместо этого берите GGUF. Вот прямая ссылка на последнюю версию на 24.03.2026:

wget https://huggingface.co/username/devstral-small-2-24B-gguf/resolve/main/devstral-small-2-24b-q4_k_m.gguf

Замените username на актуальное. Или используйте `git lfs`, если любите страдать. Размер файла - около 14 ГБ для квантования q4_K_M. Это нормально для современного SSD.

Внимание: если у вас мало RAM, берите более агрессивное квантование, например q3_K_S. Но качество упадёт. Как всегда, trade-off.

3 Запускаем модель: от терминала до первого кода

У вас есть GGUF. Теперь нужен llama.cpp. Скачайте и соберите последнюю версию - на 24.03.2026 это llama.cpp v4.0.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j4

Запускаем модель с промптом для кода:

./main -m ../devstral-small-2-24b-q4_k_m.gguf \
  -p "Напиши функцию на Python, которая решает задачу о рюкзаке" \
  -n 512 --temp 0.7

Если хотите интегрировать модель в Claude Code или другой IDE, читайте наш гайд по подключению локальных LLM. Там всё разжёвано.

Claude vs. Devstral: кто кого в 2026?

Сравним эту модель с альтернативами. Начнём с очевидного - Claude 4.6 Opus. Он больше, умнее, дороже. Devstral-Small-2-24B меньше, но бесплатен. Для повседневных задач по коду - рефакторинг, генерация boilerplate, объяснение - разница не критична. Но если нужны глубокие рассуждения на 10 тысяч токенов, Claude выигрывает.

Другие локальные модели для кода:

Модель	Размер	Плюсы	Минусы
Devstral-Small-2-24B	24B	Fine-tuned на рассуждениях Claude, хороший CoT	Только английский? Нет мультиязычности
DeepSeek-Coder-V3-28B	28B	Отличная поддержка кода, много языков	Рассуждения слабее, чем у Claude-like моделей
CodeLlama-34B-Python	34B	Проверенная классика	Уже старая архитектура, нет CoT

Вывод: Devstral-Small-2-24B выигрывает у других локальных моделей в качестве рассуждений. Но проигрывает в специализации под конкретные языки. Если ваш стек - Python и JavaScript, она подойдёт. Если вам нужен Rust или Go, лучше смотреть другие fine-tuned версии.

Примеры использования: где эта модель блестит, а где тускнеет

Давайте проверим на практике. Попросим написать функцию сортировки с объяснением.

# Запрос: "Напиши функцию быстрой сортировки на Python с комментариями каждого шага"

# Ответ модели (сокращённо):
def quicksort(arr):
    """Sorts an array using the quicksort algorithm."""
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quicksort(left) + middle + quicksort(right)

# Объяснение модели: "Выбираем опорный элемент, делим массив, рекурсивно сортируем..."

Работает. Но если запросить что-то сложное, например, "напиши CUDA-ядро для матричного умножения с оптимизацией под Turing архитектуру", модель может споткнуться. Для таких задач лучше специализированные модели.

Зато для рефакторинга кода - идеально. Дайте ей кусок спагетти-кода, и она предложит разумные изменения, объясняя, почему так лучше.

Кому подойдёт эта модель? (Спойлер: не всем)

Разработчикам, которые устали платить за Claude. Особенно если вы запускаете AI-ассистента часто. Локальная модель - это экономия тысяч рублей в месяц.
Любителям поэкспериментировать с fine-tuning. Берёте базовую модель, добавляете свой датасет - и получаете персонального кодера. Как? Читайте про сборку своей uncensored LLM.
Командам с строгими требованиями к конфиденциальности. Код не уходит в облако. Всё остаётся на вашем сервере.

А кому не подойдёт? Если вам нужна поддержка 50+ языков программирования или экзотических фреймворков. Или если у вас нет железа с 16+ ГБ RAM. Да, модель требует ресурсов.

💡

Неочевидный совет: используйте эту модель для генерации тестов. Она умеет рассуждать о edge cases лучше, чем многие специализированные инструменты. Попросите "напиши unit-тесты для этой функции, учитывая пограничные случаи", и получите готовый набор.

И последнее: если вы боитесь, что контекстное окно съест всю память (как иногда бывает с Claude), есть трюки, как избежать OOM.

Devstral-Small-2-24B - это шаг к демократизации AI для разработки. Не идеальный, но работающий. Скачайте, попробуйте, а если не понравится - всегда есть Claude. Но теперь вы знаете альтернативу.

Подписаться на канал

Devstral-Small-2-24B + рассуждения Claude: как скачать и использовать fine-tuned модель для кода