Коллекция, которую Google не хотел бы видеть

DavidAU на HuggingFace собрал не просто 20 моделей. Он создал арсенал. Каждая версия Gemma 3 прошла через специфический финтюн, снятие ограничений или улучшение reasoning-способностей. Результат? Модели, которые в теории должны быть менее послушными, но на практике — более полезными.

💡

На 18.02.2026 это самая полная коллекция кастомизированных Gemma 3 на HuggingFace. Большинство моделей выпущены в последние 2-3 месяца, что гарантирует совместимость с современными инструментами вроде llama.cpp v0.16.2+ и transformers 4.50+.

Что внутри коллекции? Разбираем по категориям

Просто «разблокированная модель» — это скучно. DavidAU пошел дальше. Его коллекцию можно разделить на три ключевых направления:

Разблокированные/Uncensored: Классика жанра. Модели, у которых ослаблены или полностью удалены safety-фильтры и цензурные ограничения. Не для всех случаев, но иногда именно то, что нужно.
Reasoning-улучшенные: Здесь фокус на математику, логику, кодинг. Модели дообучались на специализированных датасетах вроде AIME, CodeContests, MATH. Если ваша локальная модель должна решать задачи — смотрите сюда.
Специализированные: От чат-ботов в определенном стиле до моделей, заточенных под анализ кода или творческое письмо. Нишево, но эффективно.

Тип модели	Пример названия	Для чего использовать
Uncensored	`Gemma-3-2B-DARE-Uncensored`	Диалоги без фильтров, творческие задачи
Reasoning	`Gemma-3-8B-Reasoning-LoRA`	Решение математических и логических задач
Code	`Gemma-3-1B-Code-Alpaca`	Генерация и объяснение кода
Chat	`Gemma-3-8B-Chat-DPO`	Более естественные и детальные диалоги

Почему это работает? Методология за кулисами

DavidAU не просто случайным образом меняет веса. В основе — проверенные техники 2025-2026 годов:

Unsloth: Библиотека для ускоренного финтюна. Позволяет дообучать модели быстрее и с меньшими требованиями к памяти. Практически стандарт для кастомных LLM в 2026-м.
DARE (Drop And REscale): Метод слияния LoRA-адаптеров. Вместо простого усреднения весов — их выборочное удаление и перемасштабирование. Дает более стабильные и качественные результаты при объединении нескольких адаптеров.
DPO (Direct Preference Optimization): Используется для тонкой настройки моделей на предпочтениях (например, делать ответы более подробными или, наоборот, краткими). Особенно актуально для чат-версий.

Ключевой момент: большинство моделей — это не full fine-tune (слишком ресурсоемко), а LoRA-адаптеры или их слияния. Это значит, что базовые знания Gemma 3 сохранены, но поведение скорректировано. И да, это легально — лицензия Gemma разрешает производные работы.

Важно: «Разблокированная» не значит «абсолютно неконтролируемая». Это спектр. Некоторые модели просто менее разговорчивы на чувствительные темы, другие могут генерировать контент, который оригинальная Gemma 3 заблокировала бы. Всегда тестируйте.

Скачать и запустить: 3 способа начать работу

1Прямо с HuggingFace через transformers

Самый быстрый способ протестировать. Убедитесь, что у вас свежая версия библиотек (на 18.02.2026 актуальны transformers 4.50+ и torch 2.5+).

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "DavidAU/Gemma-3-2B-DARE-Uncensored"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

input_text = "Объясни квантовую запутанность просто: "
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0]))

2Через Ollama (если есть конвертированные версии)

DavidAU не всегда выкладывает GGUF, но сообщество часто конвертирует популярные модели. Проверяйте теги на странице модели. Если нашли GGUF — можно использовать с llama.cpp или через Ollama.

# Примерный запрос для создания модели в Ollama (если модelfайл есть локально)
ollama create my-gemma-uncensored -f ./Modelfile
# Где Modelfile содержит:
# FROM ./gemma-3-2b-uncensored.Q4_0.gguf
# TEMPLATE "{{ .Prompt }}"
# PARAMETER stop "<|im_end|>"

3Локальный запуск с квантованием

Если модель есть только в формате safetensors, но вам нужен GGUF для экономии памяти — конвертируйте сами. В 2026-м llama.cpp отлично справляется с Gemma 3. Процесс похож на квантование оригинальной Gemma, но убедитесь, что используете актуальные скрипты конвертации.

💡

Совет: Если модель большая (8B+), начинайте с квантованных версий Q4_K_M или Q5_K_M. Они предлагают хороший баланс между качеством и размером. Для 1B-2B моделей можно рискнуть с Q8 или даже F16, если память позволяет.

Альтернативы? Их почти нет, и вот почему

Можно пойти и другим путем:

Сделать финтюн самому: Ресурсоемко, требует датасетов и знаний. Но если хотите полного контроля — вариант. Unsloth и Axolotl упрощают процесс.
Искать другие коллекции: На HuggingFace есть и другие авторы (TheBloke, jondurbin, NousResearch). Но у DavidAU именно фокус на разнообразие техник для Gemma 3.
Использовать совсем другие модели: Qwen 3, Llama 3.2, DeepSeek. У каждой свои плюсы, но Gemma 3 славится эффективностью.

Коллекция DavidAU выигрывает за счет специализации. Это не одна модель на все случаи, а набор инструментов. Нужен код-ассистент? Берите Code-версию. Нужна модель для свободного диалога? Uncensored. Это избавляет от необходимости дообучать одну базовую модель под все задачи.

Кому это нужно? Три типа пользователей

Разработчики, которым надоели ограничения. Когда каждая вторая команда к API заканчивается отказом из-за «безопасности», а вам просто нужно протестировать генерацию определенного типа текста.
Исследователи и энтузиасты. Тем, кто хочет сравнить, как меняются способности модели после разных видов финтюна. Коллекция — готовый сравнительный полигон.
Пользователи слабого железа. Особенно для версий 1B-2B. Вместо того чтобы пытаться бороться с тормозами базовой модели, можно взять уже оптимизированную версию, заточенную под конкретную задачу, что часто дает больший прирост, чем общие оптимизации.

Что в итоге? Модели есть, но магия не гарантирована

Коллекция DavidAU — это не волшебная таблетка. Это набор очень специфических инструментов. Uncensored-модель может быть более креативной, но и более склонной к галлюцинациям. Reasoning-версия лучше решает математику, но может проигрывать в общих диалогах.

Главный совет: не скачивайте все 20 моделей разом. Выберите 2-3, которые решают ваши конкретные боли. Протестируйте их на своих данных. Сравните не только с оригинальной Gemma 3, но и между собой.

И помните тренд 2026 года: будущее не за одной универсальной гигантской LLM, а за роем маленьких, отлично заточенных моделей. Коллекция на HuggingFace — шаг именно в этом направлении. Возможно, через год мы будем скачивать не «модель», а целый набор адаптеров, переключаясь между ними в зависимости от задачи одним кликом. Пока же — 20 разных файлов, которые стоит изучить.

20 финтюнов Gemma 3 от DavidAU: взломанные, мощные и почти без цензуры