Зачем вообще это нужно? (Спойлер: не только для порно)
Когда я вижу запрос "uncensored LLM", первая мысль - ну вот, опять кто-то хочет похабные стихи генерировать. Но реальность сложнее. Uncensored - это не про порнографию. Это про возможность спросить у ИИ что угодно без фильтров корпоративной этики. Хочешь обсудить политические теории заговора? Пожалуйста. Нужен код для взлома собственного роутера? Вот тебе. Хочешь честный ответ про недостатки капитализма? Получи.
Важный момент: uncensored модели могут генерировать опасный контент. Я не несу ответственности за то, что вы с ними сделаете. Это инструмент, а не игрушка.
Железная реальность: что у нас есть в 2026
iPhone 12 с A14 Bionic - старичок, но боевой. 6 ГБ ОЗУ, нейроядро 16-го поколения. Android-планшет Lenovo Idea Tab Pro с Dimensity 8300 - свежий, с NPU, который в теории должен рвать A14 в клочья. Но теория и практика - разные вселенные.
| Параметр | iPhone 12 | Lenovo Idea Tab Pro |
|---|---|---|
| Процессор | A14 Bionic | Dimensity 8300 |
| ОЗУ | 6 ГБ | 8 ГБ |
| NPU | 16-ядерный Neural Engine | APU 790 (специализированный) |
| Доступная память для модели | ~4 ГБ | ~6 ГБ |
Цифры врут. iPhone с его унифицированной памятью использует ОЗУ эффективнее. Android с раздельной архитектурой теряет на копировании данных между CPU и NPU. В итоге оба устройства упираются в примерно одинаковый лимит - модель размером 4-5 ГБ в формате GGUF.
Кандидаты: кто претендует на место в вашем кармане
Я тестировал дюжину моделей. Выжили пять. Остальные либо тормозили до неприличия, либо выдавали бред вместо ответов.
1. Dolphin 3.2 Mistral Nemo 12B - интеллектуал с характером
12 миллиардов параметров, квантование Q4_K_M. Размер: 6.8 ГБ. Слишком много для iPhone 12, на грани для Android-планшета. Но если уж влезет - это лучшая uncensored модель на рынке. Понимает контекст, помнит историю, не тупит на сложных запросах.
2. Nous Hermes 3 8B - золотая середина
8 миллиардов, Q4_K_S, размер 4.7 ГБ. Идеально для обоих устройств. Быстрее Dolphin, почти так же умна. Особенность: отлично справляется с инструкциями. Скажешь "напиши email в стиле passive-aggressive" - получишь шедевр пассивной агрессии.
3. OpenHermes 2.5 Neural 7B - оптимизированный вариант
7B, Q4_K_M, 4.2 ГБ. Создана специально для мобильных устройств. Использует архитектурные трюки для ускорения inference. На iPhone 12 дает 12 токенов в секунду - вполне комфортно для чата.
4. Gemma 3 2B Instruct - маленький, но дерзкий
Всего 2 миллиарда параметров, но качество поражает. Размер: 1.4 ГБ в Q8. Летит на обоих устройствах (25+ токенов/сек). Не ждите от нее глубоких рассуждений, но для быстрых ответов и простых задач - идеально. Кстати, у нас есть отдельный обзор Gemma 3, где разобрали все ее возможности.
5. Liquid AI LFM2.5-1.2B-Thinking - специалист по reasoning
Всего 1.2B, но с архитектурой, заточенной под логические цепочки. Если нужно не просто ответить, а объяснить ход мыслей - это ваш выбор. Размер 800 МБ, скорость зашкаливает. Подробнее в нашем гайде по Liquid AI.
Тесты скорости: холодные цифры вместо маркетинга
Я замерил время генерации 100 токенов на каждом устройстве. Условия: температура 0.7, повторение penalty 1.1, системный промпт отключен.
| Модель | iPhone 12 (токенов/сек) | Android планшет (токенов/сек) | Качество ответов |
|---|---|---|---|
| Dolphin 3.2 12B | 3.2 | 4.1 | Отличное |
| Nous Hermes 3 8B | 8.7 | 11.3 | Очень хорошее |
| OpenHermes 2.5 7B | 12.1 | 15.8 | Хорошее |
| Gemma 3 2B | 25.4 | 28.9 | Удовлетворительное |
| Liquid AI 1.2B | 31.7 | 35.2 | Специализированное |
Android с Dimensity 8300 впереди на 20-30%. Но вот загвоздка: эта разница заметна только в синтетических тестах. В реальном чате, когда вы ждете ответа 5 секунд вместо 6, разница стирается.
Как запустить: пошагово без магии
1 Выбор клиента
Для iPhone 12: Lekh AI (платное, но работает идеально) или MLX Chat (экспериментальный, бесплатный). Для Android: MLC Chat (бесплатный, с поддержкой NPU через Vulkan) или LM Studio Mobile (удобнее, но требует настройки).
MLC Chat использует Vulkan для доступа к NPU - это важно для Dimensity 8300. Без Vulkan вы получите только CPU inference, что в 3-4 раза медленнее. Подробнее в нашем обзоре клиентов с NPU.
2 Скачивание модели
Идем на Hugging Face. Ищем модель в формате GGUF. Ключевые слова: "Q4_K_M", "Q4_K_S" - это оптимальные квантования для 8 ГБ ОЗУ. Q8 дает лучшее качество, но занимает в 2 раза больше места.
3 Настройка контекста
Самая частая ошибка: оставить контекст 4096 токенов. На 8 ГБ ОЗУ это съедает всю память. Ставьте 2048. Да, модель будет помнить меньше, но хотя бы не упадет через 10 минут диалога.
Подводные камни, о которых молчат гайды
- Нагрев. iPhone 12 после 15 минут генерации превращается в грелку. Android-планшет держит температуру лучше, но тоже греется. Решение: снижаем количество потоков с 8 до 4.
- Разрядка батареи. Генерация 1000 токенов съедает 3-5% заряда. Не используйте локальный ИИ без зарядки рядом.
- Сваппинг. Когда ОЗУ заканчивается, система начинает сбрасывать данные на диск. Скорость падает в 100 раз. Следите за использованием памяти в реальном времени.
- Фоновые процессы. Закройте все приложения перед запуском LLM. Особенно браузер с 20 вкладками.
Мой вердикт: что выбрать в 2026
Для iPhone 12: OpenHermes 2.5 Neural 7B в Q4_K_M. Быстро, умно, влезает в память с запасом. Dolphin 12B - слишком жирная, будет тормозить и перегреваться.
Для Android-планшета с Dimensity 8300: Nous Hermes 3 8B в Q4_K_S. NPU через Vulkan разгоняет ее до комфортных 11 токенов/сек, качество ответов на уровне desktop-моделей.
Если нужна максимальная скорость и не критично качество: Gemma 3 2B. Летит как ракета, отвечает адекватно на простые вопросы. Для сложных reasoning-задач - Liquid AI 1.2B.
Не верьте маркетингу про "полноценный ChatGPT на телефоне". Даже лучшие uncensored модели на 8 ГБ ОЗУ - это умный, но ограниченный помощник. Они не заменят GPT-5, но дадут свободу, которой нет в цензурированных облачных сервисах.
Что будет дальше? (Спойлер: все станет лучше)
К концу 2026 жду появления 3B моделей с качеством сегодняшних 7B. Архитектуры типа Mamba и Griffin обещают линейную сложность вместо квадратичной. Это значит: в 2 раза больше контекст при той же памяти.
NPU в новых процессорах (Snapdragon 8 Gen 5, Dimensity 9400) получат прямую поддержку трансформеров. Не через Vulkan, а нативно. Скорость вырастет в 3-5 раз. Пока что с этим есть проблемы - читайте наш разбор проблем Snapdragon 8 Gen 5.
А пока - выбирайте модель по потребностям, настраивайте контекст и не ждите чудес. Локальный ИИ на телефоне в 2026 - это как первый iPhone в 2007: примитивно, медленно, но уже меняет правила игры.