stream, который не отрезает тебе язык на полуслове.
Не «мама, я цензурный», а «мама, я перевожу»
Мы привыкли, что мощные LLM – это что-то вроде английской королевы: красиво, богато, но если ляпнешь что-то не то – сразу «sorry, I cannot…». И ладно бы только английский, но когда ты хочешь перевести на хинди откровенный диалог из манги или написать на арабском техническую документацию с острыми формулировками – современные модели либо падают в отказ, либо выдают пресную, обезжиренную простыню.
И тут на сцену выходит Tower-Plus-72B-Ultra-Uncensored-Heretic (давай называть её просто Heretic – так проще, и название говорящее). Это дообученная версия Qwen2.5-72B, которую натренировали не только на эталонных переводах, но и на грязных, нефильтрованных текстах. Результат – всего 5 отказов из 100 запросов в бенчмарке (официально). KLD (Kullback-Leibler divergence) при генерации – 0.0516. Техники скажут: «Ага, распределение близко к эталону», а для нас это значит – модель не тупит, не уходит в несвязный бред, когда просишь перевести что-то с интимной лексикой.
22 языка – это много? Смотря с чем сравнивать
В заявке – 22 языка. Среди них полный джентльменский набор: английский, китайский, русский, хинди, арабский, испанский, французский, португальский, немецкий, японский, корейский, итальянский, турецкий, вьетнамский, тайский, индонезийский, польский, румынский, голландский, греческий, чешский, шведский. Да, нет суахили или иврита – но для локализации контента хватает за глаза.
Сравни с Gemma 4, которую я разбирал раньше – та вытягивает японо-английский, но на арабском или хинди начинает «плавать». Heretic показывает стабильное качество даже на редких парах вроде турецкий-вьетнамский. В лобовом тесте перевод сенситивного диалога (табуированная лексика, сленг) модель выдавала связный результат без отказов на всех 22 языках. Gemma 4 в таких же условиях отказалась отвечать на 15% запросов.
⚠️ Предупреждение: Freedom of speech – это круто, но если модель переведёт «взорвать мост» как «blow up the bridge» без контекста – ты можешь получить забаненный API. Хостинг провайдеры типа Hugging Face или Replicate часто детектят «несензурность» и блокируют такие модели.
Суффиксный подход vs Heretic: два мира, два детектива
Недавно я писал про Polyglot-r2 – интересный инструмент, который не требует промпта, а просто суффиксом трансформирует текст. Но там фокус на адаптацию существующего контента, а не на генерацию с нуля. Heretic же – полноценный генеративный зверь. Ты можешь попросить: «Напиши исландскую сагу про рок-звезду, которая занялась некромантией» – и получишь не сухой перевод, а связный текст на выбранном языке с сохранением драматизма и стиля (хотя исландского в списке нет, так что пример на испанском).
Попробуй сделать такой же трюк с Hunyuan-MT-7B – она упадёт в отказ на тему «некорректного контента». Мы сравнивали в обзоре SEO-переводчиков – Hunyuan выдаёт чистый, но стерильный перевод, без эмоций. Heretic, наоборот, позволяет настроить температуру (например, 0.9) и получать «сочные» варианты.
Запуск на 24GB? Шутка? Почти.
72 миллиарда параметров – это прожорливый зверь. Полная версия в FP16 занимает ~144 GB VRAM. Реалистично: 4x A100 80GB или 8x RTX 6000 Ada. Но для домашнего запуска есть квантованные версии: 4-bit GGUF (около 42 GB) или AWQ (39 GB). Они помещаются в 48GB на одну карту (A6000, RTX 8000) или даже в две RTX 3090/4090 по 24GB через разбиение на слои.
| Квант | Размер | VRAM | Производительность |
|---|---|---|---|
| FP16 (оригинал) | 144 GB | ≥ 144 GB | 100% |
| 4-bit GGUF (Q4_K_M) | 42 GB | ~44-46 GB | ~92% качества |
| AWQ 4bit | 39 GB | ~40 GB | ~93% качества |
| 2-bit IQ2_XXS (эксперимент) | 22 GB | ~24 GB | ~75% качества, заметная деградация |
Если у тебя RTX 3060 12GB – забудь. Но для владельцев Mac M2 Ultra с 192GB (см. статью про Mac) полная версия влезет без квантования через llama.cpp, используя unified memory. Там и карты не нужны – CPU+GPU справляются с 144GB на скорости ~15 токенов/с.
Примеры, которые не заскринят на реддите
Возьмём перевод китайских субтитров (из аниме с чернушным юмором) на русский. Для таких задач раньше советовали Qwen 3.5 27B, но Heretic держит планку выше – меньше потерь при передаче инвективной лексики.
Промпт: «Переведи на испанский с сохранением нецензурной брани и сленга: «Лиза, ты чёртова дура, выключи этот шум».
Результат (Heretic): «Lisa, eres una maldita idiota, apaga ese ruido de mierda».
Результат (Gemini 2.5 Pro): «Lisa, por favor, apaga ese ruido. Eres muy imprudente.» (отказ передать «дура»).
Второй сценарий – генерация письма на арабском для коммерческого предложения, включая жёсткую критику конкурентов. Standard LLM начнёт смягчать формулировки – Heretic пишет прямо, как скажешь. Проверено на практике для SEO-продвижения.
Кому это вообще нужно? И кому – нет
Идеальный пользователь – тот, кто профессионально занимается локализацией NSFW-контента (игры, манга, интерактивные романы). Для перевода японских RPG через LunaTranslator можно использовать Heretic, хотя Gemma 4 быстрее на слабом железе. Если тебе нужно просто «перевести письмо на работе» – Google Translate справится дешевле. Heretic – для тех, кто ненавидит, когда модель решает за него, что он может сказать.
Вторая категория – писатели и контент-мейкеры, пишущие на английском, но желающие использовать острые формулировки без боязни AI-модерации. Для писателей на RTX 3060 12GB лучше посмотреть наш обзор лёгких uncensored моделей – Heretic им не потянуть, но идея свободы та же.
⚠️ Нюанс с русским текстом: Русский язык в LLM традиционно дороже и медленнее (см. наше исследование). На Heretic это тоже сказывается – при переводе на русский токенизация примерно на 30% длиннее, чем на английский. Учитывай при подсчёте бюджета токенов.
Прогноз, а не вывод
Такие модели, как Heretic, – это предвестники «эры договорных фильтров». Скоро каждую LLM можно будет купить с профилем цензурирования: «безопасный», «корпоративный», «инженерный», «свободный». И когда это случится, Heretic останется нишевым артефактом – как первый дистрибутив Linux без драйверов. Не потому что плох, а потому что сообщество научится отключать цензуру одним токеном. Но пока это не произошло – качай 4-bit GGUF и наслаждайся тем, как модель матерится на 22 языках. Это, чёрт возьми, весело.