Сколько видеопамяти нужно для запуска Heretic?

Оригинальная FP16 версия занимает ~144 GB VRAM. Для домашнего запуска подходят 4-битные квантования (GGUF или AWQ) размером около 40-42 GB, которые помещаются в 48 GB на одной карте (A6000) или разбиваются на две RTX 3090/4090. На Mac M2 Ultra с 192 GB унифицированной памяти можно запустить полную версию через llama.cpp.

Tower-Plus-72B-Ultra-Uncensored-Heretic: обзор мультиязычной модели без цензуры

💡

Дочитай до конца – я покажу, как из 72 гигабайт цензурного мата превратить в литературный stream, который не отрезает тебе язык на полуслове.

Не «мама, я цензурный», а «мама, я перевожу»

Мы привыкли, что мощные LLM – это что-то вроде английской королевы: красиво, богато, но если ляпнешь что-то не то – сразу «sorry, I cannot…». И ладно бы только английский, но когда ты хочешь перевести на хинди откровенный диалог из манги или написать на арабском техническую документацию с острыми формулировками – современные модели либо падают в отказ, либо выдают пресную, обезжиренную простыню.

И тут на сцену выходит Tower-Plus-72B-Ultra-Uncensored-Heretic (давай называть её просто Heretic – так проще, и название говорящее). Это дообученная версия Qwen2.5-72B, которую натренировали не только на эталонных переводах, но и на грязных, нефильтрованных текстах. Результат – всего 5 отказов из 100 запросов в бенчмарке (официально). KLD (Kullback-Leibler divergence) при генерации – 0.0516. Техники скажут: «Ага, распределение близко к эталону», а для нас это значит – модель не тупит, не уходит в несвязный бред, когда просишь перевести что-то с интимной лексикой.

22 языка – это много? Смотря с чем сравнивать

В заявке – 22 языка. Среди них полный джентльменский набор: английский, китайский, русский, хинди, арабский, испанский, французский, португальский, немецкий, японский, корейский, итальянский, турецкий, вьетнамский, тайский, индонезийский, польский, румынский, голландский, греческий, чешский, шведский. Да, нет суахили или иврита – но для локализации контента хватает за глаза.

Сравни с Gemma 4, которую я разбирал раньше – та вытягивает японо-английский, но на арабском или хинди начинает «плавать». Heretic показывает стабильное качество даже на редких парах вроде турецкий-вьетнамский. В лобовом тесте перевод сенситивного диалога (табуированная лексика, сленг) модель выдавала связный результат без отказов на всех 22 языках. Gemma 4 в таких же условиях отказалась отвечать на 15% запросов.

⚠️ Предупреждение: Freedom of speech – это круто, но если модель переведёт «взорвать мост» как «blow up the bridge» без контекста – ты можешь получить забаненный API. Хостинг провайдеры типа Hugging Face или Replicate часто детектят «несензурность» и блокируют такие модели.

Суффиксный подход vs Heretic: два мира, два детектива

Недавно я писал про Polyglot-r2 – интересный инструмент, который не требует промпта, а просто суффиксом трансформирует текст. Но там фокус на адаптацию существующего контента, а не на генерацию с нуля. Heretic же – полноценный генеративный зверь. Ты можешь попросить: «Напиши исландскую сагу про рок-звезду, которая занялась некромантией» – и получишь не сухой перевод, а связный текст на выбранном языке с сохранением драматизма и стиля (хотя исландского в списке нет, так что пример на испанском).

Попробуй сделать такой же трюк с Hunyuan-MT-7B – она упадёт в отказ на тему «некорректного контента». Мы сравнивали в обзоре SEO-переводчиков – Hunyuan выдаёт чистый, но стерильный перевод, без эмоций. Heretic, наоборот, позволяет настроить температуру (например, 0.9) и получать «сочные» варианты.

Запуск на 24GB? Шутка? Почти.

72 миллиарда параметров – это прожорливый зверь. Полная версия в FP16 занимает ~144 GB VRAM. Реалистично: 4x A100 80GB или 8x RTX 6000 Ada. Но для домашнего запуска есть квантованные версии: 4-bit GGUF (около 42 GB) или AWQ (39 GB). Они помещаются в 48GB на одну карту (A6000, RTX 8000) или даже в две RTX 3090/4090 по 24GB через разбиение на слои.

Квант	Размер	VRAM	Производительность
FP16 (оригинал)	144 GB	≥ 144 GB	100%
4-bit GGUF (Q4_K_M)	42 GB	~44-46 GB	~92% качества
AWQ 4bit	39 GB	~40 GB	~93% качества
2-bit IQ2_XXS (эксперимент)	22 GB	~24 GB	~75% качества, заметная деградация

Если у тебя RTX 3060 12GB – забудь. Но для владельцев Mac M2 Ultra с 192GB (см. статью про Mac) полная версия влезет без квантования через llama.cpp, используя unified memory. Там и карты не нужны – CPU+GPU справляются с 144GB на скорости ~15 токенов/с.

Примеры, которые не заскринят на реддите

Возьмём перевод китайских субтитров (из аниме с чернушным юмором) на русский. Для таких задач раньше советовали Qwen 3.5 27B, но Heretic держит планку выше – меньше потерь при передаче инвективной лексики.

Промпт: «Переведи на испанский с сохранением нецензурной брани и сленга: «Лиза, ты чёртова дура, выключи этот шум».

Результат (Heretic): «Lisa, eres una maldita idiota, apaga ese ruido de mierda».

Результат (Gemini 2.5 Pro): «Lisa, por favor, apaga ese ruido. Eres muy imprudente.» (отказ передать «дура»).

Второй сценарий – генерация письма на арабском для коммерческого предложения, включая жёсткую критику конкурентов. Standard LLM начнёт смягчать формулировки – Heretic пишет прямо, как скажешь. Проверено на практике для SEO-продвижения.

Кому это вообще нужно? И кому – нет

Идеальный пользователь – тот, кто профессионально занимается локализацией NSFW-контента (игры, манга, интерактивные романы). Для перевода японских RPG через LunaTranslator можно использовать Heretic, хотя Gemma 4 быстрее на слабом железе. Если тебе нужно просто «перевести письмо на работе» – Google Translate справится дешевле. Heretic – для тех, кто ненавидит, когда модель решает за него, что он может сказать.

Вторая категория – писатели и контент-мейкеры, пишущие на английском, но желающие использовать острые формулировки без боязни AI-модерации. Для писателей на RTX 3060 12GB лучше посмотреть наш обзор лёгких uncensored моделей – Heretic им не потянуть, но идея свободы та же.

⚠️ Нюанс с русским текстом: Русский язык в LLM традиционно дороже и медленнее (см. наше исследование). На Heretic это тоже сказывается – при переводе на русский токенизация примерно на 30% длиннее, чем на английский. Учитывай при подсчёте бюджета токенов.

Прогноз, а не вывод

Такие модели, как Heretic, – это предвестники «эры договорных фильтров». Скоро каждую LLM можно будет купить с профилем цензурирования: «безопасный», «корпоративный», «инженерный», «свободный». И когда это случится, Heretic останется нишевым артефактом – как первый дистрибутив Linux без драйверов. Не потому что плох, а потому что сообщество научится отключать цензуру одним токеном. Но пока это не произошло – качай 4-bit GGUF и наслаждайся тем, как модель матерится на 22 языках. Это, чёрт возьми, весело.

Подписаться на канал

Tower-Plus-72B-Ultra-Uncensored-Heretic: как развязать язык 22 языкам без оглядки на цензуру