Инструменты для работы с AI - AiManual
AiManual Logo Ai / Manual.

Инструменты

Подборка AI-инструментов. Только то, что работает.

Н

Новый сэмплер и верификатор для llama.cpp: делаем из 0.5B монстра кодинга без дообучения

Новый сэмплер top-n-sigma и встроенный верификатор кода в llama.cpp превращают крошечную 0.5B модель в конкурента 2-4B. Как включить и что получится?

Обзор
К

Как снять цензуру с Gemma-4-12B без потери интеллекта: обзор метода Opus4.7 и CoT-дообучения

Opus4.7 — ablation + Chain-of-Thought fine-tune для Gemma-4-12B. Как сохранить рассудок модели, убрав фильтры. Готовые квантованные веса, бенчмарки, сравнение с

Обзор
G

Gefen — новая замена AdamW: как снизить потребление памяти на 8x при обучении нейросетей (GitHub + инструкция)

Новый оптимизатор Gefen заменяет AdamW и сокращает использование VRAM на 8x. Инструкция по установке из GitHub, пример кода и сравнение с альтернативами.

Обзор
К

Как запустить SDXL в браузере с WebGPU: open-source решение для локальной генерации изображений

Полный обзор open-source инструмента для генерации изображений SDXL прямо в браузере через WebGPU. Сравнение с альтернативами, примеры промптов, кому подойдет.

Обзор
К

Как получить бесплатный GPT-4 API через реверсинг Windows Copilot

Получите OpenAI-совместимый API из Microsoft Copilot бесплатно. Пошаговая инструкция с кодом, токенами и localhost:8000/v1. Экономьте на API, но будьте осторожн

Обзор
S

Sipp: LLM в браузере без серверов — как уместить гигабайты в веб-страницу

Обзор Sipp — open-source библиотеки для in-browser инференса LLM через WebGPU и WebAssembly. Сравнение с MLC WebLLM, примеры и кому подойдёт.

Обзор
У

Ускорение fine-tuning MoE-моделей с NVIDIA NeMo AutoModel: 3.7x быстрее и -32% памяти

Экспертный параллелизм, DeepEP и TransformerEngine сокращают время обучения на 73% и экономят треть VRAM. Как работает NeMo AutoModel и кому он нужен.

Обзор
N

Nex-N2-Mini-Ultra-Uncensored-Heretic: Модель, которая думает как агент и плюет на запреты

Разбираем Nexus-N2-Mini-Ultra-Uncensored-Heretic — 8B модель без цензуры с agentic thinking, GGUF и safetensors. Сравнение, запуск, KLD метрика и примеры.

Обзор
З

Запуск JavaScript из LLM в браузере: новая фича llama.cpp Web UI через Web Workers

Разбираем новую функцию llama.cpp — выполнение JavaScript кода через Web Workers. Как это превращает локальную LLM в автономного веб-агента, риски и кому это ну

Обзор
Q

Qwen-AgentWorld-35B-A3B: новая модель для агентов и кодинга – обзор бенчмарков

Разбираем свежую MoE-модель от Qwen: 35B параметров, но активны только 3B. Результаты на SWE-bench, MCP, AgentBench и сравнение с DeepSeek.

Обзор
B

Baidu Unlimited-OCR: распознавание документов любой длины за один проход — первый обзор

Новая модель Baidu Unlimited-OCR снимает ограничение по длине текста. One forward pass для сотен страниц. Сравнение с Qianfan, Nemotron и GLM-OCR. Примеры и ком

Обзор
l

llama.cpp: гранит, эмбеддинги и вулкан — три кита нового релиза

Свежий релиз llama.cpp: локальная речь от IBM, эмбеддинги нового поколения и прокачанный Vulkan. Как это ускоряет работу и кому реально пригодится.

Обзор