Инструменты
Подборка AI-инструментов. Только то, что работает.
Новый сэмплер и верификатор для llama.cpp: делаем из 0.5B монстра кодинга без дообучения
Новый сэмплер top-n-sigma и встроенный верификатор кода в llama.cpp превращают крошечную 0.5B модель в конкурента 2-4B. Как включить и что получится?
Как снять цензуру с Gemma-4-12B без потери интеллекта: обзор метода Opus4.7 и CoT-дообучения
Opus4.7 — ablation + Chain-of-Thought fine-tune для Gemma-4-12B. Как сохранить рассудок модели, убрав фильтры. Готовые квантованные веса, бенчмарки, сравнение с
Gefen — новая замена AdamW: как снизить потребление памяти на 8x при обучении нейросетей (GitHub + инструкция)
Новый оптимизатор Gefen заменяет AdamW и сокращает использование VRAM на 8x. Инструкция по установке из GitHub, пример кода и сравнение с альтернативами.
Как запустить SDXL в браузере с WebGPU: open-source решение для локальной генерации изображений
Полный обзор open-source инструмента для генерации изображений SDXL прямо в браузере через WebGPU. Сравнение с альтернативами, примеры промптов, кому подойдет.
Как получить бесплатный GPT-4 API через реверсинг Windows Copilot
Получите OpenAI-совместимый API из Microsoft Copilot бесплатно. Пошаговая инструкция с кодом, токенами и localhost:8000/v1. Экономьте на API, но будьте осторожн
Sipp: LLM в браузере без серверов — как уместить гигабайты в веб-страницу
Обзор Sipp — open-source библиотеки для in-browser инференса LLM через WebGPU и WebAssembly. Сравнение с MLC WebLLM, примеры и кому подойдёт.
Ускорение fine-tuning MoE-моделей с NVIDIA NeMo AutoModel: 3.7x быстрее и -32% памяти
Экспертный параллелизм, DeepEP и TransformerEngine сокращают время обучения на 73% и экономят треть VRAM. Как работает NeMo AutoModel и кому он нужен.
Nex-N2-Mini-Ultra-Uncensored-Heretic: Модель, которая думает как агент и плюет на запреты
Разбираем Nexus-N2-Mini-Ultra-Uncensored-Heretic — 8B модель без цензуры с agentic thinking, GGUF и safetensors. Сравнение, запуск, KLD метрика и примеры.
Запуск JavaScript из LLM в браузере: новая фича llama.cpp Web UI через Web Workers
Разбираем новую функцию llama.cpp — выполнение JavaScript кода через Web Workers. Как это превращает локальную LLM в автономного веб-агента, риски и кому это ну
Qwen-AgentWorld-35B-A3B: новая модель для агентов и кодинга – обзор бенчмарков
Разбираем свежую MoE-модель от Qwen: 35B параметров, но активны только 3B. Результаты на SWE-bench, MCP, AgentBench и сравнение с DeepSeek.
Baidu Unlimited-OCR: распознавание документов любой длины за один проход — первый обзор
Новая модель Baidu Unlimited-OCR снимает ограничение по длине текста. One forward pass для сотен страниц. Сравнение с Qianfan, Nemotron и GLM-OCR. Примеры и ком
llama.cpp: гранит, эмбеддинги и вулкан — три кита нового релиза
Свежий релиз llama.cpp: локальная речь от IBM, эмбеддинги нового поколения и прокачанный Vulkan. Как это ускоряет работу и кому реально пригодится.