Когда другие модели сдаются: 12 часов ада с документацией Flutter
Передо мной стояла задача, от которой бы сбежал любой нормальный разработчик: конвертировать всю официальную документацию Flutter из одного формата в другой. Не просто пару страниц. Всю. Полностью. Все руководства, API reference, туториалы — тысячи файлов, сотни тысяч строк кода, миллионы слов.
Зачем? Потому что клиенту нужно было мигрировать свою внутреннюю базу знаний, и делать это вручную означало потратить месяцы. Автоматизировать — единственный вариант. Но какой AI справится с таким объемом, сохраняя контекст и не ломая структуру?
Справка для тех, кто не в теме: Qwen3 Coder Next 8FP — это 8-битная версия кодирующей модели от Alibaba с контекстом 64K токенов. Вышла в начале 2026 года и позиционируется как решение для длинных задач с кодом.
Первый раунд: почему другие модели провалились
Начну с провалов. Потому что именно они показывают, насколько задача была сложной.
X GPT OSS 120B: память как решето
Первой пробовал GPT OSS 120B — модель с репутацией "умной и стабильной". Запустил на кластере с 4×A100, настроил pipeline для обработки документации...
И получил катастрофу. Модель теряла контекст после 20-30 файлов. Начинала путать структуры, смешивать стили, забывать правила конвертации. Через 3 часа работы она генерировала такой бред, что пришлось останавливать все.
Проблема? Несмотря на заявленные 32K токенов, модель реально держала в голове максимум 8-10K. Все, что дальше — уходило в черную дыру.
X GLM 4.7: медленно и неправильно
GLM 4.7 — китайская модель, которая в последнее время набирала популярность. На тестах показывала хорошие результаты с кодом.
На практике? Обрабатывала 5-7 файлов в час. Медленно. Мучительно медленно. Каждый файл требовал перезагрузки контекста, потому что модель не умела работать с длинными сессиями.
И самое главное — она постоянно пыталась "улучшить" документацию. Добавляла свои комментарии, меняла структуру, "исправляла" то, что не требовало исправлений. После дня работы пришлось выкинуть 40% результатов.
X IQuest-Coder-V1-40B: цифровая пыль
Про IQuest-Coder-V1-40B-Instruct я уже писал отдельно. Но кратко: 40 миллиардов параметров превратились в цифровую пыль при первой же серьезной нагрузке.
Модель не просто медленно работала. Она генерировала синтаксически неверный код, ломала форматирование, игнорировала инструкции. Через 2 часа я понял — это не инструмент, это головная боль.
Qwen3 Coder Next 8FP: настройка перед боем
После трех провалов настроился на четвертый. Qwen3 Coder Next 8FP — последняя надежда. Если и она не справится, задача уходит в ручной режим.
1 Железо: 102GB памяти не для красоты
Модель требовала 102GB VRAM в 8-битном формате. Звучит как перебор? На самом деле — необходимость.
Разложу по полочкам:
- 64K контекст — это не просто число. Каждый токен требует памяти для attention механизмов. Больше контекст = экспоненциально больше памяти.
- 8-битная точность (FP8) — компромисс. Теряем немного в точности, но выигрываем в скорости и памяти. Для задачи конвертации документации — идеально.
- Пакетная обработка — модель могла обрабатывать несколько файлов параллельно, но только при достаточном запасе памяти.
Использовал сервер с 8×H100. Да, дорого. Но дешевле, чем 3 разработчика на 2 месяца.
2 Подготовка данных: как кормить модель
Ошибка, которую делают все: скидывают модельке кучу файлов и говорят "конвертируй". Не работает.
Вот как нужно:
# ПРАВИЛЬНО: структурированный вход
input_structure = {
"project_context": "Конвертация документации Flutter в новый формат",
"rules": [
"Сохранять все code blocks без изменений",
"Заменять Markdown заголовки на новый синтаксис",
"Конвертировать таблицы в структурированный JSON",
"Не менять ссылки и анкоры"
],
"current_file": "...содержимое файла...",
"previous_files_context": "...контекст из 5 предыдущих файлов..."
}
Ключевой момент: previous_files_context. Модель получала не только текущий файл, но и выжимку из предыдущих. Это поддерживало консистентность стиля.
3 Промпт-инжиниринг: не просто инструкция
Промпт для такой задачи — это не одна строчка. Это многоуровневая система:
| Уровень | Содержание | Цель |
|---|---|---|
| Система | Роль, ограничения, общие правила | Задать рамки поведения |
| Контекст задачи | Цель проекта, структура документации | Дать общее понимание |
| Правила конвертации | Конкретные трансформации для каждого элемента | Обеспечить консистентность |
| Примеры | 3-5 примеров правильной конвертации | Показать ожидаемый результат |
Если интересны детали промпт-инжиниринга для кодеров — посмотрите мою статью про Qwen Coder Next как модель-агент.
12 часов марафона: что происходило на самом деле
Запустил в 9 утра. Ожидал, что через 2-3 часа понадобится вмешательство. Ошибся.
✓ Первые 4 часа: идеальный ритм
Модель обрабатывала 15-20 файлов в час. Качество — 95%+ соответствие требованиям. Отклонения были минимальными: иногда неправильно определяла уровень вложенности списков, иногда пропускала редкие элементы форматирования.
Но главное — контекст держался. Модель помнила правила, установленные в начале. Помнила структуру проекта. Не теряла нить.
Техническая деталь: Qwen3 Coder Next использует улучшенный механизм attention с кэшированием ключей-значений для длинных контекстов. На практике это значит, что обработка 50-го файла не занимает в 50 раз больше времени, чем первого.
✓ Часы 5-8: проверка на прочность
Здесь обычно ломаются другие модели. Контекст переполняется, внимание рассеивается, качество падает.
Qwen3 Coder Next? Продолжала работать. Скорость немного упала (12-15 файлов в час), но качество осталось на том же уровне.
Обнаружил интересную вещь: модель начала "предугадывать" структуру похожих файлов. Видела заголовок "API Reference: Widgets" и уже знала, как обрабатывать этот тип документации. Не потому что запомнила конкретный файл, а потому что выучила паттерны.
✓ Часы 9-12: финишная прямая
К 9-му часу обработал 80% документации. Остались самые сложные части: interactive examples, сложные таблицы с вложенными структурами, документация с динамическим контентом.
И вот здесь 8-битная точность дала о себе знать. В нескольких местах модель "округлила" сложные структуры, упростив их. Пришлось вручную поправить 5-6 файлов из 300+.
Но в целом — работа сделана. За 12 часов. Автоматически.
Цифры, которые имеют значение
Давайте без воды, только факты:
| Метрика | Qwen3 Coder Next 8FP | GPT OSS 120B | GLM 4.7 |
|---|---|---|---|
| Обработано файлов | 347 | 42 (до сбоя) | 56 |
| Общее время | 12 часов | 3 часа (сбой) | 24+ часов (не завершено) |
| Качество (человеческая оценка) | 94% | 68% | 72% |
| Консистентность стиля | Высокая | Низкая | Средняя |
| Пиковое использование памяти | 98GB | 280GB | 145GB |
Ошибки, которые почти совершил (и вы можете совершить)
Ошибка 1: Не проверить квантование заранее. Если берете квантованную версию — тестируйте на сложных примерах до основного запуска. Про проблемы с квантованием Qwen3 Coder Next я уже писал — не повторяйте.
Ошибка 2: Довериться модели полностью. Даже с 94% качества нужна человеческая проверка. Поставил автоматический валидатор, который проверял каждый 10-й файл. Нашел 3 критических ошибки, которые могли бы испортить всю работу.
Ошибка 3: Игнорировать температуру. Для такой задачи temperature=0.1 максимум. Выше — начинается "творчество", которое ломает консистентность. Модель пытается улучшить, а должна просто конвертировать.
Кому действительно нужен Qwen3 Coder Next 8FP
Не всем. Серьезно.
Если ваша задача:
- Написать одну функцию — берите что угодно. Claude 3.5, GPT-4, даже бесплатные модели справятся.
- Рефакторить небольшой модуль — тоже не нужен такой монстр.
- Генерировать документацию на 2-3 страницы — overkill.
Но если:
- Конвертируете всю кодобазу (миграция фреймворка, смена архитектуры)
- Обрабатываете тысячи файлов документации
- Работаете с проектами, где важен сквозной контекст (например, анализ зависимостей во всей системе)
- Нужно поддерживать единый стиль на протяжении всей работы
Тогда Qwen3 Coder Next 8FP — возможно, единственный вариант, который реально работает.
Что будет дальше? (Спойлер: не только код)
После этого теста начал экспериментировать с другими длинными задачами. Оказалось, что модель справляется не только с кодом.
Попробовал:
- Анализ юридических документов на 200+ страниц — работает, но нужна тонкая настройка
- Конвертация технических спецификаций между форматами — отлично
- Создание консистентной документации для API из разрозненных источников — требует доработки промптов
Интересно, что модель показала себя лучше в задачах с четкими правилами, чем в творческих. Дала ей написать технический блогпост на 5000 слов — получилось скучно, но структурированно. Дала создать креативный контент — провал.
Что это значит? Qwen3 Coder Next — специалист. Не универсальный солдат. И это хорошо. Потому что универсальные солдаты обычно плохо стреляют.
Финальный вердикт: стоит ли игра свеч?
Qwen3 Coder Next 8FP — инструмент для профессионалов с конкретными задачами. Не для хобби. Не для экспериментов. Для работы.
Плюсы:
- Реально работает с 64K контекстом (не маркетинг)
- Сохраняет качество на длинных сессиях
- Эффективно использует память в 8-битном формате
- Понимает сложные технические задачи
Минусы:
- Требует серьезного железа (102GB — не шутка)
- Дорого в эксплуатации
- Сложная настройка
- Не прощает ошибок в промптах
Мой итог: если у вас есть задача, которая требует обработки тысяч строк кода или документации с сохранением контекста — других вариантов нет. Все остальные модели либо сломаются, либо сделают плохо, либо будут работать вечность.
Но начинайте с малого. Не бросайте модель на 12-часовой марафон сразу. Дайте ей 10 файлов. Потом 50. Потом 100. И только когда убедитесь, что она держит удар — запускайте полную обработку.
Потому что даже самый надежный инструмент ломается, если не знать, как с ним работать.