Адаптивное параллельное рассуждение ThreadWeaver: AI решает, когда ветвить мысли

Цепочка мыслей сломалась

Все reasoning-модели — от o1 до DeepSeek-R2 — завязаны на одну идею: модель генерирует цепочку мыслей (Chain-of-Thought), шаг за шагом приходя к ответу. Это работает, но бесит своей последовательностью. Пока модель перемалывает один токен за другим, вычислительные ресурсы простаивают. Параллелизма нет. А ведь многие шаги в рассуждении можно делать одновременно.

Проблема inference scaling уже давно не секрет: reasoning-модели сжигают деньги впустую — чем длиннее цепочка, тем выше латентность и затраты. Но что, если модель сама решит, какие шаги можно выполнять параллельно? И не просто решит, а сделает это динамически, подстраиваясь под задачу?

В мае 2026 года группа из BAIR (Berkeley AI Research) опубликовала ThreadWeaver — фреймворк для адаптивного параллельного рассуждения. Результаты: ускорение в 3-5 раз при сохранении точности на уровне последовательного CoT.

Думать в одиночку — прошлый век

ThreadWeaver работает не как жёсткий разделитель на этапы, а как диспетчер. Модель генерирует «план рассуждения» — граф зависимостей между подзадачами. Если какой-то шаг не зависит от результатов предыдущего (например, нужно проверить два независимых факта или перебрать разные гипотезы), ThreadWeaver запускает их параллельно на разных ядрах GPU. Когда все параллельные пути сходятся, модель объединяет результаты.

Звучит логично, но есть нюанс: модель должна научиться предсказывать, какие шаги независимы. В BAIR пошли двумя путями. Первый — fine-tuning на датасетах с размеченным графом рассуждений (SFT). Второй — использование небольшого классификатора поверх эмбеддингов, который предсказывает, можно ли распараллелить следующий токен. Второй подход дал 80% точности предсказания без дополнительного обучения основной модели.

Не советую так делать, если не хотите: запускать ThreadWeaver на задаче, где каждый шаг строго последователен (например, логический вывод из одной цепочки фактов) — вы получите overhead от координации потоков без выигрыша в скорости. Фреймворк сам это понимает и в таких случаях не форсирует параллелизм.

ThreadWeaver против монолитного мышления

Как это выглядит на практике? Возьмём математическую задачу: «В трёх корзинах 120 яблок. В первой в два раза больше, чем во второй, а во второй на 20 меньше, чем в третьей. Сколько яблок в каждой?» Обычная модель сначала выражает переменные, потом записывает уравнения, потом решает систему. ThreadWeaver разбивает: поиск первого уравнения, второго, третьего — но второе и третье можно составлять одновременно, потому что они не зависят друг от друга. Только когда все три готовы, модель решает систему. На практике это даёт выигрыш в 40% времени для таких задач.

В задачах кодирования — ещё интереснее. Генерация нескольких независимых юнит-тестов, написание разных обработчиков ошибок — всё это можно параллелить. ThreadWeaver показал ускорение до 5x при генерации кода на Python в тестах HumanEval.

Кстати, о параллельном мышлении: недавно мы разбирали Multiplex Thinking — метод, где модель одновременно генерирует несколько цепочек рассуждения, а потом выбирает лучшую. ThreadWeaver отличается тем, что не создаёт избыточные ветви, а точно определяет, какие шаги независимы. Это экономит compute.

Не всё так радужно: подводные камни

ThreadWeaver не панацея. Во-первых, модель тратит дополнительные токены на построение графа зависимостей. На коротких задачах (до 3-4 шагов) overhead может перекрыть выигрыш. Во-вторых, параллелизация требует, чтобы у вас было несколько GPU или хотя бы крупный тензорный процессор с поддержкой потоков. На одной видеокарте с 8GB выигрыш будет минимальным.

В-третьих (и это самое интересное) — точность предсказания зависимостей падает на задачах, где есть скрытые связи. Если модель решает, что два шага независимы, а на самом деле один опирается на результат другого, ответ может стать некорректным. BAIR отчитывается о падении точности не более 2% на наборе GSM8K, но для критичных приложений (медицина, финансы) это может быть неприемлемо.

Кстати, о точности reasoning: математика галлюцинаций ИИ показывает, что длинные цепочки мыслей склонны к ошибкам накопления. ThreadWeaver, разбивая задачу на параллельные отрезки, уменьшает длину каждой цепочки — и тем самым снижает риск галлюцинаций. Парадоксально, но параллелизм может сделать выводы точнее.

Что это значит для индустрии?

ThreadWeaver — не первый метод параллельного рассуждения. Но он первый, где модель сама решает, когда ветвить мысли, а не следует жёсткому шаблону. Это важно сразу для нескольких направлений.

Во-первых, дистилляция reasoning-моделей в более компактные архитектуры (как мы обсуждали в статье про Apriel-H1 и Mamba) может выиграть от адаптивного параллелизма — меньше последовательных шагов, меньше требований к памяти.

Во-вторых, метод дублирования слоёв — улучшение LLM без изменения весов — отлично сочетается с ThreadWeaver: параллельные ветви можно обрабатывать разными копиями слоёв, ускоряя инференс ещё сильнее.

Показателен пример Gemma 3 12B: мы уже знаем, что промпт может заставить маленькую модель думать как большую (ссылка). ThreadWeaver добавляет к этому параллелизм — и маленькая модель может решать задачи быстрее, чем большая, но последовательная.

Уже сейчас DeepSeek экспериментирует с адаптивным распараллеливанием в своей next-gen модели (условно DeepSeek-R3). o1 от OpenAI, по слухам, тоже получит подобное обновление в следующем мажорном релизе. Соревнование идёт не за то, чтобы модель думала дольше, а чтобы она думала эффективнее.

💡

Если вы разрабатываете своих reasoning-агентов — присмотритесь к ThreadWeaver. Open-source реализация доступна на GitHub BAIR. Для старта достаточно дообучить маленький классификатор на 1000 примерах размеченных рассуждений. Не ждите, пока ваши конкуренты первыми внедрят параллельное мышление.

Подписаться на канал

Модели учатся думать параллельно: ThreadWeaver заставил AI решать, когда ветвить мысли

Цепочка мыслей сломалась

Думать в одиночку — прошлый век

ThreadWeaver против монолитного мышления

Не всё так радужно: подводные камни

Что это значит для индустрии?

Подписывайтесь на наш канал!