Китайский ответ AlphaFold 3: что такое Protenix-v1
ByteDance, компания за TikTok, выпустила в открытый доступ Protenix-v1 - модель для предсказания биомолекулярных структур. На бумаге она обещает результаты на уровне AlphaFold 3 от DeepMind, но без необходимости покупать подписку или арендовать облачные мощности.
Прямо сейчас, в феврале 2026, это самый актуальный open-source инструмент в этой нише. Разработчики утверждают, что их архитектура EvoFormer-2.0 обходит ограничения предыдущих подходов и работает на обычном железе (ну, почти обычном - все-таки нужна видеокарта с 16+ ГБ VRAM).
Важный нюанс на 13.02.2026: Protenix-v1 использует архитектуру, отличную от AlphaFold 3. Если DeepMind делает ставку на диффузионные модели, то ByteDance пошла путем гибридных трансформеров с вниманием к пространственной геометрии. Это не клон, а альтернативная реализация.
Что умеет Protenix-v1 (и чего не умеет)
Модель предсказывает структуры белков, комплексов белок-лиганд, РНК и ДНК. В отличие от AlphaFold 2, который работал только с белками, здесь сразу мультимодальность. Теоретически можно смоделировать, как лекарство свяжется с мишенью или как сложится рибозим.
Но есть ограничения. Protenix-v1 не умеет в дизайн белков с нуля - для этого нужно смотреть в сторону PLAID от Insilico Medicine. И не ждите предсказания динамики - только статические структуры.
| Функция | Protenix-v1 | AlphaFold 3 |
|---|---|---|
| Белки | ✓ | ✓ |
| РНК/ДНК | ✓ | ✓ |
| Лиганды | ✓ (ограничено) | ✓ |
| Требования к VRAM | 16-24 ГБ | Cloud-only |
| Локальный запуск | Да | Нет |
Железные требования: готовьте видеокарты
Здесь начинается самое интересное. Производители обещают работу на RTX 4090, но реальность жестче. Для белков до 500 аминокислот хватит 16 ГБ VRAM. Для сложных комплексов или длинных последовательностей - минимум 24 ГБ, а лучше 48 ГБ.
Если у вас нет такой карты, вариантов два: арендовать облачный инстанс с A100/H100 или использовать оптимизированные версии через ONNX Runtime с квантованием. Второй путь уменьшает требования до 8-12 ГБ, но теряет в точности.
Внимание: официальный репозиторий требует CUDA 12.4 и PyTorch 2.5. Если у вас старые драйверы, обновите их до актуальных версий на февраль 2026 года.
Пошаговый запуск: от клонирования до предсказания
1Подготовка окружения
Сначала клонируем репозиторий и ставим зависимости. Разработчики используют Poetry для управления пакетами - это плюс для воспроизводимости, но минус для тех, кто привык к pip.
git clone https://github.com/bytedance/protenix-v1.git
cd protenix-v1
poetry install --with cuda12Если Poetry не установлен, придется ставить через pipx или систему пакетов. На Ubuntu:
curl -sSL https://install.python-poetry.org | python3 -
export PATH="$HOME/.local/bin:$PATH"2Загрузка весов и данных
Веса модели весят около 8 ГБ. Есть два варианта: полная версия и квантованная для экономии памяти. Для большинства задач хватит квантованной.
# Полная версия (рекомендуется для исследований)
wget https://storage.bytedance.com/protenix/v1.0/full_weights.pth
# Квантованная версия для ограниченных ресурсов
wget https://storage.bytedance.com/protenix/v1.0/quantized_weights.pthПараллельно качаем базу данных MSA (multiple sequence alignment). Это самая тяжелая часть - около 500 ГБ. Можно ограничиться мини-версией на 50 ГБ для тестирования.
3Конфигурация и первый запуск
Создаем конфигурационный файл. Здесь определяем, какие компоненты модели использовать и как оптимизировать память.
# config.yaml
model:
weights_path: "./quantized_weights.pth"
use_esmfold_msa: true # Использовать предвычисленные MSA
max_sequence_length: 1024
batch_size: 1
data:
msa_database_path: "./msa_db/"
templates_path: "./templates/"
inference:
device: "cuda:0"
mixed_precision: true # FP16 для экономии памяти
num_workers: 4Теперь запускаем предсказание для тестовой последовательности:
poetry run python predict.py \
--sequence "MKTVRQERLKSIVRILERSKEPVSGAQLAEELSVSRQVIVQDIAYLRSLGYNIVATPRGYVLAGG" \
--config config.yaml \
--output ./results/prediction.pdbСравнение с альтернативами: кому что подходит
Protenix-v1 - не единственный игрок. Есть AlphaFold 3 через Google Cloud (дорого), RoseTTAFold (устаревает), и локальные решения вроде OpenFold.
Главное преимущество ByteDance - open-source. Можно модифицировать код, дообучать на своих данных, интегрировать в пайплайны. Для коммерческих исследований это критично.
Если нужен дизайн белков с нуля, смотрите на PLAID. Если задача - анализ геномных данных, возможно, подойдет AlphaGenome.
Для агентских рабочих процессов с ИИ, где нужны маленькие, но умные модели, есть DeepBrainz-R1. Но это совсем другая история.
Типичные ошибки при запуске
Новички часто наступают на одни и те же грабли. Вот топ-3 проблемы:
- Не хватает памяти для MSA. Решение: используйте флаг --use_precomputed_msa и скачайте готовые выравнивания
- CUDA версия не совпадает с PyTorch. Проверьте совместимость: PyTorch 2.5 требует CUDA 12.4
- Медленная загрузка весов. Модель инициализируется 2-3 минуты - это нормально, не прерывайте процесс
Если все совсем плохо, попробуйте Docker-образ из репозитория. Он содержит все зависимости, но весит 20+ ГБ.
Интеграция в научные пайплайны
Protenix-v1 - не изолированный инструмент. Его можно встроить в существующие рабочие процессы биоинформатики.
Пример: автоматическое предсказание структур для скрининга лекарств. Написали простой скрипт, который берет последовательности из базы, запускает Protenix, анализирует результаты PyMol или ChimeraX.
Или вот вариант для фермерских хозяйств: комбинация с AlphaFold для жароустойчивых культур. Предсказываем структуры белков растений, которые могут выдерживать высокие температуры.
Кому подойдет Protenix-v1 (а кому нет)
Идеальная аудитория:
- Академические исследователи с доступом к GPU-кластерам
- Фармкомпании, которые хотят избежать зависимости от Google/DeepMind
- Биоинформатики, которым нужен контроль над кодом
- Студенты, изучающие структурную биологию
Не подойдет:
- Тем, у кого нет видеокарты с 16+ ГБ VRAM
- Кому нужны предсказания в реальном времени (модель работает минуты/часы)
- Кто ищет готовый веб-интерфейс без программирования
- Для задач дизайна белков с нуля
Что дальше: перспективы развития
Сообщество уже форкает репозиторий и добавляет фичи. На февраль 2026 видны тренды:
- Квантование для запуска на потребительских картах (RTX 4070 и ниже)
- Интеграция с облачными платформами (AWS, GCP, Azure)
- Поддержка большего разнообразия лигандов и модификаций
- API-интерфейсы для интеграции в другие инструменты
ByteDance обещает выпустить Protenix-v2 в конце 2026 с поддержкой динамического моделирования. Если это правда, то конкуренция с AlphaFold станет серьезной.
Пока же Protenix-v1 - лучший open-source вариант для предсказания структур. Не идеальный, но работающий. И главное - свой, который можно пощупать, поковырять и заставить делать то, что нужно именно вам.
Как говорится, лучше иметь китайскую модель в руках, чем американскую в облаке. Особенно когда облако стоит $5000 в месяц.