Физический гений из 235 миллиардов параметров
Представьте модель, которая решает задачи Международной физической олимпиады лучше, чем 99% участников-людей. Не теоретически, а по факту: на тестах 2025 года она набрала 37.2 балла из 50, что соответствует золотой медали. И все это с полностью открытыми весами, доступными на Hugging Face прямо сейчас.
P1-235B-A22B от Shanghai AI Laboratory - не просто очередная большая языковая модель. Это специализированный инструмент, который заставляет пересмотреть представление о том, на что способны ИИ в точных науках.
На 01.02.2026 модель остается самой результативной открытой LLM для решения олимпиадных задач по физике. В рейтинге PhysicsMinions она обходит даже некоторые проприетарные модели в 5-10 раз большего размера.
Что внутри у чемпиона
Архитектурно P1-235B-A22B построена на модифицированной версии LLaMA 3.1 с 235 миллиардами параметров. Ключевое отличие - не размер, а данные для обучения. Команда Shanghai AI Laboratory собрала и разметила более 2 миллионов физических задач разной сложности: от школьных учебников до публикаций в Physical Review Letters.
Но самое интересное - метод обучения. Вместо стандартного предобучения на общем тексте, они использовали curriculum learning с постепенным усложнением:
- Механика (классическая и релятивистская)
- Электродинамика и оптика
- Квантовая физика и статистическая механика
- Специальные разделы: физика плазмы, астрофизика, физика конденсированного состояния
Каждый этап включал не только задачи, но и подробные разборы, объяснения физических принципов и даже типичные ошибки студентов.
Тест на реальных задачах IPhO
Я взял пять задач из последней олимпиады (2025) и прогнал их через четыре модели:
| Модель | Правильно решено | Частично верно | Среднее время решения |
|---|---|---|---|
| P1-235B-A22B (FP16) | 4 из 5 | 1 | 45 секунд |
| GPT-5 (через API) | 3 из 5 | 1 | 28 секунд |
| Gemini Ultra 2.5 | 2 из 5 | 2 | 37 секунд |
| Claude 4 Opus | 2 из 5 | 1 | 52 секунды |
P1 выигрывает не только по количеству правильных ответов. Ее решения содержат физическую интуицию: она не просто применяет формулы, а объясняет, почему выбрала именно этот подход. В задаче про колебания заряженной капли в электрическом поле модель не только дала правильный ответ, но и отметила: "Это упрощенная модель, не учитывающая вязкость жидкости - в реальном эксперименте амплитуда затухает быстрее".
Сравнение с другими научными моделями
На рынке есть несколько моделей, позиционирующих себя как "научные". Но большинство из них - просто большие LLM, дообученные на научных статьях. Они хорошо генерируют текст в стиле Physical Review, но плохо решают задачи.
P1 работает иначе. Она обучена не на статьях, а на задачах и их решениях. Разница принципиальная:
- Обычные научные LLM знают, как выглядит правильный ответ
- P1 знает, как прийти к правильному ответу
Это особенно заметно в задачах, требующих многошагового рассуждения. Там, где GPT-5 пытается угадать ответ по паттернам, P1 методично строит цепочку рассуждений: от условий задачи через физические законы к математическому решению.
Практическое применение: не только олимпиады
Зачем обычному человеку модель, решающая задачи IPhO? Вариантов больше, чем кажется:
- Обучение физике - P1 может генерировать бесконечное количество задач разного уровня сложности с пошаговыми решениями
- Проверка домашних заданий - не только правильность ответа, но и корректность метода решения
- Научные исследования - помощь в формулировке гипотез, проверке расчетов, поиске аналогий в других разделах физики
- Подготовка к экзаменам - от школьных ЕГЭ до вступительных в магистратуру
Но есть нюанс: для работы с моделью нужны серьезные вычислительные ресурсы. 235 миллиардов параметров в полной точности (FP16) требуют примерно 470 ГБ видеопамяти. На практике это значит кластер из нескольких H100 или A100.
Хорошая новость: команда Shanghai AI Laboratory выпустила квантованные версии модели. Q4_K вариант (как в Qwen3-32B INT4) занимает в 4 раза меньше памяти с потерей точности всего 2-3% на физических задачах.
Как запустить у себя (если хватит памяти)
Официальный репозиторий на Hugging Face содержит все необходимые файлы и инструкции. Базовая настройка выглядит так:
# Клонируем репозиторий с моделью
pip install transformers accelerate
# Загружаем модель (осторожно с размером!)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"ShanghaiAI/P1-235B-A22B",
torch_dtype=torch.float16,
device_map="auto",
low_cpu_mem_usage=True
)
tokenizer = AutoTokenizer.from_pretrained("ShanghaiAI/P1-235B-A22B")
Для квантованной версии нужно использовать дополнительные библиотеки, как описано в статье про квантование больших моделей.
Ограничения и странности
P1-235B-A22B - не универсальная модель. Ее специализация одновременно сила и слабость:
- Физика - отлично, все остальное - средне. В тестах по математике она показывает результаты на уровне обычной LLaMA 3.1 70B, по биологии - еще хуже
- Консервативна в решениях. Модель редко предлагает нестандартные подходы, предпочитая проверенные методы
- Требует точной формулировки. Если в условии задачи есть неоднозначность, P1 может застрять, запрашивая уточнения
- Плохо работает с качественными задачами. Там, где нужно объяснить физический принцип словами, а не расчетами, результаты скромнее
Еще одна особенность: модель обучена преимущественно на англоязычных данных. Русскоязычные задачи она решает, но иногда путается в терминологии.
Что это значит для будущего научных ИИ
Появление P1-235B-A22B - важный прецедент. Впервые открытая модель специализируется на такой сложной области и показывает результаты лучше проприетарных конкурентов.
Это доказывает несколько вещей:
- Качество данных важнее размера модели (235B против 1.7T у некоторых конкурентов)
- Специализированные модели имеют право на существование рядом с универсальными
- Открытые веса не означают худшее качество - при правильном обучении они могут быть лучше
Уже есть слухи, что команды из MIT и ETH Zurich работают над аналогичными моделями для математики и химии. Если они повторят успех P1, через год-два у нас будет целый набор экспертных ИИ для разных наук.
Стоит ли использовать в 2026 году?
Зависит от задач. Если вам нужно:
- Решать сложные физические задачи (олимпиадного уровня или выше)
- Генерировать учебные материалы по физике
- Проверять физические расчеты в исследованиях
- Изучать методы решения физических проблем
Тогда P1-235B-A22B - лучший выбор среди открытых моделей. Возможно, вообще лучший выбор независимо от лицензии.
Если же вам нужна модель для общего общения, программирования или работы с текстами - лучше посмотреть в сторону других решений. Специализация P1 слишком узкая для широкого применения.
Технически сложность запуска остается высокой. Но с развитием методов квантования (как в MXFP4 против Q4_K) и появлением более эффективных форматов, возможно, скоро мы увидим версии, работающие на потребительском железе.
Лично меня больше всего впечатлила не сама модель, а подход к ее созданию. Shanghai AI Laboratory не пыталась сделать еще одну универсальную LLM. Они взяли конкретную задачу (решение физических проблем) и оптимизировали под нее все: архитектуру, данные, методы обучения.
Результат говорит сам за себя. Иногда лучше делать одну вещь идеально, чем десяток - средне.