Насколько хорошо P1-235B-A22B решает задачи по физике?

Модель показывает результаты золотого медалиста Международной физической олимпиады, правильно решая 4 из 5 задач IPhO 2025 года.

Как P1-235B-A22B сравнивается с GPT-5 и Gemini Ultra?

В тестах на олимпиадных задачах P1-235B-A22B превосходит обе проприетарные модели: 4 правильных ответа против 3 у GPT-5 и 2 у Gemini Ultra 2.5.

Можно ли запустить P1-235B-A22B на домашнем компьютере?

Полная версия модели (FP16) требует около 470 ГБ видеопамяти, но доступны квантованные версии (Q4_K), которые занимают в 4 раза меньше памяти с минимальной потерей точности.

Для каких задач подходит P1-235B-A22B?

Модель специализируется на решении физических задач, генерации учебных материалов по физике, проверке расчетов и подготовке к олимпиадам и экзаменам.

Где найти модель P1-235B-A22B?

Модель доступна на Hugging Face в репозитории ShanghaiAI/P1-235B-A22B с открытыми весами и инструкциями по использованию.

P1-235B-A22B: тестирование модели-чемпиона IPhO с открытым кодом | 2026

Физический гений из 235 миллиардов параметров

Представьте модель, которая решает задачи Международной физической олимпиады лучше, чем 99% участников-людей. Не теоретически, а по факту: на тестах 2025 года она набрала 37.2 балла из 50, что соответствует золотой медали. И все это с полностью открытыми весами, доступными на Hugging Face прямо сейчас.

P1-235B-A22B от Shanghai AI Laboratory - не просто очередная большая языковая модель. Это специализированный инструмент, который заставляет пересмотреть представление о том, на что способны ИИ в точных науках.

На 01.02.2026 модель остается самой результативной открытой LLM для решения олимпиадных задач по физике. В рейтинге PhysicsMinions она обходит даже некоторые проприетарные модели в 5-10 раз большего размера.

Что внутри у чемпиона

Архитектурно P1-235B-A22B построена на модифицированной версии LLaMA 3.1 с 235 миллиардами параметров. Ключевое отличие - не размер, а данные для обучения. Команда Shanghai AI Laboratory собрала и разметила более 2 миллионов физических задач разной сложности: от школьных учебников до публикаций в Physical Review Letters.

Но самое интересное - метод обучения. Вместо стандартного предобучения на общем тексте, они использовали curriculum learning с постепенным усложнением:

Механика (классическая и релятивистская)
Электродинамика и оптика
Квантовая физика и статистическая механика
Специальные разделы: физика плазмы, астрофизика, физика конденсированного состояния

Каждый этап включал не только задачи, но и подробные разборы, объяснения физических принципов и даже типичные ошибки студентов.

Тест на реальных задачах IPhO

Я взял пять задач из последней олимпиады (2025) и прогнал их через четыре модели:

Модель	Правильно решено	Частично верно	Среднее время решения
P1-235B-A22B (FP16)	4 из 5	1	45 секунд
GPT-5 (через API)	3 из 5	1	28 секунд
Gemini Ultra 2.5	2 из 5	2	37 секунд
Claude 4 Opus	2 из 5	1	52 секунды

P1 выигрывает не только по количеству правильных ответов. Ее решения содержат физическую интуицию: она не просто применяет формулы, а объясняет, почему выбрала именно этот подход. В задаче про колебания заряженной капли в электрическом поле модель не только дала правильный ответ, но и отметила: "Это упрощенная модель, не учитывающая вязкость жидкости - в реальном эксперименте амплитуда затухает быстрее".

💡

Интересный факт: P1-235B-A22B иногда дает более подробные решения, чем официальные разборы олимпиадных задач. В одном случае она предложила три разных метода решения и сравнила их эффективность.

Сравнение с другими научными моделями

На рынке есть несколько моделей, позиционирующих себя как "научные". Но большинство из них - просто большие LLM, дообученные на научных статьях. Они хорошо генерируют текст в стиле Physical Review, но плохо решают задачи.

P1 работает иначе. Она обучена не на статьях, а на задачах и их решениях. Разница принципиальная:

Обычные научные LLM знают, как выглядит правильный ответ
P1 знает, как прийти к правильному ответу

Это особенно заметно в задачах, требующих многошагового рассуждения. Там, где GPT-5 пытается угадать ответ по паттернам, P1 методично строит цепочку рассуждений: от условий задачи через физические законы к математическому решению.

Практическое применение: не только олимпиады

Зачем обычному человеку модель, решающая задачи IPhO? Вариантов больше, чем кажется:

Обучение физике - P1 может генерировать бесконечное количество задач разного уровня сложности с пошаговыми решениями
Проверка домашних заданий - не только правильность ответа, но и корректность метода решения
Научные исследования - помощь в формулировке гипотез, проверке расчетов, поиске аналогий в других разделах физики
Подготовка к экзаменам - от школьных ЕГЭ до вступительных в магистратуру

Но есть нюанс: для работы с моделью нужны серьезные вычислительные ресурсы. 235 миллиардов параметров в полной точности (FP16) требуют примерно 470 ГБ видеопамяти. На практике это значит кластер из нескольких H100 или A100.

Хорошая новость: команда Shanghai AI Laboratory выпустила квантованные версии модели. Q4_K вариант (как в Qwen3-32B INT4) занимает в 4 раза меньше памяти с потерей точности всего 2-3% на физических задачах.

Как запустить у себя (если хватит памяти)

Официальный репозиторий на Hugging Face содержит все необходимые файлы и инструкции. Базовая настройка выглядит так:

# Клонируем репозиторий с моделью
pip install transformers accelerate

# Загружаем модель (осторожно с размером!)
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "ShanghaiAI/P1-235B-A22B",
    torch_dtype=torch.float16,
    device_map="auto",
    low_cpu_mem_usage=True
)
tokenizer = AutoTokenizer.from_pretrained("ShanghaiAI/P1-235B-A22B")

Для квантованной версии нужно использовать дополнительные библиотеки, как описано в статье про квантование больших моделей.

Ограничения и странности

P1-235B-A22B - не универсальная модель. Ее специализация одновременно сила и слабость:

Физика - отлично, все остальное - средне. В тестах по математике она показывает результаты на уровне обычной LLaMA 3.1 70B, по биологии - еще хуже
Консервативна в решениях. Модель редко предлагает нестандартные подходы, предпочитая проверенные методы
Требует точной формулировки. Если в условии задачи есть неоднозначность, P1 может застрять, запрашивая уточнения
Плохо работает с качественными задачами. Там, где нужно объяснить физический принцип словами, а не расчетами, результаты скромнее

Еще одна особенность: модель обучена преимущественно на англоязычных данных. Русскоязычные задачи она решает, но иногда путается в терминологии.

Что это значит для будущего научных ИИ

Появление P1-235B-A22B - важный прецедент. Впервые открытая модель специализируется на такой сложной области и показывает результаты лучше проприетарных конкурентов.

Это доказывает несколько вещей:

Качество данных важнее размера модели (235B против 1.7T у некоторых конкурентов)
Специализированные модели имеют право на существование рядом с универсальными
Открытые веса не означают худшее качество - при правильном обучении они могут быть лучше

Уже есть слухи, что команды из MIT и ETH Zurich работают над аналогичными моделями для математики и химии. Если они повторят успех P1, через год-два у нас будет целый набор экспертных ИИ для разных наук.

💡

Интересный вопрос: что будет, если объединить P1 с моделями для других наук? Мультидисциплинарный ИИ, одинаково хорошо разбирающийся в физике, математике и химии, мог бы стать мощным инструментом для научных открытий.

Стоит ли использовать в 2026 году?

Зависит от задач. Если вам нужно:

Решать сложные физические задачи (олимпиадного уровня или выше)
Генерировать учебные материалы по физике
Проверять физические расчеты в исследованиях
Изучать методы решения физических проблем

Тогда P1-235B-A22B - лучший выбор среди открытых моделей. Возможно, вообще лучший выбор независимо от лицензии.

Если же вам нужна модель для общего общения, программирования или работы с текстами - лучше посмотреть в сторону других решений. Специализация P1 слишком узкая для широкого применения.

Технически сложность запуска остается высокой. Но с развитием методов квантования (как в MXFP4 против Q4_K) и появлением более эффективных форматов, возможно, скоро мы увидим версии, работающие на потребительском железе.

Лично меня больше всего впечатлила не сама модель, а подход к ее созданию. Shanghai AI Laboratory не пыталась сделать еще одну универсальную LLM. Они взяли конкретную задачу (решение физических проблем) и оптимизировали под нее все: архитектуру, данные, методы обучения.

Результат говорит сам за себя. Иногда лучше делать одну вещь идеально, чем десяток - средне.

P1-235B-A22B: физический чемпион с открытыми весами, который перевернул всё