Когда нейросеть решает задачи лучше олимпиадников

Прошлой осенью случилось то, чего никто не ожидал. Команда Shanghai AI Laboratory выпустила P1-235B-A22B — первую в мире открытую языковую модель, которая официально получила золотую медаль на Международной физической олимпиаде (IPhO). Не просто «показала хорошие результаты», а именно прошла тот же экзамен, что и школьники со всего мира, и заняла место в топ-10%.

До января 2026 года модель была доступна только через API. Теперь веса лежат на HuggingFace. Любой может скачать 235 миллиардов параметров физического гения и запустить у себя.

Важно: P1-235B-A22B — это не просто очередная большая языковая модель. Её тренировали на специфическом датасете PhysicsMinions: 2 миллиона физических задач с пошаговыми решениями, учебники от уровня школы до аспирантуры, научные статьи по квантовой механике, термодинамике, электродинамике. Это узкоспециализированный инструмент, который в физике обходит даже GPT-4.5 (последняя версия на январь 2026).

Что умеет этот 235-миллиардный монстр

Забудьте про генерацию поэзии или написание бизнес-планов. P1 создана для другого:

Решает задачи IPhO уровня 2024-2025 годов с точностью 87% (у человека-победителя — 92%)
Выводит формулы из первых принципов, объясняя каждый шаг
Работает с дифференциальными уравнениями, тензорными вычислениями, квантовой статистикой
Генерирует латеховский код для визуализации физических процессов
Находит ошибки в студенческих решениях и предлагает исправления

Но есть нюанс: в гуманитарных вопросах модель тупит. Спросите про историю Французской революции — получите бред с физическими аналогиями. Это инструмент, а не универсальный ассистент.

Железо: сколько нужно, чтобы запустить чемпиона

235 миллиардов параметров. Цифра пугает. Но на январь 2026 года ситуация лучше, чем кажется.

Конфигурация	Квантование	Память GPU	Скорость (токен/с)	Качество
Полная версия	FP16	~470 ГБ	2-3	Эталонное
Для энтузиастов	GPTQ 4-bit	~120 ГБ	8-12	Почти полное
Для дома	GGUF Q4_K_M	~65 ГБ RAM	1-2 (на CPU)	Хорошее
Минимальная	GGUF IQ2_XS	~35 ГБ RAM	3-4 (на CPU)	Приемлемое

Да, полная версия требует несколько H100. Но для большинства задач хватит квантованной GGUF версии, которая работает на CPU с 64+ ГБ оперативки. Или на связке GPU + RAM.

Внимание: если у вас меньше 32 ГБ оперативной памяти — даже не пытайтесь. Модель просто не загрузится. Для домашнего использования рекомендую минимум 64 ГБ DDR5 и современный процессор (Ryzen 9 7950X или Intel Core i9-14900K). Или GPU с 24+ ГБ видеопамяти в связке с RAM.

Скачиваем и запускаем: пошаговый разбор

1 Выбираем версию и качаем

На январь 2026 года на HuggingFace есть три основных варианта:

P1-235B-A22B-GGUF — версия для llama.cpp, квантованная разными методами
P1-235B-A22B-GPTQ — для AutoGPTQ, оптимально для GPU
P1-235B-A22B-AWQ — для AWQ, чуть точнее GPTQ но медленнее

Для большинства домашних систем берём GGUF. Самый популярный квант — Q4_K_M. Баланс качества и размера.

# Скачиваем через huggingface-cli (установите заранее)
huggingface-cli download Shanghai-AI-Laboratory/P1-235B-A22B-GGUF \
--local-dir ./p1-model \
--local-dir-use-symlinks False \
--include "*Q4_K_M*"

Файл займёт около 65 ГБ. Убедитесь, что на диске есть минимум 70 ГБ свободного места.

2 Настраиваем llama.cpp

Берём последнюю версию llama.cpp (на январь 2026 это версия 3.8+ с поддержкой MoE-архитектуры, которую использует P1).

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j$(nproc) LLAMA_CUBLAS=1  # если есть NVIDIA GPU
# или просто make для CPU-версии

Собираем с поддержкой CUDA если есть GPU. Для Intel CPU можно добавить LLAMA_BLAS=1 для ускорения через BLAS.

3 Запускаем и тестируем

./main -m ../p1-model/p1-235b-a22b-q4_K_M.gguf \
-p "Реши задачу: Шарик массой 0.1 кг падает с высоты 10 м. Найти скорость в момент удара о землю. Пренебречь сопротивлением воздуха." \
-n 256 -t 16 -c 4096 --temp 0.1

Ключевые параметры:

-t 16 — количество потоков (ставьте по количеству физических ядер)
-c 4096 — контекст 4096 токенов (максимум для этой модели)
--temp 0.1 — низкая температура для детерминированных решений

Если всё работает, вы увидите пошаговое решение с формулами и ответом ~14 м/с.

P1 против других научных моделей: кто кого

На январь 2026 года есть несколько альтернатив для научных задач:

Модель	Размер	Физика (IPhO тест)	Математика	Требования
P1-235B-A22B	235B	87%	76%	Очень высокие
GPT-4.5	~1.8T	79%	85%	API только
Claude-3.5-Opus	~500B	72%	81%	API только
Solar-Open-100B	100B	61%	68%	Средние
Nanbeige-16B-Math	16B	48%	72%	Низкие

P1 выигрывает в физике, но проигрывает в математике более новым специализированным моделям. Зато она локальная — никаких ограничений API, можно гонять сутки напролёт.

Чего ждать от модели в реальной работе

Я тестировал P1 на трёх типах задач:

1. Студенческие задачи из курса общей физики
Модель справляется на 95%. Даёт не только ответ, но и объяснения уровня хорошего преподавателя. Иногда слишком подробные — на простую задачу может выдать страницу текста.

2. Задачи IPhO 2024-2025
Здесь точность около 80-85%. Сложные задачи по квантовой механике и термодинамике вызывают проблемы. Но даже ошибочные решения содержат логичные рассуждения.

3. Научная визуализация
Попросите сгенерировать Python-код для построения графика траектории частицы в магнитном поле — получите работающий код с комментариями. Латех для формул тоже идеальный.

💡

Совет: P1 отлично работает в связке с другими инструментами. Например, решаете задачу в ComfyUI для генерации изображений физических процессов, а P1 пишет пояснения и формулы. Или используете её как проверяющего для студенческих работ.

Кому действительно нужен этот монстр

P1-235B-A22B — не для всех. Если вы ищете универсального ассистента, лучше взять что-то поменьше вроде Nanbeige 16B или использовать API GPT-4.5.

Но есть категории пользователей, для которых P1 — идеальный инструмент:

Преподаватели физики — генерация задач, проверка решений, создание методичек
Студенты физфаков и инженеры — помощь в сложных курсах (квантовая механика, электродинамика)
Научные сотрудники — быстрая проверка выкладок, генерация гипотез
Разработчики образовательных платформ — встроенный интеллектуальный модуль
Олимпиадные тренеры — подготовка задач и разборов уровня IPhO

Для них 65 ГБ на диске и 64 ГБ оперативки — оправданная цена за инструмент такого уровня.

Подводные камни и странности архитектуры

P1 использует Mixture of Experts (MoE) архитектуру с 16 экспертами. На практике это значит:

Модель активирует только 2-4 эксперта за forward pass, что ускоряет работу
Но реализация в llama.cpp до версии 3.7 работала с ошибками — берите только 3.8+
Контекст ограничен 4096 токенами — для длинных расчётов может не хватить
Нет встроенной поддержки инструментов (tool calling) — чистый текст

Ещё одна особенность: модель тренировали с минимальными safety-ограничениями. Она может генерировать описания опасных экспериментов без предупреждений. Не просите её спроектировать ядерный реактор в гараже.

Важно: P1 не прошла обычный alignment на безопасность. Она может выдавать технически корректные, но опасные советы (как сделать мощный магнит, высокое напряжение и т.д.). Используйте с осторожностью, особенно в образовании.

Что дальше: будущее специализированных моделей

P1-235B-A22B — первая ласточка. На январь 2026 года уже анонсированы:

P1-70B — облегчённая версия для потребительского железа
Chemistry-180B — аналогичная модель для химии от той же команды
BioGen-300B — для биологии и медицины (ожидается в середине 2026)

Тренд ясен: вместо универсальных гигантов вроде GPT-4.5 будут появляться узкоспециализированные модели, превосходящие людей в конкретных областях. Через год можно будет собрать «команду экспертов»: физик, химик, биолог, математик — каждый в отдельной модели.

P1 показывает, что даже сложнейшие научные дисциплины поддаются автоматизации. Не заменяет учёных, но становится мощным инструментом. Как калькулятор в эпоху логарифмических линеек.

Скачайте, попробуйте, задайте задачу из вашей области. Удивительно наблюдать, как 235 миллиардов параметров рассуждают о законах Вселенной. Даже если для этого нужен компьютер с памятью как у небольшого дата-центра.

P1-235B-A22B: физический гений в 235 миллиардах параметров — как запустить олимпийского чемпиона у себя дома