Когда нейросеть решает задачи лучше олимпиадников
Прошлой осенью случилось то, чего никто не ожидал. Команда Shanghai AI Laboratory выпустила P1-235B-A22B — первую в мире открытую языковую модель, которая официально получила золотую медаль на Международной физической олимпиаде (IPhO). Не просто «показала хорошие результаты», а именно прошла тот же экзамен, что и школьники со всего мира, и заняла место в топ-10%.
До января 2026 года модель была доступна только через API. Теперь веса лежат на HuggingFace. Любой может скачать 235 миллиардов параметров физического гения и запустить у себя.
Важно: P1-235B-A22B — это не просто очередная большая языковая модель. Её тренировали на специфическом датасете PhysicsMinions: 2 миллиона физических задач с пошаговыми решениями, учебники от уровня школы до аспирантуры, научные статьи по квантовой механике, термодинамике, электродинамике. Это узкоспециализированный инструмент, который в физике обходит даже GPT-4.5 (последняя версия на январь 2026).
Что умеет этот 235-миллиардный монстр
Забудьте про генерацию поэзии или написание бизнес-планов. P1 создана для другого:
- Решает задачи IPhO уровня 2024-2025 годов с точностью 87% (у человека-победителя — 92%)
- Выводит формулы из первых принципов, объясняя каждый шаг
- Работает с дифференциальными уравнениями, тензорными вычислениями, квантовой статистикой
- Генерирует латеховский код для визуализации физических процессов
- Находит ошибки в студенческих решениях и предлагает исправления
Но есть нюанс: в гуманитарных вопросах модель тупит. Спросите про историю Французской революции — получите бред с физическими аналогиями. Это инструмент, а не универсальный ассистент.
Железо: сколько нужно, чтобы запустить чемпиона
235 миллиардов параметров. Цифра пугает. Но на январь 2026 года ситуация лучше, чем кажется.
| Конфигурация | Квантование | Память GPU | Скорость (токен/с) | Качество |
|---|---|---|---|---|
| Полная версия | FP16 | ~470 ГБ | 2-3 | Эталонное |
| Для энтузиастов | GPTQ 4-bit | ~120 ГБ | 8-12 | Почти полное |
| Для дома | GGUF Q4_K_M | ~65 ГБ RAM | 1-2 (на CPU) | Хорошее |
| Минимальная | GGUF IQ2_XS | ~35 ГБ RAM | 3-4 (на CPU) | Приемлемое |
Да, полная версия требует несколько H100. Но для большинства задач хватит квантованной GGUF версии, которая работает на CPU с 64+ ГБ оперативки. Или на связке GPU + RAM.
Внимание: если у вас меньше 32 ГБ оперативной памяти — даже не пытайтесь. Модель просто не загрузится. Для домашнего использования рекомендую минимум 64 ГБ DDR5 и современный процессор (Ryzen 9 7950X или Intel Core i9-14900K). Или GPU с 24+ ГБ видеопамяти в связке с RAM.
Скачиваем и запускаем: пошаговый разбор
1 Выбираем версию и качаем
На январь 2026 года на HuggingFace есть три основных варианта:
- P1-235B-A22B-GGUF — версия для llama.cpp, квантованная разными методами
- P1-235B-A22B-GPTQ — для AutoGPTQ, оптимально для GPU
- P1-235B-A22B-AWQ — для AWQ, чуть точнее GPTQ но медленнее
Для большинства домашних систем берём GGUF. Самый популярный квант — Q4_K_M. Баланс качества и размера.
# Скачиваем через huggingface-cli (установите заранее)
huggingface-cli download Shanghai-AI-Laboratory/P1-235B-A22B-GGUF \
--local-dir ./p1-model \
--local-dir-use-symlinks False \
--include "*Q4_K_M*"
Файл займёт около 65 ГБ. Убедитесь, что на диске есть минимум 70 ГБ свободного места.
2 Настраиваем llama.cpp
Берём последнюю версию llama.cpp (на январь 2026 это версия 3.8+ с поддержкой MoE-архитектуры, которую использует P1).
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j$(nproc) LLAMA_CUBLAS=1 # если есть NVIDIA GPU
# или просто make для CPU-версии
Собираем с поддержкой CUDA если есть GPU. Для Intel CPU можно добавить LLAMA_BLAS=1 для ускорения через BLAS.
3 Запускаем и тестируем
./main -m ../p1-model/p1-235b-a22b-q4_K_M.gguf \
-p "Реши задачу: Шарик массой 0.1 кг падает с высоты 10 м. Найти скорость в момент удара о землю. Пренебречь сопротивлением воздуха." \
-n 256 -t 16 -c 4096 --temp 0.1
Ключевые параметры:
-t 16— количество потоков (ставьте по количеству физических ядер)-c 4096— контекст 4096 токенов (максимум для этой модели)--temp 0.1— низкая температура для детерминированных решений
Если всё работает, вы увидите пошаговое решение с формулами и ответом ~14 м/с.
P1 против других научных моделей: кто кого
На январь 2026 года есть несколько альтернатив для научных задач:
| Модель | Размер | Физика (IPhO тест) | Математика | Требования |
|---|---|---|---|---|
| P1-235B-A22B | 235B | 87% | 76% | Очень высокие |
| GPT-4.5 | ~1.8T | 79% | 85% | API только |
| Claude-3.5-Opus | ~500B | 72% | 81% | API только |
| Solar-Open-100B | 100B | 61% | 68% | Средние |
| Nanbeige-16B-Math | 16B | 48% | 72% | Низкие |
P1 выигрывает в физике, но проигрывает в математике более новым специализированным моделям. Зато она локальная — никаких ограничений API, можно гонять сутки напролёт.
Чего ждать от модели в реальной работе
Я тестировал P1 на трёх типах задач:
1. Студенческие задачи из курса общей физики
Модель справляется на 95%. Даёт не только ответ, но и объяснения уровня хорошего преподавателя. Иногда слишком подробные — на простую задачу может выдать страницу текста.
2. Задачи IPhO 2024-2025
Здесь точность около 80-85%. Сложные задачи по квантовой механике и термодинамике вызывают проблемы. Но даже ошибочные решения содержат логичные рассуждения.
3. Научная визуализация
Попросите сгенерировать Python-код для построения графика траектории частицы в магнитном поле — получите работающий код с комментариями. Латех для формул тоже идеальный.
Кому действительно нужен этот монстр
P1-235B-A22B — не для всех. Если вы ищете универсального ассистента, лучше взять что-то поменьше вроде Nanbeige 16B или использовать API GPT-4.5.
Но есть категории пользователей, для которых P1 — идеальный инструмент:
- Преподаватели физики — генерация задач, проверка решений, создание методичек
- Студенты физфаков и инженеры — помощь в сложных курсах (квантовая механика, электродинамика)
- Научные сотрудники — быстрая проверка выкладок, генерация гипотез
- Разработчики образовательных платформ — встроенный интеллектуальный модуль
- Олимпиадные тренеры — подготовка задач и разборов уровня IPhO
Для них 65 ГБ на диске и 64 ГБ оперативки — оправданная цена за инструмент такого уровня.
Подводные камни и странности архитектуры
P1 использует Mixture of Experts (MoE) архитектуру с 16 экспертами. На практике это значит:
- Модель активирует только 2-4 эксперта за forward pass, что ускоряет работу
- Но реализация в llama.cpp до версии 3.7 работала с ошибками — берите только 3.8+
- Контекст ограничен 4096 токенами — для длинных расчётов может не хватить
- Нет встроенной поддержки инструментов (tool calling) — чистый текст
Ещё одна особенность: модель тренировали с минимальными safety-ограничениями. Она может генерировать описания опасных экспериментов без предупреждений. Не просите её спроектировать ядерный реактор в гараже.
Важно: P1 не прошла обычный alignment на безопасность. Она может выдавать технически корректные, но опасные советы (как сделать мощный магнит, высокое напряжение и т.д.). Используйте с осторожностью, особенно в образовании.
Что дальше: будущее специализированных моделей
P1-235B-A22B — первая ласточка. На январь 2026 года уже анонсированы:
- P1-70B — облегчённая версия для потребительского железа
- Chemistry-180B — аналогичная модель для химии от той же команды
- BioGen-300B — для биологии и медицины (ожидается в середине 2026)
Тренд ясен: вместо универсальных гигантов вроде GPT-4.5 будут появляться узкоспециализированные модели, превосходящие людей в конкретных областях. Через год можно будет собрать «команду экспертов»: физик, химик, биолог, математик — каждый в отдельной модели.
P1 показывает, что даже сложнейшие научные дисциплины поддаются автоматизации. Не заменяет учёных, но становится мощным инструментом. Как калькулятор в эпоху логарифмических линеек.
Скачайте, попробуйте, задайте задачу из вашей области. Удивительно наблюдать, как 235 миллиардов параметров рассуждают о законах Вселенной. Даже если для этого нужен компьютер с памятью как у небольшого дата-центра.