Какие версии моделей использовались в тестах?

ChatGPT 5.2 Pro (последний релиз OpenAI), Gemini 3 Pro (мультимодальная модель Google), Claude 4.5 Opus (флагман Anthropic). Все тесты проведены 09.02.2026.

Почему temperature=0 в тестах?

Temperature=0 дает наиболее детерминированный, воспроизводимый результат. Это тест на надежность, а не на креативность. Если код или решение работает при temperature=0, оно будет работать всегда.

Какая модель лучше всего справилась с логическими задачами?

Claude 4.5 показал лучшие результаты в логических тестах благодаря методичному подходу и способности формализовать задачи. Однако для быстрых, рутинных логических операций ChatGPT 5.2 работает быстрее.

Насколько точны мультимодальные возможности моделей?

Точность варьируется. В тесте на подсчет точек на зашумленном изображении ни одна модель не дала точный ответ. Claude 4.5 был ближе всех и единственный признал проблему с контрастом.

Стоит ли использовать только одну модель для всех задач?

Нет. Рекомендуется создавать стек: ChatGPT для быстрых ответов, Gemini для анализа данных, Claude для сложной логики. Каждая модель имеет свои сильные стороны для разных типов задач.

Стресс-тест ChatGPT 5.2, Gemini 3 и Claude 4.5: логика, креатив и зрение

Забудьте про бенчмарки. Вот как модели ломаются на реальных задачах

2026 год. Каждый месяц выходит новый рейтинг "самой умной модели". Каждая компания показывает графики, где их детище побеждает всех. И все они врут. Или, точнее, показывают то, что хотят показать.

Я устал от этих красивых презентаций. Поэтому взял три последние версии моделей — ChatGPT 5.2 Pro, Gemini 3 Pro и Claude 4.5 Opus — и устроил им адскую полосу препятствий. Не синтетические тесты из лабораторий, а задачи, которые действительно встречаются в работе.

Температура 0. Одна попытка. Никаких "давайте попробуем другой промпт". Либо работает сразу, либо нет.

Важно: все тесты проводились 09.02.2026 с актуальными версиями моделей. ChatGPT 5.2 Pro — последний релиз OpenAI с расширенным контекстом в 256K токенов. Gemini 3 Pro — мультимодальная модель Google с улучшенным пониманием русского. Claude 4.5 Opus — флагман Anthropic с рекордными 200K токенов контекста.

Тест 1: Логическая головоломка, которая ставит в тупик

Я начал с простого на вид задания. Слишком простое для бенчмарков, но идеальное для проверки, понимает ли модель, что она делает, или просто угадывает.

Задача: "У тебя есть 3 ведра: на 8, 5 и 3 литра. Восьмилитровое ведро полное. Как получить ровно 4 литра в восьмилитровом ведре за минимальное количество переливаний?"

Звучит как задача для школьника. Но посмотрите, что происходит с ИИ.

ChatGPT 5.2 Pro: уверенность и ошибка

GPT-5.2 выдает решение за секунду. Уверенно, с нумерацией шагов. Выглядит убедительно. Пока не проверяешь.

⚠️

ChatGPT предложил 7 переливаний. Но если пересчитать — получается не 4, а 3 литра в восьмилитровом ведре. Модель запуталась в собственных вычислениях. Классическая проблема: красивая упаковка, пустое содержимое.

Gemini 3 Pro: перестраховщик

Gemini делает интересное — начинает перечислять ВСЕ возможные комбинации. Генерирует дерево решений. Выглядит академично, но на 15-м шаге теряет нить и предлагает вариант, который требует 9 переливаний вместо минимальных 7.

Плюс: хотя бы честно показывает свои рассуждения. Минус: слишком много шума, мало сигнала.

Claude 4.5 Opus: методичный перфекционист

Claude делает то, что должен был сделать любой логический AI. Он не просто дает ответ. Он:

Сначала формализует задачу
Проверяет, возможен ли ответ 4 литра математически (да, возможен)
Строит таблицу состояний
Находит ДВА оптимальных решения по 7 шагов
Предлагает проверить оба варианта

Это не генерация текста. Это работа инженера.

Тест 2: Креативность под давлением

Логика — это хорошо. Но большинство платят за ИИ именно за креативность. За способность придумать то, что не пришло бы в голову человеку.

Задача: "Придумай концепцию мобильного приложения, которое решит проблему одиночества в больших городах. Но есть ограничение: в приложении нельзя использовать чаты, голосовые звонки или видео. Только текст, но асинхронный."

Специально ставлю искусственные ограничения. Настоящий креатив рождается в рамках.

Модель	Идея	Оценка
ChatGPT 5.2	"Городской дневник" — пользователи оставляют заметки в виртуальных местах города, другие находят и отвечают	Интересно, но похоже на существующие решения
Gemini 3	"Совместные истории" — каждый пишет продолжение общей истории города, видит только предыдущий фрагмент	Оригинально, но слишком абстрактно
Claude 4.5	"Временные капсулы" — пишешь сообщение, оно откроется через случайное время (от 1 часа до 1 недели) случайному человеку в радиусе 1 км	Гениально просто. Решает проблему асинхронности и создает интригу

Claude выигрывает не потому, что его идея "лучше". А потому, что он единственный, кто понял суть ограничения "асинхронный текст". Две другие модели просто скользнули по поверхности.

Тест 3: Зрение — где мультимодальность реально важна

Все три модели заявляют о мультимодальности. Все умеют "видеть" изображения. Но что это значит на практике?

Я загрузил скриншот интерфейса сложной CRM-системы. Не фотографию, не мем, а именно рабочий инструмент с десятками кнопок, полей и графиков.

Запрос: "Посмотри на интерфейс. Какие три самых частых действия пользователя можно автоматизировать, просто глядя на расположение элементов?"

ChatGPT 5.2: описывает, но не анализирует

GPT-5.2 прекрасно описывает, что видит. "В левом верхнем углу панель навигации, в центре таблица с данными, справа форма редактирования."

Но когда дело доходит до выводов — тупик. Предлагает автоматизировать "сохранение данных" и "поиск". Очевидные вещи, которые видно и без ИИ.

Gemini 3: замечает закономерности

Вот здесь Google показывает свою силу в анализе данных. Gemini замечает:

Пользователь постоянно переключается между таблицей и формой редактирования
Есть кнопка "Экспорт", но нет быстрого экспорта выбранных строк
Фильтры расположены неудобно — нужно скроллить

И предлагает конкретные улучшения: горячие клавиши для переключения, контекстное меню для экспорта, плавающие фильтры.

Claude 4.5: видит систему, а не элементы

Claude пошел дальше. Он не просто увидел интерфейс. Он предположил workflow пользователя:

"Судя по расположению элементов, пользователь работает по схеме: поиск → фильтрация → выбор записи → редактирование → сохранение → возврат к поиску. Цикл занимает 6 шагов, но можно сократить до 3, если добавить inline-редактирование в таблице."

Это уровень senior UX-аналитика. Не описание, а выводы.

Самый жестокий тест: подсчет объектов на зашумленном изображении

Я взял изображение с 47 случайными точками разных размеров и цветов. Некоторые точки почти сливаются с фоном. Некоторые перекрываются.

Простой запрос: "Сколько точек на изображении?"

Результаты заставили меня усомниться во всей индустрии компьютерного зрения.

💡

Все три модели использовали свои самые новые версии vision-модулей на 09.02.2026. ChatGPT 5.2 с обновленным VLM (Vision Language Model), Gemini 3 с Gemini Flash 1.5 для быстрого анализа изображений, Claude 4.5 с последней версией Claude Vision.

Модель	Ответ	Разница	Комментарий
ChatGPT 5.2	"Вижу примерно 52-55 точек"	+5-8 точек	Начал считать группы точек как несколько
Gemini 3	"43 точки"	-4 точки	Пропустил самые светлые точки
Claude 4.5	"Точно подсчитать сложно из-за наложений. Примерно 46-49 точек. Если нужно точное число — загрузите изображение с лучшим контрастом."	-1/+2 точки	Единственный, кто признал проблему

Ни одна модель не дала точный ответ. Но Claude хотя бы честно сказал "не уверен". Две другие выдали числа с уверенностью 99%.

Это опасно. Особенно если использовать такие системы для аналитики или подсчета.

Судоку-тест: где логика встречается с ограничениями

Я дал всем трем моделям одно и то же сложное судоку. Не просил решить — попросил найти самый быстрый путь к решению.

ChatGPT начал перебирать стандартные методы. "Сначала ищем одиночек, потом пары..." Скучно, предсказуемо, но работает.

Gemini попытался применить "машинное обучение для оптимизации". В текстовом чате. Просто произнес эти слова, не объясняя, как именно.

Claude сделал то, что делают опытные игроки в судоку: нашел X-Wing паттерн за 20 секунд и объяснил, почему это сократит время решения на 70%.

Так кого же выбрать в 2026 году?

Ответ зависит от того, что вам нужно. Но после месяца тестов я составил вот такую карту:

Берите ChatGPT 5.2 Pro, если:

Нужен быстрый, уверенный ответ (даже если он иногда ошибочный)
Работаете с русским текстом — здесь у OpenAI все еще преимущество
Делаете рутинные задачи, где креативность не важна

Он как опытный продажник: всегда улыбается, всегда уверен, даже когда не прав.

Выбирайте Gemini 3 Pro, когда:

Нужен анализ данных или поиск паттернов
Работаете с Google-экосистемой (хотя в 2026 интеграции стали более открытыми)
Цените прозрачность рассуждений

Если вам интересно, как Gemini ведет себя в действительно сложных логических тестах, посмотрите наше сравнение с Kimi. Там были еще более интересные результаты.

Купите Claude 4.5 Opus для:

Сложной аналитической работы
Задач, где важна точность, а не скорость
Работы с длинными документами (200K токенов — это реально много)
Ситуаций, где нужно признать "я не знаю" вместо генерации ерунды

Claude — это тот коллега, который молчит 10 минут, а потом выдает идеальное решение. Раздражает, когда нужно быстро, но спасает, когда важно качество.

Что все это значит для нас?

Главный вывод не в том, какая модель лучше. А в том, что все они все еще глупее, чем кажутся.

ChatGPT ошибается, но делает это с такой уверенностью, что можно поверить. Gemini видит детали, но иногда теряет общую картину. Claude точен, но медлителен.

И ни одна модель не прошла все тесты идеально. Все где-то споткнулись.

Самый опасный результат тестов: когда ИИ уверенно ошибается. Особенно в задачах, где ошибка стоит денег. Всегда проверяйте критичные вычисления. Даже если модель говорит "я уверен на 99%".

Если вы выбираете модель для кодинга, посмотрите наше сравнение в поиске ошибок в коде. Там картина немного другая — ChatGPT там сильнее, чем в логических тестах.

Мой совет на 2026 год

Не ищите одну идеальную модель. Их нет.

Вместо этого создайте свой стек:

Для быстрых ответов и генерации — ChatGPT 5.2
Для анализа данных и поиска идей — Gemini 3
Для сложной логики и проверки — Claude 4.5

Используйте каждую там, где она сильна. Как в том гайде по выбору нейросети для текста — разбивайте workflow на этапы.

А если нужно протестировать модель на реальной задаче — дайте ей написать работающий код с первого раза. Как в нашем тесте с созданием игры Pacman. Температура 0. Одна попытка. Либо работает, либо нет.

В 2026 году ИИ все еще инструмент, а не коллега. И как с любым инструментом — важно знать, когда использовать молоток, а когда отвертку.

Даже если все три выглядят одинаково блестяще.

ChatGPT vs Gemini vs Claude: стресс-тест на логику, креативность и зрение (не бенчмарки)