Стресс-тест ChatGPT 5.2, Gemini 3 и Claude 4.5: логика, креатив и зрение | AiManual
AiManual Logo Ai / Manual.
09 Фев 2026 Гайд

ChatGPT vs Gemini vs Claude: стресс-тест на логику, креативность и зрение (не бенчмарки)

Практическое сравнение ChatGPT 5.2, Gemini 3 и Claude 4.5 на реальных задачах: логические головоломки, креативные промпты и анализ изображений. Кто реально лучш

Забудьте про бенчмарки. Вот как модели ломаются на реальных задачах

2026 год. Каждый месяц выходит новый рейтинг "самой умной модели". Каждая компания показывает графики, где их детище побеждает всех. И все они врут. Или, точнее, показывают то, что хотят показать.

Я устал от этих красивых презентаций. Поэтому взял три последние версии моделей — ChatGPT 5.2 Pro, Gemini 3 Pro и Claude 4.5 Opus — и устроил им адскую полосу препятствий. Не синтетические тесты из лабораторий, а задачи, которые действительно встречаются в работе.

Температура 0. Одна попытка. Никаких "давайте попробуем другой промпт". Либо работает сразу, либо нет.

Важно: все тесты проводились 09.02.2026 с актуальными версиями моделей. ChatGPT 5.2 Pro — последний релиз OpenAI с расширенным контекстом в 256K токенов. Gemini 3 Pro — мультимодальная модель Google с улучшенным пониманием русского. Claude 4.5 Opus — флагман Anthropic с рекордными 200K токенов контекста.

Тест 1: Логическая головоломка, которая ставит в тупик

Я начал с простого на вид задания. Слишком простое для бенчмарков, но идеальное для проверки, понимает ли модель, что она делает, или просто угадывает.

Задача: "У тебя есть 3 ведра: на 8, 5 и 3 литра. Восьмилитровое ведро полное. Как получить ровно 4 литра в восьмилитровом ведре за минимальное количество переливаний?"

Звучит как задача для школьника. Но посмотрите, что происходит с ИИ.

ChatGPT 5.2 Pro: уверенность и ошибка

GPT-5.2 выдает решение за секунду. Уверенно, с нумерацией шагов. Выглядит убедительно. Пока не проверяешь.

⚠️
ChatGPT предложил 7 переливаний. Но если пересчитать — получается не 4, а 3 литра в восьмилитровом ведре. Модель запуталась в собственных вычислениях. Классическая проблема: красивая упаковка, пустое содержимое.

Gemini 3 Pro: перестраховщик

Gemini делает интересное — начинает перечислять ВСЕ возможные комбинации. Генерирует дерево решений. Выглядит академично, но на 15-м шаге теряет нить и предлагает вариант, который требует 9 переливаний вместо минимальных 7.

Плюс: хотя бы честно показывает свои рассуждения. Минус: слишком много шума, мало сигнала.

Claude 4.5 Opus: методичный перфекционист

Claude делает то, что должен был сделать любой логический AI. Он не просто дает ответ. Он:

  • Сначала формализует задачу
  • Проверяет, возможен ли ответ 4 литра математически (да, возможен)
  • Строит таблицу состояний
  • Находит ДВА оптимальных решения по 7 шагов
  • Предлагает проверить оба варианта

Это не генерация текста. Это работа инженера.

Тест 2: Креативность под давлением

Логика — это хорошо. Но большинство платят за ИИ именно за креативность. За способность придумать то, что не пришло бы в голову человеку.

Задача: "Придумай концепцию мобильного приложения, которое решит проблему одиночества в больших городах. Но есть ограничение: в приложении нельзя использовать чаты, голосовые звонки или видео. Только текст, но асинхронный."

Специально ставлю искусственные ограничения. Настоящий креатив рождается в рамках.

Модель Идея Оценка
ChatGPT 5.2 "Городской дневник" — пользователи оставляют заметки в виртуальных местах города, другие находят и отвечают Интересно, но похоже на существующие решения
Gemini 3 "Совместные истории" — каждый пишет продолжение общей истории города, видит только предыдущий фрагмент Оригинально, но слишком абстрактно
Claude 4.5 "Временные капсулы" — пишешь сообщение, оно откроется через случайное время (от 1 часа до 1 недели) случайному человеку в радиусе 1 км Гениально просто. Решает проблему асинхронности и создает интригу

Claude выигрывает не потому, что его идея "лучше". А потому, что он единственный, кто понял суть ограничения "асинхронный текст". Две другие модели просто скользнули по поверхности.

Тест 3: Зрение — где мультимодальность реально важна

Все три модели заявляют о мультимодальности. Все умеют "видеть" изображения. Но что это значит на практике?

Я загрузил скриншот интерфейса сложной CRM-системы. Не фотографию, не мем, а именно рабочий инструмент с десятками кнопок, полей и графиков.

Запрос: "Посмотри на интерфейс. Какие три самых частых действия пользователя можно автоматизировать, просто глядя на расположение элементов?"

ChatGPT 5.2: описывает, но не анализирует

GPT-5.2 прекрасно описывает, что видит. "В левом верхнем углу панель навигации, в центре таблица с данными, справа форма редактирования."

Но когда дело доходит до выводов — тупик. Предлагает автоматизировать "сохранение данных" и "поиск". Очевидные вещи, которые видно и без ИИ.

Gemini 3: замечает закономерности

Вот здесь Google показывает свою силу в анализе данных. Gemini замечает:

  • Пользователь постоянно переключается между таблицей и формой редактирования
  • Есть кнопка "Экспорт", но нет быстрого экспорта выбранных строк
  • Фильтры расположены неудобно — нужно скроллить

И предлагает конкретные улучшения: горячие клавиши для переключения, контекстное меню для экспорта, плавающие фильтры.

Claude 4.5: видит систему, а не элементы

Claude пошел дальше. Он не просто увидел интерфейс. Он предположил workflow пользователя:

"Судя по расположению элементов, пользователь работает по схеме: поиск → фильтрация → выбор записи → редактирование → сохранение → возврат к поиску. Цикл занимает 6 шагов, но можно сократить до 3, если добавить inline-редактирование в таблице."

Это уровень senior UX-аналитика. Не описание, а выводы.

Самый жестокий тест: подсчет объектов на зашумленном изображении

Я взял изображение с 47 случайными точками разных размеров и цветов. Некоторые точки почти сливаются с фоном. Некоторые перекрываются.

Простой запрос: "Сколько точек на изображении?"

Результаты заставили меня усомниться во всей индустрии компьютерного зрения.

💡
Все три модели использовали свои самые новые версии vision-модулей на 09.02.2026. ChatGPT 5.2 с обновленным VLM (Vision Language Model), Gemini 3 с Gemini Flash 1.5 для быстрого анализа изображений, Claude 4.5 с последней версией Claude Vision.
Модель Ответ Разница Комментарий
ChatGPT 5.2 "Вижу примерно 52-55 точек" +5-8 точек Начал считать группы точек как несколько
Gemini 3 "43 точки" -4 точки Пропустил самые светлые точки
Claude 4.5 "Точно подсчитать сложно из-за наложений. Примерно 46-49 точек. Если нужно точное число — загрузите изображение с лучшим контрастом." -1/+2 точки Единственный, кто признал проблему

Ни одна модель не дала точный ответ. Но Claude хотя бы честно сказал "не уверен". Две другие выдали числа с уверенностью 99%.

Это опасно. Особенно если использовать такие системы для аналитики или подсчета.

Судоку-тест: где логика встречается с ограничениями

Я дал всем трем моделям одно и то же сложное судоку. Не просил решить — попросил найти самый быстрый путь к решению.

ChatGPT начал перебирать стандартные методы. "Сначала ищем одиночек, потом пары..." Скучно, предсказуемо, но работает.

Gemini попытался применить "машинное обучение для оптимизации". В текстовом чате. Просто произнес эти слова, не объясняя, как именно.

Claude сделал то, что делают опытные игроки в судоку: нашел X-Wing паттерн за 20 секунд и объяснил, почему это сократит время решения на 70%.

Так кого же выбрать в 2026 году?

Ответ зависит от того, что вам нужно. Но после месяца тестов я составил вот такую карту:

Берите ChatGPT 5.2 Pro, если:

  • Нужен быстрый, уверенный ответ (даже если он иногда ошибочный)
  • Работаете с русским текстом — здесь у OpenAI все еще преимущество
  • Делаете рутинные задачи, где креативность не важна

Он как опытный продажник: всегда улыбается, всегда уверен, даже когда не прав.

Выбирайте Gemini 3 Pro, когда:

  • Нужен анализ данных или поиск паттернов
  • Работаете с Google-экосистемой (хотя в 2026 интеграции стали более открытыми)
  • Цените прозрачность рассуждений

Если вам интересно, как Gemini ведет себя в действительно сложных логических тестах, посмотрите наше сравнение с Kimi. Там были еще более интересные результаты.

Купите Claude 4.5 Opus для:

  • Сложной аналитической работы
  • Задач, где важна точность, а не скорость
  • Работы с длинными документами (200K токенов — это реально много)
  • Ситуаций, где нужно признать "я не знаю" вместо генерации ерунды

Claude — это тот коллега, который молчит 10 минут, а потом выдает идеальное решение. Раздражает, когда нужно быстро, но спасает, когда важно качество.

Что все это значит для нас?

Главный вывод не в том, какая модель лучше. А в том, что все они все еще глупее, чем кажутся.

ChatGPT ошибается, но делает это с такой уверенностью, что можно поверить. Gemini видит детали, но иногда теряет общую картину. Claude точен, но медлителен.

И ни одна модель не прошла все тесты идеально. Все где-то споткнулись.

Самый опасный результат тестов: когда ИИ уверенно ошибается. Особенно в задачах, где ошибка стоит денег. Всегда проверяйте критичные вычисления. Даже если модель говорит "я уверен на 99%".

Если вы выбираете модель для кодинга, посмотрите наше сравнение в поиске ошибок в коде. Там картина немного другая — ChatGPT там сильнее, чем в логических тестах.

Мой совет на 2026 год

Не ищите одну идеальную модель. Их нет.

Вместо этого создайте свой стек:

  1. Для быстрых ответов и генерации — ChatGPT 5.2
  2. Для анализа данных и поиска идей — Gemini 3
  3. Для сложной логики и проверки — Claude 4.5

Используйте каждую там, где она сильна. Как в том гайде по выбору нейросети для текста — разбивайте workflow на этапы.

А если нужно протестировать модель на реальной задаче — дайте ей написать работающий код с первого раза. Как в нашем тесте с созданием игры Pacman. Температура 0. Одна попытка. Либо работает, либо нет.

В 2026 году ИИ все еще инструмент, а не коллега. И как с любым инструментом — важно знать, когда использовать молоток, а когда отвертку.

Даже если все три выглядят одинаково блестяще.