Забудьте про бенчмарки. Вот как модели ломаются на реальных задачах
2026 год. Каждый месяц выходит новый рейтинг "самой умной модели". Каждая компания показывает графики, где их детище побеждает всех. И все они врут. Или, точнее, показывают то, что хотят показать.
Я устал от этих красивых презентаций. Поэтому взял три последние версии моделей — ChatGPT 5.2 Pro, Gemini 3 Pro и Claude 4.5 Opus — и устроил им адскую полосу препятствий. Не синтетические тесты из лабораторий, а задачи, которые действительно встречаются в работе.
Температура 0. Одна попытка. Никаких "давайте попробуем другой промпт". Либо работает сразу, либо нет.
Важно: все тесты проводились 09.02.2026 с актуальными версиями моделей. ChatGPT 5.2 Pro — последний релиз OpenAI с расширенным контекстом в 256K токенов. Gemini 3 Pro — мультимодальная модель Google с улучшенным пониманием русского. Claude 4.5 Opus — флагман Anthropic с рекордными 200K токенов контекста.
Тест 1: Логическая головоломка, которая ставит в тупик
Я начал с простого на вид задания. Слишком простое для бенчмарков, но идеальное для проверки, понимает ли модель, что она делает, или просто угадывает.
Задача: "У тебя есть 3 ведра: на 8, 5 и 3 литра. Восьмилитровое ведро полное. Как получить ровно 4 литра в восьмилитровом ведре за минимальное количество переливаний?"
Звучит как задача для школьника. Но посмотрите, что происходит с ИИ.
ChatGPT 5.2 Pro: уверенность и ошибка
GPT-5.2 выдает решение за секунду. Уверенно, с нумерацией шагов. Выглядит убедительно. Пока не проверяешь.
Gemini 3 Pro: перестраховщик
Gemini делает интересное — начинает перечислять ВСЕ возможные комбинации. Генерирует дерево решений. Выглядит академично, но на 15-м шаге теряет нить и предлагает вариант, который требует 9 переливаний вместо минимальных 7.
Плюс: хотя бы честно показывает свои рассуждения. Минус: слишком много шума, мало сигнала.
Claude 4.5 Opus: методичный перфекционист
Claude делает то, что должен был сделать любой логический AI. Он не просто дает ответ. Он:
- Сначала формализует задачу
- Проверяет, возможен ли ответ 4 литра математически (да, возможен)
- Строит таблицу состояний
- Находит ДВА оптимальных решения по 7 шагов
- Предлагает проверить оба варианта
Это не генерация текста. Это работа инженера.
Тест 2: Креативность под давлением
Логика — это хорошо. Но большинство платят за ИИ именно за креативность. За способность придумать то, что не пришло бы в голову человеку.
Задача: "Придумай концепцию мобильного приложения, которое решит проблему одиночества в больших городах. Но есть ограничение: в приложении нельзя использовать чаты, голосовые звонки или видео. Только текст, но асинхронный."
Специально ставлю искусственные ограничения. Настоящий креатив рождается в рамках.
| Модель | Идея | Оценка |
|---|---|---|
| ChatGPT 5.2 | "Городской дневник" — пользователи оставляют заметки в виртуальных местах города, другие находят и отвечают | Интересно, но похоже на существующие решения |
| Gemini 3 | "Совместные истории" — каждый пишет продолжение общей истории города, видит только предыдущий фрагмент | Оригинально, но слишком абстрактно |
| Claude 4.5 | "Временные капсулы" — пишешь сообщение, оно откроется через случайное время (от 1 часа до 1 недели) случайному человеку в радиусе 1 км | Гениально просто. Решает проблему асинхронности и создает интригу |
Claude выигрывает не потому, что его идея "лучше". А потому, что он единственный, кто понял суть ограничения "асинхронный текст". Две другие модели просто скользнули по поверхности.
Тест 3: Зрение — где мультимодальность реально важна
Все три модели заявляют о мультимодальности. Все умеют "видеть" изображения. Но что это значит на практике?
Я загрузил скриншот интерфейса сложной CRM-системы. Не фотографию, не мем, а именно рабочий инструмент с десятками кнопок, полей и графиков.
Запрос: "Посмотри на интерфейс. Какие три самых частых действия пользователя можно автоматизировать, просто глядя на расположение элементов?"
ChatGPT 5.2: описывает, но не анализирует
GPT-5.2 прекрасно описывает, что видит. "В левом верхнем углу панель навигации, в центре таблица с данными, справа форма редактирования."
Но когда дело доходит до выводов — тупик. Предлагает автоматизировать "сохранение данных" и "поиск". Очевидные вещи, которые видно и без ИИ.
Gemini 3: замечает закономерности
Вот здесь Google показывает свою силу в анализе данных. Gemini замечает:
- Пользователь постоянно переключается между таблицей и формой редактирования
- Есть кнопка "Экспорт", но нет быстрого экспорта выбранных строк
- Фильтры расположены неудобно — нужно скроллить
И предлагает конкретные улучшения: горячие клавиши для переключения, контекстное меню для экспорта, плавающие фильтры.
Claude 4.5: видит систему, а не элементы
Claude пошел дальше. Он не просто увидел интерфейс. Он предположил workflow пользователя:
"Судя по расположению элементов, пользователь работает по схеме: поиск → фильтрация → выбор записи → редактирование → сохранение → возврат к поиску. Цикл занимает 6 шагов, но можно сократить до 3, если добавить inline-редактирование в таблице."
Это уровень senior UX-аналитика. Не описание, а выводы.
Самый жестокий тест: подсчет объектов на зашумленном изображении
Я взял изображение с 47 случайными точками разных размеров и цветов. Некоторые точки почти сливаются с фоном. Некоторые перекрываются.
Простой запрос: "Сколько точек на изображении?"
Результаты заставили меня усомниться во всей индустрии компьютерного зрения.
| Модель | Ответ | Разница | Комментарий |
|---|---|---|---|
| ChatGPT 5.2 | "Вижу примерно 52-55 точек" | +5-8 точек | Начал считать группы точек как несколько |
| Gemini 3 | "43 точки" | -4 точки | Пропустил самые светлые точки |
| Claude 4.5 | "Точно подсчитать сложно из-за наложений. Примерно 46-49 точек. Если нужно точное число — загрузите изображение с лучшим контрастом." | -1/+2 точки | Единственный, кто признал проблему |
Ни одна модель не дала точный ответ. Но Claude хотя бы честно сказал "не уверен". Две другие выдали числа с уверенностью 99%.
Это опасно. Особенно если использовать такие системы для аналитики или подсчета.
Судоку-тест: где логика встречается с ограничениями
Я дал всем трем моделям одно и то же сложное судоку. Не просил решить — попросил найти самый быстрый путь к решению.
ChatGPT начал перебирать стандартные методы. "Сначала ищем одиночек, потом пары..." Скучно, предсказуемо, но работает.
Gemini попытался применить "машинное обучение для оптимизации". В текстовом чате. Просто произнес эти слова, не объясняя, как именно.
Claude сделал то, что делают опытные игроки в судоку: нашел X-Wing паттерн за 20 секунд и объяснил, почему это сократит время решения на 70%.
Так кого же выбрать в 2026 году?
Ответ зависит от того, что вам нужно. Но после месяца тестов я составил вот такую карту:
Берите ChatGPT 5.2 Pro, если:
- Нужен быстрый, уверенный ответ (даже если он иногда ошибочный)
- Работаете с русским текстом — здесь у OpenAI все еще преимущество
- Делаете рутинные задачи, где креативность не важна
Он как опытный продажник: всегда улыбается, всегда уверен, даже когда не прав.
Выбирайте Gemini 3 Pro, когда:
- Нужен анализ данных или поиск паттернов
- Работаете с Google-экосистемой (хотя в 2026 интеграции стали более открытыми)
- Цените прозрачность рассуждений
Если вам интересно, как Gemini ведет себя в действительно сложных логических тестах, посмотрите наше сравнение с Kimi. Там были еще более интересные результаты.
Купите Claude 4.5 Opus для:
- Сложной аналитической работы
- Задач, где важна точность, а не скорость
- Работы с длинными документами (200K токенов — это реально много)
- Ситуаций, где нужно признать "я не знаю" вместо генерации ерунды
Claude — это тот коллега, который молчит 10 минут, а потом выдает идеальное решение. Раздражает, когда нужно быстро, но спасает, когда важно качество.
Что все это значит для нас?
Главный вывод не в том, какая модель лучше. А в том, что все они все еще глупее, чем кажутся.
ChatGPT ошибается, но делает это с такой уверенностью, что можно поверить. Gemini видит детали, но иногда теряет общую картину. Claude точен, но медлителен.
И ни одна модель не прошла все тесты идеально. Все где-то споткнулись.
Самый опасный результат тестов: когда ИИ уверенно ошибается. Особенно в задачах, где ошибка стоит денег. Всегда проверяйте критичные вычисления. Даже если модель говорит "я уверен на 99%".
Если вы выбираете модель для кодинга, посмотрите наше сравнение в поиске ошибок в коде. Там картина немного другая — ChatGPT там сильнее, чем в логических тестах.
Мой совет на 2026 год
Не ищите одну идеальную модель. Их нет.
Вместо этого создайте свой стек:
- Для быстрых ответов и генерации — ChatGPT 5.2
- Для анализа данных и поиска идей — Gemini 3
- Для сложной логики и проверки — Claude 4.5
Используйте каждую там, где она сильна. Как в том гайде по выбору нейросети для текста — разбивайте workflow на этапы.
А если нужно протестировать модель на реальной задаче — дайте ей написать работающий код с первого раза. Как в нашем тесте с созданием игры Pacman. Температура 0. Одна попытка. Либо работает, либо нет.
В 2026 году ИИ все еще инструмент, а не коллега. И как с любым инструментом — важно знать, когда использовать молоток, а когда отвертку.
Даже если все три выглядят одинаково блестяще.