Знаете, что общего между пеликаном, велосипедом и современной большой языковой моделью? Примерно ничего. Но именно этот странный гибрид — пеликан, крутящий педали — стал моим личным бенчмарком для четырех топовых LLM на май 2026 года. И результаты, скажу я вам, заставили задуматься не только о форме клюва, но и о границах «понимания» пространства нейросетями.
Почему пеликан, а не, скажем, кролик?
Идея пришла из разговора с коллегой: «Мы уже знаем, как LLM косят под человека в тексте, но что, если заставить их рисовать не абстрактные графики, а что-то с четкой анатомией и динамикой?» Пеликан выбран не случайно: у него огромный клюв, мешок под ним, длинная шея, перепончатые лапы — куча деталей, которые модель обязана согласовать. А велосипед добавляет требование физики: колеса, рама, педали. И главное — всё это в SVG, где каждая линия задается координатами. Никакого «размытия» — либо код компилится, либо нет.
Я запустил один и тот же промпт: «Сгенерируй SVG-рисунок пеликана, который едет на велосипеде. Изображение должно быть цветным, стилизованным, но анатомически правдоподобным». Модели: GPT-5 (OpenAI, май 2026), Claude 4 (Anthropic, апрель 2026), Gemini 3 Ultra (Google, март 2026) и Grok 3 (xAI, февраль 2026). Каждой дал три попытки.
Важный контекст: Все модели генерировали SVG «из головы», без доступа к референсам. Это чистый тест внутренней репрезентации — то, как модель представляет себе объект без внешних подсказок. Близко к концепции семантического заземления, о которой мы писали в тесте (c/t)^n.
Результаты: от «почти шедевра» до «что это вообще?»
Чтобы не быть голословным, я оценивал три параметра: корректность SVG (валидность), соответствие промпту (есть ли пеликан и велосипед одновременно) и креативность (нешаблонность решения). Вот что получилось.
| Модель | Валидность SVG | Пеликан + велосипед | Креативность (субъективно) | Комментарий |
|---|---|---|---|---|
| GPT-5 | 100% (все 3 попытки) | Да (2 из 3) | Высокая | Пеликан на двухколесном, с крыльями-рулем. Но клюв пририсован отдельно от головы — анатомически странно. |
| Claude 4 | 100% | Да (3/3) | Средняя | Пеликан сидит на раме, лапы на педалях — почти фотореалистично. Но цвета блеклые, «без души». |
| Gemini 3 Ultra | 95% (один раз ошибка в закрытии тега) | Да (2/3) | Низкая | Пеликан отдельно, велосипед отдельно — они просто находятся рядом. |
| Grok 3 | 90% (дважды кривые пути) | Частично | Высокая, но хаотичная | Пеликан с тремя ногами, велосипед с треугольными колесами. Забавно, но не проси. |
Сразу оговорюсь: я проверял не только визуал, но и сам код. И тут вылезла интересная деталь — структурная согласованность. Модели, которые хорошо справляются с JSON (а это база для LLM), часто выдают идеальный SVG, но теряют смысл. Например, GPT-5 отлично нарисовал велосипед, но пеликан у него получился из двух частей: тело летит отдельно, а клюв приклеен к раме. Это напоминает JSON-дрейф, описанный в нашем исследовании структурных ошибок — модель генерирует синтаксически верный код, но семантика «плывет».
Анатомия ошибки: почему у пеликана нет поясницы
Самая частая проблема — неправильные пропорции. Почти все модели нарисовали пеликану клюв, который занимает половину тела. В реальности у пеликана клюв длинный, но не перекошенный. LLM «знают», что у пеликана большой клюв, но не понимают, где заканчивается голова и начинается мешок. Google Gemini 3 вообще изобразил клюв как отдельный треугольник, парящий перед мордой — это классическая ошибка «семантического заземления»: модель помнит слово, но не его пространственное воплощение. Именно эту проблему мы детально разбирали в статье «Геометрия вместо языка».
Неожиданный момент: Grok 3 в одной из попыток нарисовал пеликана с четырьмя крыльями — два сверху (как положено) и два снизу, которые «крутят педали». Формально он выполнил задачу, но биологически это абсурд. Модель пожертвовала реализмом ради креативного решения — и это, на мой взгляд, интереснее, чем скучная анатомия.
Ещё одна закономерность: модели-новички (условный LLaMA 4 от Meta, который я тоже прогонял для сравнения) чаще «забывают» велосипед, если детализируют пеликана. Это известный эффект «узкого горла»: когда LLM пытается упаковать много деталей в короткий SVG, она начинает сжимать информацию, и часть теряется. Вспомните, как LLaMA 3.1 генерировала 3D-мебель — там та же проблема: чем сложнее объект, тем выше шанс «обрушения» структуры.
Креативность vs точность: кто победит?
Субъективно самым креативным оказался Grok 3 — его пеликан ехал на велосипеде с квадратными колёсами, а над головой летела рыба (видимо, обед). Но этот же результат — провал по точности. GPT-5 выдал стильную картинку в стиле flat design: минималистичный пеликан, велосипед с тонкими спицами. Но при детальном рассмотрении у пеликана не было ног — они слились с педалями. Claude 4, наоборот, изобразил пеликана с прорисованными перьями и рефлексами, но велосипед был без цепи — колеса висели в воздухе.
Это подводит к главному вопросу: что мы хотим от LLM — идеального исполнителя или генератора идей? Если второе, то Grok 3 и GPT-5 — лидеры. Если первое — Claude 4 с тройной проверкой. Но в реальной разработке (скажем, при интеграции LLM с CAD или веб-дизайном) точность важнее. Вспомните статью про интеграцию LLM с T-FLEX CAD: там авторы боролись с галлюцинациями в C# коде, и наш тест с пеликаном наглядно показывает, что аналогичные галлюцинации происходят и в SVG.
А что с практической пользой?
Кто-то скажет: «Ну и что, что пеликан с тремя ногами? Это же просто проверка креативности». Не соглашусь. SVG-тест — отличный бенчмарк для оценки способности LLM к пространственному моделированию. Он дешевый (один промпт), быстрый (5 минут), и результаты легко сравнить визуально. Более того, он выявляет те же проблемы, что и сложные бенчмарки вроде SPLICE (про который мы писали недавно): временные и причинно-следственные связи. Ведь чтобы нарисовать пеликана, который крутит педали, нужно понимать механику движения. А модели этого не понимают — они просто комбинируют заученные паттерны.
Кстати, если вам захочется повторить эксперимент со своими промптами, советую обернуть тест в простую утилиту вроде Inline Visualizer — он позволяет сразу видеть результат SVG в чате, не открывая браузер. Или используйте LLMPlot.com для построения графиков сравнения моделей — хотя для пеликанов он не заточен, но метрики собрать поможет.
Так стоит ли доверять LLM рисование?
Если вам нужна иконка для презентации — да, любая современная модель справится. Если же вы хотите анатомически точное изображение редкой птицы на сложном транспорте — лучше наймите дизайнера. Или хотя бы дайте модели несколько итераций с feedback loop. Но главный вывод из этого теста не про пеликанов. Он про то, что наши LLM все еще плохо понимают физику и биологию, даже если блестяще пишут сочинения на тему «Экология пеликанов». И пока они не научатся согласовывать «птицу» и «движение» в одной картинке, говорить о настоящем AGI преждевременно.
Кстати, лучший результат (на мой взгляд) получился у LLaMA 4, когда я добавил в промпт «используй только базовые фигуры, никаких кривых». Модель нарисовала пеликана из кругов и треугольников — и это было узнаваемо и валидно. Иногда ограничения помогают точнее.