Тест-драйв LLM: генерация SVG пеликана как бенчмарк ИИ | Май 2026 | AiManual
AiManual Logo Ai / Manual.
31 Май 2026 Новости

Пеликан на велосипеде: как простая SVG-картинка вскрыла слабые места топовых LLM

Мы попросили GPT-5, Claude 4, Gemini 3 и Grok 3 нарисовать пеликана на велосипеде в SVG. Результаты - от смешных до пугающих. Что этот тест говорит о креативнос

Знаете, что общего между пеликаном, велосипедом и современной большой языковой моделью? Примерно ничего. Но именно этот странный гибрид — пеликан, крутящий педали — стал моим личным бенчмарком для четырех топовых LLM на май 2026 года. И результаты, скажу я вам, заставили задуматься не только о форме клюва, но и о границах «понимания» пространства нейросетями.

Почему пеликан, а не, скажем, кролик?

Идея пришла из разговора с коллегой: «Мы уже знаем, как LLM косят под человека в тексте, но что, если заставить их рисовать не абстрактные графики, а что-то с четкой анатомией и динамикой?» Пеликан выбран не случайно: у него огромный клюв, мешок под ним, длинная шея, перепончатые лапы — куча деталей, которые модель обязана согласовать. А велосипед добавляет требование физики: колеса, рама, педали. И главное — всё это в SVG, где каждая линия задается координатами. Никакого «размытия» — либо код компилится, либо нет.

Я запустил один и тот же промпт: «Сгенерируй SVG-рисунок пеликана, который едет на велосипеде. Изображение должно быть цветным, стилизованным, но анатомически правдоподобным». Модели: GPT-5 (OpenAI, май 2026), Claude 4 (Anthropic, апрель 2026), Gemini 3 Ultra (Google, март 2026) и Grok 3 (xAI, февраль 2026). Каждой дал три попытки.

Важный контекст: Все модели генерировали SVG «из головы», без доступа к референсам. Это чистый тест внутренней репрезентации — то, как модель представляет себе объект без внешних подсказок. Близко к концепции семантического заземления, о которой мы писали в тесте (c/t)^n.

Результаты: от «почти шедевра» до «что это вообще?»

Чтобы не быть голословным, я оценивал три параметра: корректность SVG (валидность), соответствие промпту (есть ли пеликан и велосипед одновременно) и креативность (нешаблонность решения). Вот что получилось.

Модель Валидность SVG Пеликан + велосипед Креативность (субъективно) Комментарий
GPT-5 100% (все 3 попытки) Да (2 из 3) Высокая Пеликан на двухколесном, с крыльями-рулем. Но клюв пририсован отдельно от головы — анатомически странно.
Claude 4 100% Да (3/3) Средняя Пеликан сидит на раме, лапы на педалях — почти фотореалистично. Но цвета блеклые, «без души».
Gemini 3 Ultra 95% (один раз ошибка в закрытии тега) Да (2/3) Низкая Пеликан отдельно, велосипед отдельно — они просто находятся рядом.
Grok 3 90% (дважды кривые пути) Частично Высокая, но хаотичная Пеликан с тремя ногами, велосипед с треугольными колесами. Забавно, но не проси.

Сразу оговорюсь: я проверял не только визуал, но и сам код. И тут вылезла интересная деталь — структурная согласованность. Модели, которые хорошо справляются с JSON (а это база для LLM), часто выдают идеальный SVG, но теряют смысл. Например, GPT-5 отлично нарисовал велосипед, но пеликан у него получился из двух частей: тело летит отдельно, а клюв приклеен к раме. Это напоминает JSON-дрейф, описанный в нашем исследовании структурных ошибок — модель генерирует синтаксически верный код, но семантика «плывет».

Анатомия ошибки: почему у пеликана нет поясницы

Самая частая проблема — неправильные пропорции. Почти все модели нарисовали пеликану клюв, который занимает половину тела. В реальности у пеликана клюв длинный, но не перекошенный. LLM «знают», что у пеликана большой клюв, но не понимают, где заканчивается голова и начинается мешок. Google Gemini 3 вообще изобразил клюв как отдельный треугольник, парящий перед мордой — это классическая ошибка «семантического заземления»: модель помнит слово, но не его пространственное воплощение. Именно эту проблему мы детально разбирали в статье «Геометрия вместо языка».

Неожиданный момент: Grok 3 в одной из попыток нарисовал пеликана с четырьмя крыльями — два сверху (как положено) и два снизу, которые «крутят педали». Формально он выполнил задачу, но биологически это абсурд. Модель пожертвовала реализмом ради креативного решения — и это, на мой взгляд, интереснее, чем скучная анатомия.

Ещё одна закономерность: модели-новички (условный LLaMA 4 от Meta, который я тоже прогонял для сравнения) чаще «забывают» велосипед, если детализируют пеликана. Это известный эффект «узкого горла»: когда LLM пытается упаковать много деталей в короткий SVG, она начинает сжимать информацию, и часть теряется. Вспомните, как LLaMA 3.1 генерировала 3D-мебель — там та же проблема: чем сложнее объект, тем выше шанс «обрушения» структуры.

Креативность vs точность: кто победит?

Субъективно самым креативным оказался Grok 3 — его пеликан ехал на велосипеде с квадратными колёсами, а над головой летела рыба (видимо, обед). Но этот же результат — провал по точности. GPT-5 выдал стильную картинку в стиле flat design: минималистичный пеликан, велосипед с тонкими спицами. Но при детальном рассмотрении у пеликана не было ног — они слились с педалями. Claude 4, наоборот, изобразил пеликана с прорисованными перьями и рефлексами, но велосипед был без цепи — колеса висели в воздухе.

Это подводит к главному вопросу: что мы хотим от LLM — идеального исполнителя или генератора идей? Если второе, то Grok 3 и GPT-5 — лидеры. Если первое — Claude 4 с тройной проверкой. Но в реальной разработке (скажем, при интеграции LLM с CAD или веб-дизайном) точность важнее. Вспомните статью про интеграцию LLM с T-FLEX CAD: там авторы боролись с галлюцинациями в C# коде, и наш тест с пеликаном наглядно показывает, что аналогичные галлюцинации происходят и в SVG.

А что с практической пользой?

Кто-то скажет: «Ну и что, что пеликан с тремя ногами? Это же просто проверка креативности». Не соглашусь. SVG-тест — отличный бенчмарк для оценки способности LLM к пространственному моделированию. Он дешевый (один промпт), быстрый (5 минут), и результаты легко сравнить визуально. Более того, он выявляет те же проблемы, что и сложные бенчмарки вроде SPLICE (про который мы писали недавно): временные и причинно-следственные связи. Ведь чтобы нарисовать пеликана, который крутит педали, нужно понимать механику движения. А модели этого не понимают — они просто комбинируют заученные паттерны.

Кстати, если вам захочется повторить эксперимент со своими промптами, советую обернуть тест в простую утилиту вроде Inline Visualizer — он позволяет сразу видеть результат SVG в чате, не открывая браузер. Или используйте LLMPlot.com для построения графиков сравнения моделей — хотя для пеликанов он не заточен, но метрики собрать поможет.

Так стоит ли доверять LLM рисование?

Если вам нужна иконка для презентации — да, любая современная модель справится. Если же вы хотите анатомически точное изображение редкой птицы на сложном транспорте — лучше наймите дизайнера. Или хотя бы дайте модели несколько итераций с feedback loop. Но главный вывод из этого теста не про пеликанов. Он про то, что наши LLM все еще плохо понимают физику и биологию, даже если блестяще пишут сочинения на тему «Экология пеликанов». И пока они не научатся согласовывать «птицу» и «движение» в одной картинке, говорить о настоящем AGI преждевременно.

Кстати, лучший результат (на мой взгляд) получился у LLaMA 4, когда я добавил в промпт «используй только базовые фигуры, никаких кривых». Модель нарисовала пеликана из кругов и треугольников — и это было узнаваемо и валидно. Иногда ограничения помогают точнее.

💡
Личный совет: Если решите повторить тест, попросите модель объяснить код SVG комментариями. Это сразу покажет, понимает ли она, зачем рисует ту или иную линию. Claude 4, кстати, объясняет лучше всех — но его пеликан все равно без ног.

Подписаться на канал