История Nano Banana и LMArena: тестирование ИИ-моделей в 2026

Банановая ночь: как всё начиналось

Это случилось в 3:47 утра где-то в исследовательском офисе Google DeepMind. Команда, работавшая над компактной 3B-параметровой моделью, уже пятый час спорила о названии. Все приличные варианты — от "Gemini Nano Lite" до "TinyMind" — были либо заняты, либо звучали как названия дешёвых энергетиков.

На столе стояла коробка с перезрелыми бананами. Кто-то из усталости бросил: "Да назовите её Banana — она же маленькая и жёлтая, как этот нано-банан". В чате повисла пауза. Потом — взрыв смеха. Так родилось имя, которое через месяц облетело все AI-сообщества.

💡

Интересный факт: первоначальный внутренний код модели был "Project Yellow Fruit". Название Nano Banana появилось в коммите от 15.12.2025 в 04:23 утра по тихоокеанскому времени.

Но шутка шуткой, а модель-то работала. И работала хорошо. Nano Banana v1.2 (последняя стабильная версия на 01.02.2026) показала неожиданные результаты в тестах на согласованность персонажей, обойдя некоторые 7B-модели. Об этом мы подробно писали в сравнении Nano Banana против Gemini 2.5 Flash.

Проблема: как тестировать, когда моделей больше, чем тестеров?

Вот здесь начинается настоящая драма. К началу 2026 года в открытом доступе было уже больше 500 специализированных LLM-моделей. От сверхкомпактных вроде Granite 4.0 Nano 350M до монстров в 30B параметров.

Традиционные бенчмарки — MMLU, HellaSwag, GSM8K — перестали отражать реальность. Модели научились "натаскиваться" на конкретные тесты. Вы видели результаты Nemotron-3-nano:30b? В цифрах она выглядит блестяще, но попробуйте задать ей каверзный вопрос о политике или попросить написать стихотворение в стиле Бродского. Результат... скажем так, неоднозначный.

Важный момент: большинство открытых тестов на 2026 год используют датасеты 2023-2024 годов. Модели, обученные на свежих данных (до конца 2025), имеют нечестное преимущество в вопросах про текущие события.

Именно эту проблему заметили в сообществе LocalLlama. На их Discord-сервере каждый день появлялись десятки новых моделей, но тестировать их было некому. Разработчики выкладывали свои творения с гордыми цифрами из MMLU, а пользователи сталкивались с багами в самых простых сценариях.

LMArena: когда краудсорсинг встречает ИИ-тестирование

Платформа LMArena запустилась в ноябре 2025 как ответ на этот хаос. Концепция проста до гениальности: вместо того чтобы полагаться на ограниченную команду тестировщиков, вы открываете доступ к своей модели тысячам энтузиастов.

Вот как это работает сегодня, 01.02.2026:

Разработчик загружает модель в LMArena (поддерживаются GGUF, Safetensors, оригинные веса)
Система автоматически создаёт "арену" — изолированную среду с предустановленными тестами
Любой зарегистрированный пользователь может зайти и начать тестирование
Каждое взаимодействие записывается, оценивается и попадает в общую статистику

Что тестирует LMArena	Как это отличается от старых методов
Поведение в диалоге (не только точность ответов)	Раньше считали проценты, теперь анализируют контекст и уместность
Устойчивость к провокациям и jailbreak-атакам	Краудсорсинг находит уязвимости, которые пропускают автоматические тесты
Согласованность в длинных диалогах	Пользователи ведут реальные беседы на 50+ сообщений
Специфические сценарии (кодинг, креатив, анализ)	Эксперты в разных областях тестируют модель по своему профилю

Самое интересное — система репутации. Чем больше полезных тестов провёл пользователь (тесты, которые нашли реальные баги или подтвердили заявленные возможности), тем выше его "вес" в общей оценке модели. Просто так поставить единицу и написать "отстой" не получится — система потребует аргументации.

Nano Banana на арене: неожиданные результаты

Когда команда Nano Banana выложила свою модель на LMArena в январе 2026, они ожидали средних результатов. В конце концов, это была компактная 3B-модель, а на арене уже были монстры вроде Nemotron-3-nano:30b.

Но случилось обратное. В тесте на "согласованность персонажа в длинном диалоге" Nano Banana v1.2 заняла 3-е место среди всех протестированных моделей до 7B параметров. Пользователи отмечали, что модель "не теряет нить разговора даже после 30 сообщений" и "помнит мелкие детали, упомянутые в начале диалога".

А вот в математических задачах — полный провал. Один из тестировщиков написал: "Попросил решить задачу про два поезда — Nano Banana выдала поэму о любви локомотивов. Красиво, но не то".

💡

Статистика LMArena на 01.02.2026: платформа протестировала 127 моделей, пользователи провели 45,000+ тестовых сессий, средняя длина диалога — 24 сообщения. Самый активный тестировщик провёл 1,847 сессий.

Почему это меняет правила игры (и немного бесит)

LMArena убивает сразу нескольких зайцев. Во-первых, она создаёт реальную конкуренцию. Больше нельзя выложить модель с красивыми цифрами из MMLU и считать дело сделанным. Пользователи быстро найдут все слабые места.

Во-вторых, это демократизация тестирования. Раньше доступ к серьёзному тестированию имели только крупные компании. Теперь любой разработчик, даже студент с несколькими Jetson Orin Nano, может получить профессиональную обратную связь.

Но есть и проблемы. Система репутации иногда даёт сбои. Некоторые пользователи накручивают рейтинг, тестируя только простые сценарии. А ещё — LMArena требует серьёзных вычислительных ресурсов. Запустить тест для 30B-модели может себе позволить не каждый.

И да, это бесит старую гвардию. Те, кто годами оттачивал свои модели под конкретные бенчмарки, теперь видят, как их творения проваливаются в "реальных условиях". Особенно обидно, когда компактная модель вроде MiniMax-M2.1 показывает лучшие результаты в диалогах, чем монстр с вдесятеро большим количеством параметров.

Что дальше? Прогноз на 2026-2027

К середине 2026 года LMArena планирует внедрить автоматическое сравнение моделей. Представьте: вы загружаете свою новую 3B-модель, а система автоматически сравнивает её с Nanbeige 3B, Nano Banana и другими конкурентами в том же классе.

Ещё одна фича — интеграция с инструментами типа NeMo Evaluator для воспроизводимости тестов. И работа над мобильной версией — чтобы тестировать модели прямо на смартфонах.

А что с Nano Banana? Команда уже анонсировала v2.0 на второй квартал 2026. Говорят, исправили проблемы с математикой, но сохранили "банановый характер" — ту самую согласованность в диалогах, которая всех покорила.

Совет разработчикам на 2026: не гонитесь за размерами. Nano Banana доказала, что 3B-модель с хорошо проработанной архитектурой может обойти 7B-монстра в конкретных задачах. Тестируйте в LMArena с самого начала — это сэкономит месяцы работы.

И последнее. Если вы думаете, что ваша модель идеальна — попробуйте запустить её на LMArena. Гарантирую: через час найдётся пользователь, который заставит её говорить ерунду или забыть собственное имя. Это больно, но это лучший способ улучшить продукт. Даже если изначально вы назвали его в честь перезрелого банана в 4 утра.

Nano Banana: как банановая драма породила хит и почему LMArena — это новый стандарт тестов