Что это вообще такое и зачем оно мне?
В феврале 2026 года Cohere выкатила семейство Tiny Aya - open-weight модели размером 3.35 миллиарда параметров, которые понимают 70 языков. Не 5, не 10, а 70. От английского и русского до суахили и тагальского.
Обучали эту штуку на 64 GPU H100 (да, тех самых, которые стоят как квартира в Москве), но запускать можно на обычном ноутбуке с 8 ГБ видеопамяти. Звучит как обман, но это работает.
Технические детали, от которых у инженеров текут слюни
Tiny Aya 3.35B - это не просто уменьшенная версия большой модели. Архитектура специально заточена под мультиязычность:
- Контекстное окно: 8192 токена (хватит на небольшую статью)
- Размерность эмбеддингов: 3072
- Количество слоев: 28
- Количество голов внимания: 24
- Поддержка GGUF формата (спасибо llama.cpp)
Обучение проводили на датасете Aya Collection 2.0 - 10.5 триллиона токенов на 70 языках. Причем не просто машинный перевод, а настоящий контент, созданный носителями.
| Модель | Параметры | Языки | Минимальные требования |
|---|---|---|---|
| Tiny Aya 3.35B | 3.35 млрд | 70 | 8 ГБ VRAM |
| Gemma 3 270M | 270 млн | ~20 | 2 ГБ RAM |
| Granite 4.0 Nano | 350 млн | ~15 | Edge-устройства |
С кем воюет Tiny Aya на рынке микро-моделей?
В 2026 году маленькие LLM - это отдельная вселенная. Вот главные конкуренты:
Gemma 3 270M от Google - легче (в 12 раз!), но языков меньше. Идеальна для IoT, как в нашем обзоре Gemma 3. Tiny Aya выигрывает в мультиязычности, но требует больше ресурсов.
Granite 4.0 Nano 350M от IBM - тоже edge-ориентированная модель, но с фокусом на код. Мы тестировали ее в статье про Granite 4.0. Разные задачи - разные инструменты.
Falcon-H1-Tiny (90M) - вообще микроскопическая модель, которая, как мы писали, работает на чем угодно, даже на холодильнике. Но 90 миллионов параметров против 3.35 миллиардов - это как сравнивать велосипед с грузовиком.
Еще есть MiniCPM-o-4.5 с 9 миллиардами параметров - мощнее, но и тяжелее. И китайские модели вроде Nanbeige, которые мы разбирали в сравнении 3B и 30B версий.
Главное преимущество Tiny Aya - баланс. Не такая тяжелая, как 13B модели, но с серьезной мультиязычной подготовкой. Для 70 языков 3.35B параметров - это очень плотная упаковка.
Запускаем на ноутбуке: инструкция без воды
Теория - это хорошо, но давайте запустим эту штуку. Есть три основных способа:
1 LM Studio (для тех, кто не любит терминал)
Самый простой вариант. Качаем LM Studio с официального сайта (на февраль 2026 года актуальна версия 0.3.9).
В поиске моделей вбиваем "Tiny Aya" - появится несколько вариантов квантования. Берем Q4_K_M - оптимальный баланс качества и скорости.
Загружаем, выбираем в интерфейсе, начинаем чат. Все. Никакого кода.
2 Ollama (для любителей командной строки)
Если установлен Ollama (а в 2026 году он есть у всех, кто работает с локальными моделями):
ollama run cohere/tiny-aya:3.35b-q4_K_M
Или если хотите конкретную версию:
ollama pull cohere/tiny-aya:3.35b-q4_K_M
Модель скачается и запустится. Можно общаться через терминал или через веб-интерфейс Ollama (обычно localhost:11434).
3 Прямой запуск через llama.cpp (для мазохистов)
Качаем GGUF файл с Hugging Face (ищите "Tiny Aya 3.35B GGUF"). На февраль 2026 самые популярные репозитории - от TheBloke и bartowski.
Скачиваем llama.cpp (актуальная версия на 2026 - ветка master с поддержкой ARMv9, о которой мы писали в гайде по Orange Pi 6 Plus).
# Компилируем (если нужно)
make -j8
# Запускаем
./main -m tiny-aya-3.35b.Q4_K_M.gguf -p "Переведи на французский: Привет, как дела?" -n 50
Это для чистого C++. Есть Python-обертки вроде llama-cpp-python, но в 2026 году все перешли на более современные решения.
На ноутбуке с RTX 4060 (8 ГБ) Tiny Aya в Q4_K_M выдает 15-20 токенов в секунду. Вполне сносно для диалога. На интегрированной графике - 2-3 токена. Медленно, но работает.
Чем кормить модель: примеры промптов
Tiny Aya обучена на инструкциях, так что понимает сложные запросы. Но есть нюансы.
Перевод между редкими языками:
"Переведи с суахили на украинский: 'Habari yako? Nzuri sana, asante.'"
Модель справляется с такими комбинациями, которые в Google Translate выглядят как абсурд.
Мультиязычный анализ тональности:
"Проанализируй тональность этих текстов. Ответ дай на русском. 1. [текст на испанском] 2. [текст на арабском] 3. [текст на хинди]"
Генерация контента для разных рынков:
"Напиши короткое описание продукта (умные часы) для: - Французской аудитории (формальный стиль) - Бразильской аудитории (неформальный, дружеский) - Японской аудитории (технические детали)"
Не ждите от 3.35B модели чудес в reasoning. Сложные цепочки рассуждений, многоэтапная логика - это не ее сильная сторона. Зато с языками она работает как швейцарский нож.
Кому это реально нужно? (Спойлер: не всем)
Берите Tiny Aya, если:
- Делаете приложение с поддержкой 10+ языков и не хотите платить за кучу API
- Работаете с данными на редких языках (африканские, азиатские диалекты)
- Нужен локальный переводчик для sensitive данных (медицина, юриспруденция)
- Экспериментируете с мультиязычными агентами, как в наших статьях про естественный диалог на обычном железе
Не берите, если:
- Работаете только с английским/русским - есть более эффективные monolingual модели
- Нужна максимальная скорость на edge-устройствах - смотрите в сторону Falcon-H1-Tiny
- Требуется state-of-the-art качество - берите большие модели через API
- Ноутбук слабее Core i5 10-го поколения без дискретной графики
Что будет дальше? (Мое предсказание)
К концу 2026 года мы увидим два тренда:
1. Специализированные микро-модели для конкретных языковых пар. Зачем тащить 70 языков, если нужны только русский-китайский? Будут модели на 1-2 миллиарда параметров, но сверхточные для узких задач.
2. Аппаратное ускорение прямо в процессорах. Intel и AMD уже анонсировали NPU с поддержкой 3-4 миллиардов параметров. Запускать Tiny Aya будет можно на любом новом ноутбуке без видеокарты.
А пока - качайте GGUF файл, запускайте через Ollama и тестируйте на своих данных. Только не просите переводить с клингонского на эльфийский. Пока.