Что это вообще такое и зачем оно мне?

В феврале 2026 года Cohere выкатила семейство Tiny Aya - open-weight модели размером 3.35 миллиарда параметров, которые понимают 70 языков. Не 5, не 10, а 70. От английского и русского до суахили и тагальского.

Обучали эту штуку на 64 GPU H100 (да, тех самых, которые стоят как квартира в Москве), но запускать можно на обычном ноутбуке с 8 ГБ видеопамяти. Звучит как обман, но это работает.

💡

Open-weight значит - скачал файлы, запустил локально. Никаких API ключей, никаких лимитов, никакой отправки данных в облако. Полная приватность.

Технические детали, от которых у инженеров текут слюни

Tiny Aya 3.35B - это не просто уменьшенная версия большой модели. Архитектура специально заточена под мультиязычность:

Контекстное окно: 8192 токена (хватит на небольшую статью)
Размерность эмбеддингов: 3072
Количество слоев: 28
Количество голов внимания: 24
Поддержка GGUF формата (спасибо llama.cpp)

Обучение проводили на датасете Aya Collection 2.0 - 10.5 триллиона токенов на 70 языках. Причем не просто машинный перевод, а настоящий контент, созданный носителями.

Модель	Параметры	Языки	Минимальные требования
Tiny Aya 3.35B	3.35 млрд	70	8 ГБ VRAM
Gemma 3 270M	270 млн	~20	2 ГБ RAM
Granite 4.0 Nano	350 млн	~15	Edge-устройства

С кем воюет Tiny Aya на рынке микро-моделей?

В 2026 году маленькие LLM - это отдельная вселенная. Вот главные конкуренты:

Gemma 3 270M от Google - легче (в 12 раз!), но языков меньше. Идеальна для IoT, как в нашем обзоре Gemma 3. Tiny Aya выигрывает в мультиязычности, но требует больше ресурсов.

Granite 4.0 Nano 350M от IBM - тоже edge-ориентированная модель, но с фокусом на код. Мы тестировали ее в статье про Granite 4.0. Разные задачи - разные инструменты.

Falcon-H1-Tiny (90M) - вообще микроскопическая модель, которая, как мы писали, работает на чем угодно, даже на холодильнике. Но 90 миллионов параметров против 3.35 миллиардов - это как сравнивать велосипед с грузовиком.

Еще есть MiniCPM-o-4.5 с 9 миллиардами параметров - мощнее, но и тяжелее. И китайские модели вроде Nanbeige, которые мы разбирали в сравнении 3B и 30B версий.

Главное преимущество Tiny Aya - баланс. Не такая тяжелая, как 13B модели, но с серьезной мультиязычной подготовкой. Для 70 языков 3.35B параметров - это очень плотная упаковка.

Запускаем на ноутбуке: инструкция без воды

Теория - это хорошо, но давайте запустим эту штуку. Есть три основных способа:

1 LM Studio (для тех, кто не любит терминал)

Самый простой вариант. Качаем LM Studio с официального сайта (на февраль 2026 года актуальна версия 0.3.9).

В поиске моделей вбиваем "Tiny Aya" - появится несколько вариантов квантования. Берем Q4_K_M - оптимальный баланс качества и скорости.

Загружаем, выбираем в интерфейсе, начинаем чат. Все. Никакого кода.

2 Ollama (для любителей командной строки)

Если установлен Ollama (а в 2026 году он есть у всех, кто работает с локальными моделями):

ollama run cohere/tiny-aya:3.35b-q4_K_M

Или если хотите конкретную версию:

ollama pull cohere/tiny-aya:3.35b-q4_K_M

Модель скачается и запустится. Можно общаться через терминал или через веб-интерфейс Ollama (обычно localhost:11434).

3 Прямой запуск через llama.cpp (для мазохистов)

Качаем GGUF файл с Hugging Face (ищите "Tiny Aya 3.35B GGUF"). На февраль 2026 самые популярные репозитории - от TheBloke и bartowski.

Скачиваем llama.cpp (актуальная версия на 2026 - ветка master с поддержкой ARMv9, о которой мы писали в гайде по Orange Pi 6 Plus).

# Компилируем (если нужно)
make -j8

# Запускаем
./main -m tiny-aya-3.35b.Q4_K_M.gguf -p "Переведи на французский: Привет, как дела?" -n 50

Это для чистого C++. Есть Python-обертки вроде llama-cpp-python, но в 2026 году все перешли на более современные решения.

На ноутбуке с RTX 4060 (8 ГБ) Tiny Aya в Q4_K_M выдает 15-20 токенов в секунду. Вполне сносно для диалога. На интегрированной графике - 2-3 токена. Медленно, но работает.

Чем кормить модель: примеры промптов

Tiny Aya обучена на инструкциях, так что понимает сложные запросы. Но есть нюансы.

Перевод между редкими языками:

"Переведи с суахили на украинский: 'Habari yako? Nzuri sana, asante.'"

Модель справляется с такими комбинациями, которые в Google Translate выглядят как абсурд.

Мультиязычный анализ тональности:

"Проанализируй тональность этих текстов. Ответ дай на русском. 1. [текст на испанском] 2. [текст на арабском] 3. [текст на хинди]"

Генерация контента для разных рынков:

"Напиши короткое описание продукта (умные часы) для: - Французской аудитории (формальный стиль) - Бразильской аудитории (неформальный, дружеский) - Японской аудитории (технические детали)"

Не ждите от 3.35B модели чудес в reasoning. Сложные цепочки рассуждений, многоэтапная логика - это не ее сильная сторона. Зато с языками она работает как швейцарский нож.

Кому это реально нужно? (Спойлер: не всем)

Берите Tiny Aya, если:

Делаете приложение с поддержкой 10+ языков и не хотите платить за кучу API
Работаете с данными на редких языках (африканские, азиатские диалекты)
Нужен локальный переводчик для sensitive данных (медицина, юриспруденция)
Экспериментируете с мультиязычными агентами, как в наших статьях про естественный диалог на обычном железе

Не берите, если:

Работаете только с английским/русским - есть более эффективные monolingual модели
Нужна максимальная скорость на edge-устройствах - смотрите в сторону Falcon-H1-Tiny
Требуется state-of-the-art качество - берите большие модели через API
Ноутбук слабее Core i5 10-го поколения без дискретной графики

Что будет дальше? (Мое предсказание)

К концу 2026 года мы увидим два тренда:

1. Специализированные микро-модели для конкретных языковых пар. Зачем тащить 70 языков, если нужны только русский-китайский? Будут модели на 1-2 миллиарда параметров, но сверхточные для узких задач.

2. Аппаратное ускорение прямо в процессорах. Intel и AMD уже анонсировали NPU с поддержкой 3-4 миллиардов параметров. Запускать Tiny Aya будет можно на любом новом ноутбуке без видеокарты.

А пока - качайте GGUF файл, запускайте через Ollama и тестируйте на своих данных. Только не просите переводить с клингонского на эльфийский. Пока.

Tiny Aya: 70 языков в кармане. Запускаем 3.35B модель на ноутбуке без H100