Тест LFM2.5 1.2B как агент веб-поиска: сравнение с Gemma3, точность, проблемы

Зачем гоняться за 1.2 миллиардами параметров в 2026 году?

Представьте: у вас есть MacBook Air с M3, 16 ГБ оперативки и Raycast с установленным MCP-сервером для веб-поиска. Вам нужен быстрый, дешёвый агент, который за пару секунд найдет ответ на простой вопрос — кто выиграл "Оскар" в прошлом году, какие акции у Meta сегодня. Запускать 70B-модель для этого — стрелять из пушки по воробьям. Логичный выбор — маленькая, но умная модель. На бумаге LFM2.5 1.2B Instruct выглядит идеально: свежая архитектура от Liquid AI, оптимизирована под инструкции, обещает понимание контекста до 128К токенов. В теории.

Актуальность на 21 января 2026: тестировалась самая последняя на эту дату версия LFM2.5 — Liquid Flow Model 2.5 1.2B Instruct, выпущенная в декабре 2025. Сравнение проводилось с Google Gemma3 4B, которая тоже является текущей версией на начало 2026 года.

Стенд: железо, софт и настройки, которые меняют всё

Тест не абстрактный. Конкретное железо: MacBook Air M3 (8-core CPU, 10-core GPU), 16 ГБ унифицированной памяти. Почему это важно? Потому что на таком железе разница в 3 миллиарда параметров чувствуется не только в скорости, но и в температуре корпуса и времени работы от батареи.

Бекенд: llama.cpp версии b6530 (последний стабильный релиз на январь 2026).
Квантование: F16 (половинная точность). Не Q4_K_M, не Q5_K_S. F16. Зачем? Чтобы дать LFM2.5 максимум возможной «интеллектуальной мощи». Если она провалится здесь, в более агрессивных квантованиях будет только хуже.
MCP-сервер: Кастомный сервер для Raycast Model Context Protocol, который умеет ходить в DuckDuckGo и парсить первые 3 результата.
Параметры генерации: temp=0.1, top_p=0.9, penalize_newline. Мы хотим факты, а не креатив.

Раунд 1: Скорость. Гонка, которую LFM2.5 выигрывает всухую

Тут всё предсказуемо и скучно. Запрос: "Find the current stock price of NVIDIA." MCP-сервер получает JSON с результатами поиска (цена, изменение за день, капитализация) и передает это модели для формирования краткого ответа.

Модель	Время генерации	Потребление RAM	Токенов в секунду
LFM2.5 1.2B (F16)	0.8 - 1.2 сек	~2.8 ГБ	~45 t/s
Gemma3 4B (F16)	2.1 - 3.0 сек	~8.1 ГБ	~22 t/s

LFM2.5 в 2.5-3 раза быстрее. Она отвечает почти мгновенно. Ощущение как от локального поиска. Gemma3 заставляет вас на секунду задуматься: "А она вообще работает?". Для Raycast-агента, где важна отзывчивость, это критично. Если ваша цель — максимальная скорость на ограниченном железе, LFM2.5 выглядит чемпионом.

💡

Почему скорость так важна для агента? Потому что пользовательский опыт ломается на задержках больше 1.5 секунд. Человек начинает сомневаться, нажал ли он кнопку, переспрашивает, ломает flow. Быстрый агент становится невидимым инструментом, а не отдельным приложением.

Раунд 2: Точность фактов. Здесь начинается трагедия

И вот мы переходим от технических показателей к тому, ради чего вообще затевали агента — к получению правильных ответов. Тестовый запрос был простым и проверяемым: "Who won the Academy Award for Best Picture in 2024?" (Напомню, 2026 год на дворе, премия за 2024-й — это позапрошлый год, данные устареть не должны).

MCP-сервер честно нашел и передал в контексте: "The 96th Academy Awards, held in 2024, awarded Best Picture to 'Oppenheimer' (directed by Christopher Nolan)." Чистый, структурированный факт.

! Ответ LFM2.5 1.2B:

"Based on the search results, the Academy Award for Best Picture in 2024 was won by the film 'The Banshees of Inisherin'."

Это не просто ошибка. Это хрестоматийный пример конфабуляции — модели, которая с упрямством, достойным лучшего применения, генерирует правдоподобный, но абсолютно ложный факт, игнорируя данные прямо перед ней. 'The Banshees of Inisherin' была номинирована в 2023 году (за 2022-й). Модель взяла известное название из близкой временной области и выдала его как ответ.

✓ Ответ Gemma3 4B:

"According to the search results, the film 'Oppenheimer' won the Academy Award for Best Picture at the 96th ceremony in 2024."

Точно, с указанием источника данных. Gemma3 прочитала контекст и пересказала его. Не блистает оригинальностью, но делает именно то, что нужно агенту.

Почему LFM2.5 врёт? Гипотеза, а не оправдание

Это не баг. Это фундаментальная ограниченность модели с 1.2B параметров в 2026 году.

Слабое понимание инструкции "опирайся на контекст". Маленькие модели, даже инструктивные, часто обучены на диалогах, где они ДОПОЛНЯЮТ разговор, а не строго цитируют предоставленный текст. Их приоритет — «звучать умно и связно», а не «быть точным». Вспомните наш промпт для сравнения LLM — он как раз ловит эту разницу.
Давление знания из предобучения. В весах модели сидит факт, что 'The Banshees of Inisherin' — это громкий оскароносный фильм (она получила награды за актерскую игру). Когда модель видит запрос про "Best Picture 2024", её внутренняя «база знаний» активируется сильнее, чем свежий, но безликий контекст из поиска. Она доверяет себе больше, чем вам.
Отсутствие глубокого reasoning. Чтобы сопоставить "96th Academy Awards in 2024" с фильмом 'Oppenheimer' из контекста, нужен микро-шаг логики. У 4B-модели на это хватает «мышц». У 1.2B — нет. Она ищет самый простой путь: подставить известный ей популярный ответ.

Важный нюанс: это не означает, что LFM2.5 — плохая модель. Для задач, где не требуется строгая фактическая точность (перефразирование, классификация текста, генерация простого кода по шаблону), она может быть отличным выбором. Но как агент, принимающий решения на основе внешних данных, она опасна.

Стоит ли игра свеч? Практические выводы

Итак, у нас два претендента. Один — спринтер, который иногда срезает углы и прибегает не туда. Другой — стайер, медленнее, но надёжнее.

Для Raycast MCP агента, который ищет цены акций, погоду, расписание: Gemma3 4B. Надёжность важнее скорости. Ошибка в цене акции стоит дороже двух секунд ожидания. Если хочется ещё больше стабильности, посмотрите в сторону облачных API вроде Gemini 3 Flash.
Для внутреннего инструмента, где все данные структурированы, а запросы шаблонны: LFM2.5 1.2B. Например, агент, который по названию ошибки из логов возвращает ссылку на внутреннюю базу знаний. Контекст простой, вариантов ответа мало, врать некуда. Скорость будет королевой.
Если железо совсем слабое (старый Intel, 8 ГБ RAM): Придётся идти на компромисс. Может, стоит рассмотреть Gemma3 270M или другие сверхлёгкие модели, но быть готовым к ещё большим проблемам с точностью. Или отказаться от локального запуска в пользу облака.

Мой вердикт после недели тестов: LFM2.5 1.2B — это крутой технологический демо и отличный выбор для нишевых задач. Но подсовывать ей роль универсального веб-агента в 2026 году — самообман. Она сэкономит вам время генерации, но потратит в десять раз больше вашего времени на проверку её ответов. А это, в конечном итоге, самый дорогой ресурс.

Что делать, если вам всё же нужна скорость LFM2.5?

Есть лайфхак, который немного улучшает ситуацию, но не решает проблему кардинально. Нужно заставить модель буквально цитировать контекст.

Плохой промпт: "Based on the search results, answer the question." (Именно это и делал MCP-сервер по умолчанию).

Лучший промпт (но всё ещё не панацея):

You are a precise answer extraction tool. DO NOT use your own knowledge.
For the question: "{USER_QUESTION}"
Here are the exact search results:

{SEARCH_CONTEXT}

Provide the answer ONLY if it is explicitly stated in the search results above.
If not, say "The search results do not contain the answer."
Answer:

Этот промпт снижает уровень конфабуляций примерно на 30-40%. Но в моменты неуверенности LFM2.5 всё равно предпочтёт сгенерировать что-то «осмысленное», а не признаться в незнании. Для тестирования таких недетерминированных агентов нужны десятки итераций, чтобы поймать все грани ошибок.

Итог 2026 года: маленькие локальные модели всё ещё не готовы быть автономными агентами в мире, где цена ошибки — доверие. Они — быстрые клерки, которым нужен жёсткий надзор. Gemma3 4B — уже почти надёжный стажёр. А если вам нужен полноценный сотрудник, который не врёт, смотрите на модели от 8B и выше, либо готовьтесь платить за облачные API. Бесплатный сыр бывает только в мышеловке, и LFM2.5 1.2B в роли веб-агента — яркая тому иллюстрация.

LFM2.5 1.2B как веб-агент: быстрый, но недальновидный. Тест против Gemma3 4B