LLM-агенты перестали быть лабораторными зверьками
Если в 2024 году агенты были милыми игрушками, которые умели заказывать пиццу и иногда забывали про чаевые, то к EMNLP 2025 они превратились в полноценных сотрудников. Причем таких, которые не берут больничный и не спорят с начальством.
Ключевое изменение — переход от одиночных агентов к сложным иерархическим системам. Представьте себе не одного ассистента, а целый отдел из десятков узкоспециализированных моделей. Одна обрабатывает документы, вторая проверяет логику, третья ищет ошибки в коде. И все они общаются между собой через специальные протоколы, которые стали стандартом де-факто в этом году.
Проблема в том, что эти системы становятся слишком сложными для отладки. Когда агент из 50 компонентов выдает странный результат, понять, где именно произошел сбой, — задача для детектива уровня Шерлока Холмса.
На конференции показали работу, где агентская система успешно провела полный аудит безопасности для небольшого стартапа. Без единого человека в процессе. Звучит впечатляюще, пока не узнаешь, что на настройку ушло три недели и команда из пяти инженеров.
Мультимодальность теперь означает "все сразу"
Помните времена, когда мультимодальная модель — это картинка плюс текст? Смешно. В 2025 году под мультимодальностью понимают одновременную работу с текстом, изображениями, видео, аудио, 3D-моделями и даже сенсорными данными.
Новые архитектуры типа LiquidAI LFM 2.5 демонстрируют, что можно обучать одну модель на всем сразу. Не отдельные модули для каждого типа данных, а единое пространство представлений.
Но есть загвоздка. Чем больше модальностей, тем сложнее оценить качество. Как сравнить модель, которая отлично описывает картинки, но плохо переводит аудио в текст? Метрик становится слишком много, и они начинают противоречить друг другу.
Бенчмарки перевода: мы измеряем то, что уже не важно
Вот где начинается настоящий цирк. Все знают, что стандартные бенчмарки вроде BLEU и METEOR для оценки машинного перевода безнадежно устарели. Они измеряют соответствие эталонному переводу, а не качество перевода как таковое.
На EMNLP представили десяток новых метрик. Некоторые выглядят так, будто их придумали после пятого бокала вина. Одна из них учитывает культурные особенности — как будто модель понимает, что такое "культура". Другая пытается измерить сохранение стиля оригинала — отлично, теперь у нас есть числовая оценка того, насколько перевод "похож на Хемингуэя".
| Метрика | Что измеряет | Проблема |
|---|---|---|
| Cultural-Aware BLEU | Учет культурных нюансов | Кто решает, что "правильно" для культуры? |
| Style Preservation Score | Сохранение авторского стиля | Стиль — субъективное понятие |
| Contextual Fidelity Index | Верность контексту | Требует огромных вычислительных ресурсов |
Парадокс в том, что чем лучше становятся модели перевода, тем бесполезнее становятся автоматические метрики. Когда перевод на 95% идеален, оставшиеся 5% — это именно те нюансы, которые машина измерить не может. Нужен человек. Старомодный, медленный, дорогой человек.
Контекст убивает промпт-инжиниринг
Забудьте про идеальные промпты. На EMNLP 2025 стало ясно — будущее за контекст-инжинирингом. Вместо того чтобы подбирать магические слова для промпта, исследователи теперь встраивают в контекст десятки примеров, мета-описания задач и даже целые "рассуждения вслух".
Это работает лучше? Да. Это требует в 100 раз больше токенов? Тоже да. Экономика таких подходов начинает трещать по швам — когда для решения простой задачи нужно загружать в контекст мегабайты данных, что-то явно не так.
Особенно интересно выглядит направление "vibe proving" — когда модель оценивает не формальную правильность ответа, а его "ощущение", соответствие неявным ожиданиям. Звучит как эзотерика, но на практике показывает хорошие результаты для творческих задач.
Open-source инструменты: война за производительность
Если в 2024 году главным было количество моделей в репозитории, то в 2025 — скорость их работы на обычном железе. Лучшие open-source инструменты теперь в первую очередь оптимизированы для развертывания в продакшене, а не для исследовательских экспериментов.
vLLM, TensorRT-LLM, ONNX Runtime — эти фреймворки стали обязательными в любом серьезном проекте. Но у них есть общая проблема: чем лучше они оптимизированы для конкретного железа, тем сложнее переносить решения между разными платформами.
На конференции показали кейс, где миграция с NVIDIA на Habana ускорила инференс в 1.7 раза, но потребовала переписать половину кодовой базы. Выигрыш в производительности против потери гибкости — вечный спор.
Что дальше? 2026 будет годом обратной связи
Главный тренд, который только намечается, но станет основным в следующем году — системы с обратной связью от пользователя в реальном времени. Не оценка по заранее подготовленным тестам, а постоянная адаптация к тому, что работает, а что нет.
Представьте модель перевода, которая учится на исправлениях редактора. Или кодогенератор, который учитывает, какие его предложения программист принимает, а какие отвергает. Это следующий логический шаг после RLHF, но с непрерывным обучением вместо отдельных раундов дообучения.
Проблема с обратной связью — приватность и контроль. Как собирать данные о том, что пользователям нравится, не нарушая GDPR? Как избежать "эхо-камеры", когда модель учится только на подтверждении своих же ошибок?
Что делать прямо сейчас? Не гнаться за каждым новым трендом. Вместо этого выбрать одну-две технологии, которые действительно решают ваши задачи. Агенты хороши для автоматизации рутинных процессов, мультимодальность — для работы с разными типами данных, новые метрики — для академических исследований.
Но самое важное — перестать верить в волшебство. LLM не стали умнее за последний год. Они стали лучше справляться с конкретными задачами благодаря тонкой настройке и огромным вычислительным ресурсам. И это, пожалуй, самый честный вывод с EMNLP 2025.