Тренды EMNLP 2025: LLM-агенты, мультимодальность и бенчмарки перевода

LLM-агенты перестали быть лабораторными зверьками

Если в 2024 году агенты были милыми игрушками, которые умели заказывать пиццу и иногда забывали про чаевые, то к EMNLP 2025 они превратились в полноценных сотрудников. Причем таких, которые не берут больничный и не спорят с начальством.

Ключевое изменение — переход от одиночных агентов к сложным иерархическим системам. Представьте себе не одного ассистента, а целый отдел из десятков узкоспециализированных моделей. Одна обрабатывает документы, вторая проверяет логику, третья ищет ошибки в коде. И все они общаются между собой через специальные протоколы, которые стали стандартом де-факто в этом году.

Проблема в том, что эти системы становятся слишком сложными для отладки. Когда агент из 50 компонентов выдает странный результат, понять, где именно произошел сбой, — задача для детектива уровня Шерлока Холмса.

На конференции показали работу, где агентская система успешно провела полный аудит безопасности для небольшого стартапа. Без единого человека в процессе. Звучит впечатляюще, пока не узнаешь, что на настройку ушло три недели и команда из пяти инженеров.

Мультимодальность теперь означает "все сразу"

Помните времена, когда мультимодальная модель — это картинка плюс текст? Смешно. В 2025 году под мультимодальностью понимают одновременную работу с текстом, изображениями, видео, аудио, 3D-моделями и даже сенсорными данными.

Новые архитектуры типа LiquidAI LFM 2.5 демонстрируют, что можно обучать одну модель на всем сразу. Не отдельные модули для каждого типа данных, а единое пространство представлений.

💡

Практический совет: если вы тестируете мультимодальные модели, используйте специальные промпты для проверки логики и зрения. Стандартные тесты уже не работают — модели научились их обходить.

Но есть загвоздка. Чем больше модальностей, тем сложнее оценить качество. Как сравнить модель, которая отлично описывает картинки, но плохо переводит аудио в текст? Метрик становится слишком много, и они начинают противоречить друг другу.

Бенчмарки перевода: мы измеряем то, что уже не важно

Вот где начинается настоящий цирк. Все знают, что стандартные бенчмарки вроде BLEU и METEOR для оценки машинного перевода безнадежно устарели. Они измеряют соответствие эталонному переводу, а не качество перевода как таковое.

На EMNLP представили десяток новых метрик. Некоторые выглядят так, будто их придумали после пятого бокала вина. Одна из них учитывает культурные особенности — как будто модель понимает, что такое "культура". Другая пытается измерить сохранение стиля оригинала — отлично, теперь у нас есть числовая оценка того, насколько перевод "похож на Хемингуэя".

Метрика	Что измеряет	Проблема
Cultural-Aware BLEU	Учет культурных нюансов	Кто решает, что "правильно" для культуры?
Style Preservation Score	Сохранение авторского стиля	Стиль — субъективное понятие
Contextual Fidelity Index	Верность контексту	Требует огромных вычислительных ресурсов

Парадокс в том, что чем лучше становятся модели перевода, тем бесполезнее становятся автоматические метрики. Когда перевод на 95% идеален, оставшиеся 5% — это именно те нюансы, которые машина измерить не может. Нужен человек. Старомодный, медленный, дорогой человек.

Контекст убивает промпт-инжиниринг

Забудьте про идеальные промпты. На EMNLP 2025 стало ясно — будущее за контекст-инжинирингом. Вместо того чтобы подбирать магические слова для промпта, исследователи теперь встраивают в контекст десятки примеров, мета-описания задач и даже целые "рассуждения вслух".

Это работает лучше? Да. Это требует в 100 раз больше токенов? Тоже да. Экономика таких подходов начинает трещать по швам — когда для решения простой задачи нужно загружать в контекст мегабайты данных, что-то явно не так.

Особенно интересно выглядит направление "vibe proving" — когда модель оценивает не формальную правильность ответа, а его "ощущение", соответствие неявным ожиданиям. Звучит как эзотерика, но на практике показывает хорошие результаты для творческих задач.

Open-source инструменты: война за производительность

Если в 2024 году главным было количество моделей в репозитории, то в 2025 — скорость их работы на обычном железе. Лучшие open-source инструменты теперь в первую очередь оптимизированы для развертывания в продакшене, а не для исследовательских экспериментов.

vLLM, TensorRT-LLM, ONNX Runtime — эти фреймворки стали обязательными в любом серьезном проекте. Но у них есть общая проблема: чем лучше они оптимизированы для конкретного железа, тем сложнее переносить решения между разными платформами.

На конференции показали кейс, где миграция с NVIDIA на Habana ускорила инференс в 1.7 раза, но потребовала переписать половину кодовой базы. Выигрыш в производительности против потери гибкости — вечный спор.

Что дальше? 2026 будет годом обратной связи

Главный тренд, который только намечается, но станет основным в следующем году — системы с обратной связью от пользователя в реальном времени. Не оценка по заранее подготовленным тестам, а постоянная адаптация к тому, что работает, а что нет.

Представьте модель перевода, которая учится на исправлениях редактора. Или кодогенератор, который учитывает, какие его предложения программист принимает, а какие отвергает. Это следующий логический шаг после RLHF, но с непрерывным обучением вместо отдельных раундов дообучения.

Проблема с обратной связью — приватность и контроль. Как собирать данные о том, что пользователям нравится, не нарушая GDPR? Как избежать "эхо-камеры", когда модель учится только на подтверждении своих же ошибок?

Что делать прямо сейчас? Не гнаться за каждым новым трендом. Вместо этого выбрать одну-две технологии, которые действительно решают ваши задачи. Агенты хороши для автоматизации рутинных процессов, мультимодальность — для работы с разными типами данных, новые метрики — для академических исследований.

Но самое важное — перестать верить в волшебство. LLM не стали умнее за последний год. Они стали лучше справляться с конкретными задачами благодаря тонкой настройке и огромным вычислительным ресурсам. И это, пожалуй, самый честный вывод с EMNLP 2025.

EMNLP 2025: агенты стали умнее, переводы — бесполезнее, а мы все еще не понимаем, как это работает