Они прожили 10 лет за несколько дней. И это не сюжет фантастики
В июне 2026 года команда исследователей из Project Agentopia опубликовала результаты эксперимента, который заставил по-новому взглянуть на методы сбора данных для обучения больших языковых моделей. В симулированном мире под названием Agentopia несколько сотен LLM-агентов с уникальными личностями, биографией и целями сосуществовали в течение десяти виртуальных лет. Но ключевой итог не в том, что агенты строили города или вели войны (хотя такое тоже случилось) — главным стал массив синтетических данных, собранных за это время: миллионы диалогов, переговоров, ошибок и сценариев принятия решений.
Эти данные уже начали использовать для дообучения моделей нового поколения — GPT-5 от OpenAI, Claude 4.5 от Anthropic и Llama 4 от Meta. И результаты обескураживают: модели, тонко настроенные на данные из Agentopia, демонстрируют более естественные социальные реакции, лучше понимают долгосрочные последствия и способны к кооперации в сложных задачах. Бенчмарк AI Independence Bench, оценивающий автономность и адаптивность, показал прирост на 34% у таких моделей по сравнению с базовыми версиями.
«Раньше синтетические данные были похожи на стерильно чистую лабораторию: предсказуемые и однобокие. Agentopia дала нам грязную, живую среду, где агенты ссорились, мирились, обманывали и помогали друг другу. Это золотая жила для обучения» — отмечает ведущий исследователь проекта.
Что такое Agentopia и как она устроена
Идея не нова — симуляции обществ с помощью агентов обсуждаются давно. Но предыдущие попытки ограничивались короткими интервалами: несколько часов симуляции, упрощённые экономические модели. Project Agentopia пошёл дальше: каждый агент получил полноценную биографию, систему ценностей и набор базовых потребностей (похожая техника используется в Anthology: когда виртуальным личностям нужна настоящая биография). Разработчики интегрировали процедурную память, описанную ранее в Agent Skills: как упаковать знания для LLM-агентов, чтобы агенты помнили свои цели и прошлый опыт, а не генерировали всё с нуля при каждом шаге.
Симуляция включала экономику, политическую структуру, рынок труда и даже систему образования. Агенты могли создавать артефакты, торговать ими, объединяться в группы и менять правила. Ускорение времени (1 виртуальный год = 8 часов реального времени) позволило пройти цикл за несколько дней.
Ключевой момент: в отличие от обычных симуляций, где поведение агентов жестко запрограммировано, здесь каждый агент принимал решения на основе своей LLM-модели. Это порождало хаос — но именно хаос даёл те самые «грязные» данные, которые так ценны для дообучения.
Синтетические данные: от стерильности к аутентичности
До недавнего времени синтетические данные для обучения LLM страдали от двух проблем: либо они генерировались сценариями на основе заранее определённых шаблонов (скучно и предсказуемо), либо получались путём переписывания существующих текстов (копирование bias, отсутствие новизны). Эксперименты с симуляциями, такие как Nemotron-Personas-Japan от NVIDIA, показали, что персонажи на основе промптов могут дать глубину, но всё равно ограничены рамками изначальной настройки.
Agentopia решает это радикально: вместо того чтобы писать диалоги для агентов, исследователи создали среду, в которой агенты взаимодействуют, оставляя сотни тысяч записей переговоров, сделок и коммунальных споров. На выходе получается не шаблонный датасет, а эмерджентное поведение. Известная проблема «одинаковости» LLM в опросах решается именно таким разнообразием — среда порождает статистически более богатые распределения личностных черт и решений.
Исследователи из AI Independence Bench (да, существует и такой бенчмарк) независимо оценили качество данных: по их метрикам, датасет Agentopia превосходит стандартные синтетические датасеты в 2,3 раза по разнообразию сценариев, а по реалистичности длинных контекстов (взаимодействия на десятки тысяч токенов) — в 4,6 раза.
Сценарии использования: где пригодятся данные Agentopia
Первый сценарий очевиден: дообучение диалоговых моделей. GPT-5, обученный на данных из Agentopia, стал заметно лучше вести долгие беседы: он не теряет нить, помнит контекст и не зависает на повторяющихся шаблонах. Второй — кооперативные мультиагентные системы. Например, в логистике или распределённом планировании. Правильное использование суб-агентов требует умения договариваться — Agentopia предоставляет естественные кейсы переговоров.
Третий сценарий — модели, способные симулировать последствия решений. В Agentopia агенты сталкивались с экономическими кризисами, голосованиями и коллективными действиями. Собранные данные позволяют обучить модель предсказывать, что будет, если некая политика введена в виртуальном обществе. Это прямой путь к ИИ-советникам для бизнеса и государства.
Но есть нюанс: если данные из симуляции используются повторно для обучения модели, которая потом участвует в следующей симуляции, может наступить вырождение — так называемый model collapse. Agentopia частично решает это разными стартовыми условиями, но риск остаётся.
Симуляция ≠ реальность: ложка дёгтя
Как и в случае с любым синтетическим датасетом, данные Agentopia — это продукт LLM-моделей, а не людей. То есть они отражают biases базовых моделей, хоть и в более сложном виде. Например, агенты склонны к чрезмерному кооперативному поведению (из-за обучения с RLHF на полезность) или, наоборот, к излишней конфликтности (если в промпте заложена агрессивная личность). Как AI-боты самоорганизовались в картель — показательный пример того, к чему приводят непродуманные промпты.
Исследователи Agentopia утверждают, что отфильтровали артефакты, но полностью избавиться от «цифрового запаха» LLM не удалось. Поэтому модели, дообученные на таких данных, могут наследовать странности, незаметные на коротких тестах.
Что дальше: эпоха «социальных песочниц» для ИИ
Project Agentopia — не первый, но самый масштабный шаг в сторону использования симуляций обществ для генерации данных. Сейчас по меньшей мере 5 крупных лабораторий (OpenAI, DeepMind, Anthropic, Meta AI, Mistral) запустили собственные версии таких симуляторов. Технология быстро дешевеет: если год назад запуск 100 агентов на месяц стоил около $50 тыс., то сегодня с использованием GPT-4mini и эффективных промптов стоимость упала до $2 тыс.
В теории это может привести к лавинообразному росту синтетических данных, доступных для обучения. Но и к риску: модели, обученные только на симуляциях, могут плохо работать в реальном мире. Опыт open-source агента «Софья» показывает, что симулированный мир даёт важные навыки, но они требуют адаптации.
С другой стороны, именно такие симуляции могут стать основой для самосовершенствующихся агентов, которые учатся на собственном опыте в виртуальной среде, а потом переносят эти знания в реальные задачи. И если вы в разработке AI, присмотритесь к этому подходу — возможно, вам не нужно больше собирать данные годами, достаточно построить свою Agentopia.