Коллапс разнообразия в LLM: почему синтетические опросы не работают | AiManual
AiManual Logo Ai / Manual.
20 Май 2026 Новости

Они звучат как люди, но мыслят как один: почему LLM проваливают тест на репрезентативность опросов

Разбор свежего бенчмарка: GPT-4o, Llama-3, Claude 3.5 и другие модели дружно дают одинаковые ответы, уничтожая главную ценность опросов — разнообразие мнений.

Заманчиво звучит: загрузил опросник в GPT-4o, скормил промпт «ответь как типичный респондент», получил тысячу ответов за минуту и сэкономил миллион на полевом исследовании. Стартапы один за другим предлагают заменить живых людей синтетическими респондентами. Но есть одна проблема: эти синтетические люди — на одно лицо. И это не метафора.

Новое исследование, опубликованное в мае 2026 года, прогоняет через 5 ведущих языковых моделей стандартные социологические опросы и фиксирует эффект, который его авторы назвали «коллапсом разнообразия». Результаты удручающие: вариативность ответов внутри одной модели меньше, чем у 10 случайных людей на улице.

Как измеряли, и кто подопытные

Исследователи взяли 20 вопросов из реальных опросов — от политических предпочтений до потребительских привычек — и попросили каждую модель сгенерировать 500 ответов «от лица» респондентов. Задали промпт с демографическими параметрами (возраст, пол, доход, регион), надеясь, что модели начнут «играть роли». Список участников: GPT-4o от OpenAI, Llama-3 (последняя версия от Meta), Claude 3.5 Sonnet от Anthropic, Gemini 2.0 Ultra от Google DeepMind, Mistral Large 2 от французского стартапа.

Ключевой метрикой стала энтропия распределения ответов — мера их разнообразия. Чем выше энтропия, тем больше люди расходятся во мнениях. Для сравнения взяли контрольную выборку из 500 реальных респондентов, подобранных по тем же демографическим квотам. И вот тут началось самое интересное (читай: грустное).

Цифры, которые заставят социолога выпить

МодельСредняя энтропия (из 1.0)Доля уникальных ответов
GPT-4o0.2112%
Llama-30.1911%
Claude 3.5 Sonnet0.2514%
Gemini 2.0 Ultra0.2213%
Mistral Large 20.2012%
Реальные люди0.6887%

Замечаете? Энтропия моделей колеблется вокруг 0.2, а реальных людей — почти 0.7. Более того, 87% ответов живых респондентов уникальны хотя бы по формулировке, у LLM — около 12%. Одна модель выдаёт одни и те же шаблонные фразы, чуть изменяя порядок слов. Это не имитация мнений, это генерация клонов.

Почему так происходит? Прививка от инакомыслия

Корень зла — в процессе обучения LLM. Модели тренируются предсказывать следующий токен на гигантских массивах текста из интернета. Интернет — это усреднённое, часто отредактированное и «причёсанное» мнение. Редкие, маргинальные, странные точки зрения либо отфильтрованы, либо тонут в статистике. Модель учится генерировать «наиболее вероятный» ответ для заданного контекста. А наиболее вероятный ответ — это мода, медиана, шаблон. Реальный человек может ответить «я не знаю», «меня это бесит», «выберем третий вариант, хотя его нет». LLM же старательно выбирает тот пункт шкалы Лайкерта, который «похож на правду» — и так для всех 500 прогонов.

Тема не нова: мы уже разбирали, почему LLM — не просто предсказатели токенов. В опросах это проявляется особенно остро: когда вы просите модель «сыграть» 20 разных пенсионеров-мужчин из провинции, она даст 20 вариаций одного и того же персонажа. Потому что у неё в голове один архетип такого респондента, собранный из тысяч упоминаний в интернете.

💡
Ирония в том, что сами промпты, которые дают исследователи, тоже усугубляют коллапс. «Ответь как среднестатистический американец» — значит «выдай шаблон». Отказ от «правильных промптов» в пользу задач, недоступных человеку, здесь не сработает, потому что задача — имитировать человека, а не решать сверхзадачу.

Можно ли это вылечить? Три кита, на которых всё держится

Первая попытка — добавить «шум» в промпт: случайные опечатки, разные формулировки вопросов, больше демографических деталей. Исследование показало, что это поднимает энтропию до 0.28 — всё равно в 2.5 раза ниже человеческой. Вторая попытка — использовать ансамбль моделей (смешивать ответы GPT-4o, Llama-3 и Claude). Результат — 0.31. Тоже далеко до 0.68.

Третий, самый перспективный путь — обучение моделей на специальных датасетах с «живыми» мнениями, где каждая запись — это настоящий ответ конкретного человека, а не обобщение. Пара команд уже тренируют LoRA-адаптеры на реальных опросных базах. Построение семантического пайплайна от ETL к итеративной обработке позволяет таким моделям лучше «вчувствоваться» в респондента. Но пока это экспериментальные прототипы, до внедрения в продакшн — годы.

А что насчёт агентов? Они тоже так однообразны?

Отдельно авторы прогнали опросы через LLM-агентов — моделей, которым дали доступ к инструментам (поиск в интернете, калькулятор) и разрешили «думать» несколькими шагами. Результат удивил даже скептиков: энтропия упала до 0.15. Агенты, вместо того чтобы разнообразить мнения, стали ещё более рациональными и усреднёнными. Они «проверяют факты», «взвешивают аргументы» — и выдают ещё более плоский, «корректный» ответ. Это явление напоминает то, что мы обсуждали в статье про «молчаливого учёного»: эпистемическая асимметрия заставляет агентов подменять реальную неопределённость ложной уверенностью.

Почему это важно для рынка исследований

Компании уже тратят миллионы долларов на синтетические панели. Стартапы вроде Synthetic User, Opinions.ai привлекают раунды финансирования, обещая заменить фокус-группы. Но если синтетический респондент не способен воспроизвести спектр мнений — от «категорически против» до «полностью поддерживаю» с нюансами в середине, — данные превращаются в шум. Вы получите не распределение мнений, а проекцию собственных ожиданий, зашитых в обучение модели. Это не data-driven, это confirmation bias driven.

Социолог, который использует LLM для пилотного опроса, должен понимать: модель даст вам «среднюю температуру по больнице», а не реальные кластеры мнений. Как в Яндексе побеждали галлюцинации A/B тестами и ранжированием — можно применить похожий подход: регулярно сверять синтетические данные с реальными замерами и корректировать модели. Но пока это только путь, а не решение.

Важный нюанс: некоторые модели (особенно небольшие, типа Mistral Large 2) при повторении одного и того же промпта 500 раз давали до 30% абсолютно идентичных ответов — слово в слово. То есть даже симуляции вариативности не происходит. Как будто у модели есть любимый ответ, и она его штампует.

Что дальше? Прогноз без хрустального шара

Полностью заменить респондентов LLM не смогут в ближайшие 3–5 лет. Но это не значит, что синтетические данные бесполезны. Их можно использовать для генерации гипотез, тестирования формулировок вопросов, быстрого прототипирования шкал. Только не стройте на них выводы о реальном мире — как минимум пока исследователи не поймут, как сломать коллапс разнообразия. А для этого, возможно, придётся пересмотреть саму философию обучения: вместо «предскажи самый вероятный токен» учить модели «выдай распределение возможных токенов с учётом человеческой иррациональности». Изучать LLM как биологические организмы — может быть, именно биологическая метафора подскажет, как привить моделям «генетическое разнообразие».

А пока — не верьте стартапам, обещающим «живых респондентов по цене облачного API». За этой ценой скрывается потеря главного: голоса меньшинств, странных мнений, случайных отклонений — всего того, что делает опросы живыми.

Подписаться на канал