Формальная верификация LLM: Pramaana Labs и Khosla Ventures против галлюцинаций

Enterprise-клиенты всё чаще упираются в одну и ту же стену: LLM уверенно несёт чушь, а эксперты тратят часы на проверку. Проблема не в том, что модель врет — она делает это с пугающей убедительностью. Pramaana Labs, стартап с амбициозным названием, только что получил чек от Khosla Ventures на внедрение формальной верификации. Идея звучит как оксюморон: заставить вероятностную машину выдавать доказательства с математической гарантией.

Формальная верификация — это способ проверить утверждение модели на соответствие заданным правилам, используя теоремы и логический вывод. Если LLM говорит, что 1+1=3, верификатор это не пропустит.

От вероятности к доказательству: как Pramaana Labs натягивает сову на глобус

Основатели Pramaana Labs — выходцы из академической среды, где формальные методы применяют к верификации чипов и протоколов. Они решили: а почему бы не натянуть эту сбрую на LLM? Архитектура гибридная: LLM генерирует черновик ответа, а детерминированный слой из формальных доказательств (на базе SMT-решателей и интерактивных proof assistants) проверяет, можно ли этот ответ вывести из фактов.

Если ответ не проходит проверку — модель дообучается на этом примере, получая отрицательный сигнал. Звучит логично, но есть нюанс: формальные методы работают только для строго определённых доменов. Для юридических и налоговых сфер — идеально. Для поэзии — увы.

Система уже протестирована на налоговых расчётах США и медицинских дозировках. В экспериментах частота галлюцинаций упала с 22% до 0.8%. Цена — время: каждый запрос проходит через SMT-решатель, что увеличивает задержку в 3-5 раз. Но для банковского compliance это приемлемо.

Почему Khosla Ventures поставила на формальную верификацию, а не на RAG

Рынок устал от полумер. RAG-системы (Retrieval Augmented Generation) неплохо справляются, но не дают гарантий. Стартап Probably с похожей идеей получил $9M от a16z, но их подход — статистическая обвязка, а не формальная логика. Pramaana Labs идёт дальше: они накладывают математическую решётку на каждый токен.

Инвестиции Khosla Ventures — не первый случай, когда венчурные капиталисты верят в формальные методы. Ранее мы писали про AWS Automated Reasoning, где Amazon применяет похожий подход для своих AI-сервисов. Но Pramaana Labs обещает сделать это доступным для среднего бизнеса.

Но есть подвох

Формальная верификация требует формализованных правил. Если налоговая система меняется каждый квартал — нужно каждый раз переписывать аксиомы. Pramaana Labs автоматизировала этот процесс через LLM: модель сама предлагает аксиомы на основе новых документов, а человек утверждает. Как в Lexometrica Ground Truth — ground truth задаётся экспертами, но тут он зашит в математический код.

И всё же, критики говорят о «ложном чувстве безопасности». Верификатор проверяет только то, что вписано в аксиомы. Если аксиома кривая — вывод будет кривым, но математически верным. Метрики вроде внутреннего векторного расстояния остаются актуальными как дополнительный фильтр.

Кому это реально нужно (а кому нет)

Скорее всего, Pramaana Labs найдёт первых клиентов среди аудиторских и юридических фирм. CausaNova тоже пытается заставить LLM врать с доказательствами, но их подход — статистическая каузальность, а не формальная логика. Для медицинской диагностики, где цена ошибки — жизнь, математическая гарантия может стать killer feature.

Хотя есть проблема: формальная верификация не панацея от negation neglect. Если пользователь переспрашивает модель с отрицанием, верификатор не всегда улавливает семантический сдвиг. Здесь нужна лингвистическая доработка.

💡

Показательный пример: Pramaana Labs применила свою систему к задаче расчёта налоговой скидки. Модель должна была выдать числовой ответ с объяснением. В 98% случаев верификатор подтвердил корректность вывода. Оставшиеся 2% — ошибки в исходных аксиомах, которые модель «выучила» из неверной документации.

Что дальше: векторное пространство против формальной логики

Технически подход Pramaana Labs — это гибрид символьного AI и нейросетей. Если посмотреть на тренды: AI для статического анализа кода тоже двигается в сторону формальной верификации. И Amazon, и Probably, и теперь Pramaana Labs — все хотят одно и то же: заменить «вроде правильно» на «доказано».

Вопрос в масштабировании. Пока формальная верификация работает только в узких доменах. Но если стартап сможет автоматически генерировать аксиомы для любого текстового корпуса — это будет прорыв. Именно на это Khosla Ventures и поставила. Хотя, как показывает история, LLM обманывают даже экспертов — и формальная верификация не защищает от когнитивных искажений пользователя.

Лично я ставлю на то, что через два года каждый второй enterprise AI будет содержать слой формальной верификации. Не потому что это модно, а потому что суды начинают принимать AI-генерацию как улику. Тогда цена галлюцинации — не репутация, а уголовное дело. И математика окажется единственным адвокатом, которому можно верить.

Подписаться на канал

Математическая дубинка против галлюцинаций: Pramaana Labs получила деньги от Khosla Ventures на верификацию LLM

От вероятности к доказательству: как Pramaana Labs натягивает сову на глобус

Почему Khosla Ventures поставила на формальную верификацию, а не на RAG

Но есть подвох

Кому это реально нужно (а кому нет)

Что дальше: векторное пространство против формальной логики

Подписывайтесь на наш канал!