Probably $9M от a16z: решение галлюцинаций LLM через data science mech suit

Сколько вы заплатили за галлюцинацию?

Каждый, кто хоть раз пил GPT-4o или Claude 4 в продакшне, знает это чувство: модель выдает безупречный отчет, но в одной строчке придумывает статистику, которой не существует. Банки теряют миллионы на неверных кредитных скорах. Юристы находят несуществующие прецеденты. Медики назначают лечение на основе вымышленных исследований. Проблема галлюцинаций LLM обошлась рынку примерно в $12 млрд в 2025 году — и это только прямые убытки.

И вот на сцену выходит стартап Probably с громким заявлением: хватит гадать, пора надеть «дата-сайенс мех-костюм» и детерминированно проверять каждую строчку ответа. A16z, которые уже вложили $1.7 млрд в AI-инфраструктуру в 2026 году, дают Probably $9 миллионов seed — и это не просто чек, это сигнал.

Что внутри «мех-костюма»?

Probably не пытается сделать еще одну LLM с RAG-ом или fine-tuning’ом. Их идея грубая, но элегантная: пристегнуть к вероятностному генератору (любой LLM, хоть GPT-5, хоть Claude 4 Opus) детерминированный валидатор, который не гадает, а проверяет.

💡

Валидатор Probably — это набор формальных правил на основе Datalog, которые заточены под конкретную предметную область. Он не смотрит на «смысл», он смотрит на факты: если в базе знаний сказано, что событие X произошло в 2025 году, а LLM написала «2026» — валидатор бьет тревогу и отправляет модель на перегенерацию.

Звучит как магия, но на деле — чистый data science в стиле mech suit. Разработчик может «надеть» готовую оболочку для финансов (проверка транзакций, регуляторная отчетность), юриспруденции (ссылки на кодексы и прецеденты) или медицины (контроль дозировок и противопоказаний). Интеграция — через API: отправляешь запрос к LLM, получаешь ответ + confidence score от валидатора. Если скоринг ниже порога — ответ пересобирается.

Почему a16z, а не Google Ventures?

Тут интересно. Google Ventures год назад вложили $180 млн в «машущие крыльями самолеты» — стартапы, которые ломали догмы ИИ, но риск на грани. Probably же идет от обратного: не ломать, а приручить хаос LLM через жесткую детерминированную рамку. И это нравится a16z, которые сейчас делают ставку на прагматичный AI — инструменты, которые работают здесь и сейчас, а не обещают AGI через 10 лет.

Кстати, это пересекается с трендом, который описал венчурный аналитик a16z Jennifer Li: инфраструктура для корпоративного ИИ должна включать слои валидации, иначе enterprise никогда не подпустит LLM к деньгам. Probably попадает в эту нишу идеально.

Галлюцинации — симптом, а не болезнь

Большинство компаний бросаются лечить симптомы: Harvey поглощает Hexus, чтобы закрыть юридические кейсы, Higgsfield строит генерацию видео без AI slop. Но Probably считает, что корень зла — сама парадигма «спроси нейросеть — получи текст». Даже с RAG модель может переврать факты, если контекст большой. Валидатор же не читает, а считает. Он сводит функцию потерь не к перплексии, а к числу битых фактов.

Осторожно: валидатор Probably пока работает только для структурированных доменов (финансы, юриспруденция, медицина, логистика). Для креативного письма или генерации кода — бесполезен. Но $9M от a16z хватит, чтобы расширить это список на еще 10 вертикалей к концу года.

Конкуренты спят или уже пристегнулись?

Прямых аналогов на рынке нет. Есть vLLM с $150 млн — они оптимизируют инференс, но не лечат галлюцинации. Есть стартапы, использующие chain-of-thought с самопроверкой — но это все внутри той же вероятностной модели. Probably предлагает внешний контур, который не зависит от силы LLM.

Показательно, что a16z уже знакомы с проблемой: в их портфеле есть инструменты для верификации данных (например, David Silver строит ИИ без человеческих данных, но там другая философия). Probably закрывает дыру для корпоративного сектора, где «почти правда» равносильна лжи.

Что будет, когда «мех-костюм» станет стандартом?

Прогноз неочевидный. Если Probably добьется своего, мы перестанем доверять LLM без «сертификата детерминированности». Каждая коммерческая модель будет обязана пройти валидацию от Probably или аналогов. Ирония в том, что галлюцинации не исчезнут — их просто перестанут замечать, потому что валидатор будет отсекать опасные ошибки до выдачи. В мире AI это будет как пройти тест Тьюринга: никто не знает, думает ли машина, но если она ошибается — ее посадят на поводок.

a16z сделали ставку на то, что поводок в ближайшие два года станет обязательным аксессуаром для LLM в enterprise. И $9M — это стоимость права надеть мех-костюм раньше всех.

Подписаться на канал

«Мех-костюм» для LLM: стартап Probably получает $9M от a16z и обещает убить галлюцинации