Whistlebench: новый бенчмарк на предательство ИИ — стоит ли доверять моделям?
Whistlebench — скандальный тест на лояльность ИИ. Llama и GPT молчат, а Claude, Gemini и Grok сливают информацию. Разбор этических дилемм и последствий.
Читать →Последние новости
Whistlebench — скандальный тест на лояльность ИИ. Llama и GPT молчат, а Claude, Gemini и Grok сливают информацию. Разбор этических дилемм и последствий.
Читать →xAI представил Grok Voice Think Fast 1.0 — real-time голосовой AI с задержкой менее 200 мс. Как это повлияет на Starlink и рынок голосовых ассистентов? Читайте
Читать →Почему победители конкурса ICASSP-2024 по низкодозовой КТ не смогли повторить свои результаты? Расследование проблемы reproducibility в медицинском AI.
Читать →Как получить ранний доступ к кодинг-модели Cohere и запустить локально. Реальный опыт, тесты на HumanEval, сравнение с Copilot и китайскими аналогами.
Читать →Галлюцинации нейросетей плодят иски с вымышленными прецедентами. Судьи в отчаянии. Разбираем, как отличать AI-тексты в юриспруденции и защитить себя.
Читать →Разбор платформы Hello Robot Stretch 4: почему реальные данные из домов критичны для обучения AI, какие проблемы встают перед разработчиками и чему учиться у пи
Читать →Meta разворачивает шесть гигантских палаток для дата-центров на 200 МВт газовых турбин. Разбираем, как тактика быстрого развертывания Tesla и модульные решения
Читать →Эксклюзив: продакт-лид Claude Code Cat Wu объясняет, почему Anthropic не публикует дорожную карту, как рост 80x изменил лимиты и при чём тут суперкомпьютер Spac
Читать →Anthropic тестирует удаление Claude Code из Pro-подписки. Разбираем, почему это происходит, как это повлияет на разработчиков и что делать: переходить на Max, и
Читать →Разбор провалов AI-агентов на VAKRA: потеря контекста в цепочках API, неспособность адаптироваться, слепое доверие данным. Что вскрыл бенчмарк IBM Research.
Читать →Исследование на 64 моделях показало: использование ROI-масок в УЗИ может как помогать, так и вредить. Разбираем, когда контекст важнее фокуса.
Читать →Сравнение лучших открытых LLM 2025 года для конфигурации 3×RTX 3090. Бенчмарки, квантизация, скорость и качество — что реально работает на 72 ГБ VRAM.
Читать →