Гонка вооружений: два лагеря
Апрель 2026 года перегрел рынок AI до состояния ядерного реактора. С одной стороны — DeepSeek V4, китайский монстр с открытым весом на 1.6 триллиона параметров, который обещает "мышление сеньора" и работу на домашнем железе. С другой — Claude Opus 4.6 от Anthropic, который до недавнего времени был золотым стандартом для сложных задач. Но появился и Opus 4.7 с регрессиями, что добавило масла в огонь.
Я прогнал обе модели через десятки тестов — от "напиши мне API на Python" до "объясни квантовую запутанность таксисту". Результаты неоднозначные, и дешёвый китайский восторг здесь не пройдёт.
Дисклеймер: DeepSeek V4 тестировался в версии Pro (API DeepSeek) и локально через ollama с квантизацией Q4_K_M. Opus 4.6 — через официальный API Anthropic. Все бенчмарки взяты из независимых источников на 30.04.2026.
Цифры не врут? Ещё как врут
Посмотрим на сухие метрики, но с одним глазом на реальный контекст. Большинство бенчмарков заточены под английский язык и синтетические задачи. Наши русскоязычные реалии — отдельная песня, которую мы уже разобрали с Sonnet 4.6.
| Бенчмарк | DeepSeek V4 Pro | Opus 4.6 | Комментарий |
|---|---|---|---|
| MMLU (5-shot) | 91.2% | 90.8% | Практически ничья, разница в пределах погрешности |
| HumanEval (Pass@1) | 87.6% | 86.1% | DeepSeek чуть лучше в генерации кода с первого раза |
| GSM-8K (Math) | 95.3% | 95.8% | Opus 4.6 увереннее в математике |
| HellaSwag | 92.0% | 91.4% | Оба понимают бытовые рассуждения на твёрдую пятёрку |
| LiveCodeBench (сложные задачи) | 78.3% | 76.9% | DeepSeek выигрывает за счёт тренировки на реальных репозиториях GitHub |
На бумаге DeepSeek V4 выглядит чуть сильнее в коде и знании мира, но уступает в математике. Однако дьявол — в деталях применения. Синтетические тесты вроде MMLU всё чаще критикуют за "заучивание" — модели запоминают ответы из интернета, а не понимают суть.
Кодинг: где DeepSeek V4 обходит Opus, а где спотыкается
DeepSeek V4 реально хорош в написании кода с нуля. Я попросил обе модели реализовать сложный алгоритм сжатия с контекстным моделированием — DeepSeek выдал рабочий прототип за 12 секунд, Opus 4.6 — за 18 секунд, но с более читаемой документацией.
Главная фишка DeepSeek V4 — его архитектура MoE с 1.6 трлн параметров, из которых активны только 37 млрд на каждом токене. Это даёт скорость, сопоставимую с Opus, но при локальном запуске через ollama квантизованная версия работает даже на 24 ГБ видеопамяти.
Но есть нюанс: DeepSeek V4 хуже держит длинный контекст. При работе с файлом >10 000 строк он начинает "забывать" сигнатуры функций и генерировать вызовы несуществующих методов. Opus 4.6 справляется с этим лучше — его контекстное окно в 200K токенов работает предсказуемо, тогда как у DeepSeek при превышении 128K качество падает экспоненциально.
Креатив и аналитика: где Opus 4.6 остаётся королём
Здесь DeepSeek V4 проигрывает. Я попросил написать убедительную речь для презентации стартапа и критический разбор статьи по философии сознания. Opus 4.6 выдал тексты с живыми метафорами, структурой и стилистическими нюансами. DeepSeek — сухо, фактологично, без души.
Anthropic вложили огромные ресурсы в alignment и стиль. Opus 4.6 (а также его младшие братья, которых мы сравнивали с Sonnet 4.6) явно учили на качественной литературе и экспертных текстах. DeepSeek V4 — продукт инженерной школы: эффективность любой ценой, но эстетика страдает.
| Сценарий | Победитель | Почему |
|---|---|---|
| Генерация маркетинговых текстов | Opus 4.6 | Богатый язык, чувство тона |
| Техническая документация | DeepSeek V4 | Точность, следования спецификации |
| Анализ данных с выводами | Opus 4.6 | Глубина рассуждений, цепь умозаключений |
| Рефакторинг кода | DeepSeek V4 | Быстро находит и исправляет баги |
Цена вопроса: когда дешевизна перевешивает
API DeepSeek V4 Pro стоит $0.25 за миллион входных токенов и $0.80 за выходные. Opus 4.6 — $15 и $75 соответственно (пропорция 1:60!). Для продакшна с высоким трафиком разница катастрофическая. Но если вы пишете раз в неделю посты в блог — платить $0.80 вместо $75 за один сгенерированный текст не так заметно.
Локальный запуск DeepSeek V4 — ещё один козырь. Ранее мы тестировали V3.2 на ноутбуке, V4 требует уже 24–32 ГБ VRAM, но это всё равно дешевле, чем аренда GPU у облачных провайдеров. Opus локально не запустишь — только через API.
Предупреждение: Не все бенчмарки одинаково полезны. Утечки бенчмарков DeepSeek V4 показали, что некоторые тесты были завышены за счёт утечки данных. Относитесь к цифрам скептически — проверяйте на своих задачах.
Кому точно стоит переходить, а кому — нет
- Инди-разработчик с бюджетом до $100/мес — однозначно DeepSeek V4. Opus просто разорит.
- Студия контента — оставайтесь на Opus 4.6 или попробуйте Qwen 3.6 Plus как более креативную альтернативу.
- Юридические и медицинские консультации — Opus 4.6 безопаснее, меньше галлюцинаций на фактах.
- Тяжелый data science — DeepSeek V4 для предобработки и генерации кода, Opus для финальных отчётов.
Кстати, не забывайте про постоянные обновления Anthropic. Opus 4.7 принёс регрессии, но и новые возможности. Возможно, через месяц картина изменится.
И всё-таки: стоит ли переходить?
Мой личный вывод после месяца тестов: DeepSeek V4 — отличная рабочая лошадка для кода, аналитики и автоматизации, где цена имеет значение. Но он не заменяет Opus 4.6 в задачах, где нужен глубокий аналитический синтез, креатив и безопасность.
Если у вас бюджет позволяет держать оба API — используйте DeepSeek для черновиков и черновой обработки, а Opus для финального полива. Если нет — выбирайте по приоритету: код и скорость — DeepSeek, смысл и стиль — Opus.
И помните: ни один бенчмарк не скажет вам, как модель поведёт себя на ваших уникальных данных. Только собственные тесты. А они, как показывает наше сравнение с GPT-5, всегда преподносят сюрпризы.