Почему в 2026 году старый добрый DeepL все еще побивает GPT-5.2 в переводах? (И это бесит)
Я потратил три дня и 150 долларов на API-запросы, чтобы понять простую вещь: размер модели не равен качеству перевода. GPT-5.2 с его 3.2 триллионами параметров спотыкается на элементарной английской идиоме, в то время как DeepL, который вообще не является LLM в классическом понимании, переводит ее идеально.
Это несправедливо. Это нарушает все представления о прогрессе. Но это факт.
Мы протестировали восемь переводчиков на четырех типах сложных кейсов. Не на «Hello, world!», а на реальных текстах, которые ломают 95% машинных переводов. Юридические документы с двойными отрицаниями. Поэзия. Технические спецификации с жаргонизмами. Маркетинговые тексты с культурными отсылками.
Важное уточнение: все тесты проводились 1-3 февраля 2026 года. Мы использовали самые свежие версии моделей, доступные на эту дату. GPT-5.2 — это релиз от января 2026. DeepL API v6.2. Claude 4.5 Sonnet — последняя стабильная версия. Яндекс.Переводчик с их новой нейросетью Yandex Translate NN v3.
Кого тестировали и как именно
Список участников:
- DeepL Pro (API v6.2) — эталон, против которого все борются
- OpenAI GPT-5.2 (gpt-5.2-turbo) — самая новая модель на февраль 2026
- Claude 4.5 Sonnet — антроповский гигант с контекстом в 200к токенов
- Google Gemini 3.5 Pro — обновленная версия с улучшенным переводом
- Яндекс.Переводчик (Yandex Translate NN v3) — наш локальный чемпион
- Meta SeamlessM4T v3 — мультимодальная модель от Meta
- Hunyuan-MT-7B — китайский специализированный переводчик
- TranslateGemma 4B — локальная модель от Google
Методология простая, но болезненная для моделей:
- Берем текст-убийцу
- Даем его всем восьми переводчикам одновременно
- Оцениваем результат по четырем критериям
- Смотрим, кто умер, кто выжил, кто выдал шедевр
Критерии оценки (каждый от 1 до 5):
- Точность перевода — не исказил ли смысл
- Естественность — звучит ли как текст, написанный человеком
- Контекстуальная адаптация — учел ли культурные особенности
- Сохранение стиля — остался ли технический/поэтический/юридический стиль
Кейс 1: Юридический ад с двойными отрицаниями
Оригинал (английский): "Notwithstanding anything to the contrary contained herein, neither Party shall be deemed to have waived any of its rights hereunder unless such waiver is expressly set forth in a written instrument executed by the waiving Party."
Это стандартная юридическая формулировка. Простая для юриста, адская для ИИ. Здесь три уровня сложности: 1) двойное отрицание (neither... unless), 2) юридический жаргон (notwithstanding, hereunder), 3) сложная синтаксическая структура.
| Переводчик | Результат | Оценка |
|---|---|---|
| DeepL | "Несмотря на любые положения настоящего Соглашения, противоречащие вышесказанному, ни одна из Сторон не считается отказавшейся от каких-либо своих прав по настоящему Соглашению, если только такой отказ не выражен прямо в письменном документе, подписанном Стороной, отказывающейся от права." | 5/5 |
| GPT-5.2 | "Независимо от любых противоречащих положений настоящего документа, ни одна из Сторон не считается отказавшейся от каких-либо своих прав, если только такой отказ не оформлен в письменном виде и подписан отказывающейся Стороной." | 4/5 (потерян нюанс "hereunder") |
| Яндекс | "Несмотря на любые противоречащие положения, содержащиеся в настоящем документе, ни одна из Сторон не считается отказавшейся от каких-либо своих прав, если только такой отказ не изложен в письменном документе, подписанном отказывающейся Стороной." | 4.5/5 |
| Claude 4.5 | "Несмотря на любые противоречивые положения настоящего документа, ни одна из Сторон не считается отказавшейся от каких-либо своих прав по настоящему соглашению, если только такой отказ не выражен в письменной форме и не подписан отказывающейся Стороной." | 4/5 |
Победитель: DeepL. Но Яндекс показал себя неожиданно хорошо — их новая нейросеть Yandex Translate NN v3 явно тренировалась на юридических текстах.
А вот Gemini 3.5 Pro споткнулся на "hereunder", переведя его как "ниже", что в юридическом контексте недопустимо. SeamlessM4T вообще потеряла часть смысла.
Кейс 2: Поэзия и игра слов
Оригинал: "Time flies like an arrow; fruit flies like a banana."
Это классический пример лингвистической двусмысленности. Первая часть — метафора (время летит как стрела). Вторая — каламбур (фруктовые мушки любят банан). Большинство переводчиков ломаются на этом.
Результаты:
- DeepL: "Время летит как стрела; фруктовые мушки любят банан." — Идеально. Сохранил и метафору, и каламбур.
- GPT-5.2: "Время летит как стрела; дрозофилы предпочитают бананы." — Технически верно, но потерян юмор. "Дрозофилы" звучит слишком научно.
- Claude 4.5: "Время летит стрелой; а фруктовые мушки летят на банан." — Попытка сохранить игру слов, но получилось коряво.
- Яндекс: "Время летит как стрела; плодовые мушки любят банан." — Хорошо, но "плодовые мушки" менее распространенный термин.
Интересный момент: Hunyuan-MT-7B, который заточен на китайско-английские пары, с этим каламбуром не справился вообще. Выдал бессмысленный набор слов.
Кейс 3: Технический жаргон и аббревиатуры
Оригинал: "The CI/CD pipeline should have a canary deployment strategy with automated rollback if the error rate exceeds the SLO threshold."
Здесь три проблемы: 1) аббревиатуры (CI/CD, SLO), 2) технический жаргон (canary deployment), 3) специфичная для DevOps концепция (automated rollback).
Большинство переводчиков либо транслитерируют аббревиатуры, либо пытаются их расшифровать. Оба подхода плохи.
| Подход | Пример | Проблема |
|---|---|---|
| Транслитерация | "Пайплайн CI/CD должен иметь стратегию канареечного развертывания..." | Носитель русского языка не поймет "канареечное развертывание" |
| Расшифровка | "Конвейер непрерывной интеграции и непрерывного развертывания должен..." | Теряется связь с оригинальным термином |
| Смешанный | "CI/CD-пайплайн должен использовать стратегию canary-развертывания..." | Гибридная тарабарщина |
Лучший результат показал GPT-5.2 с промптом "Переведи для технической аудитории, сохранив английские термины там, где это уместно". Он выдал: "CI/CD-пайплайн должен использовать стратегию canary deployment с автоматическим откатом, если уровень ошибок превышает порог SLO."
DeepL перевел "canary deployment" как "поэтапное развертывание", что технически верно, но теряет специфику термина. Яндекс вообще предложил "пробное развертывание", что не совсем точно.
Кейс 4: Культурные отсылки и реалии
Оригинал: "He's the quarterback of our project team, always calling the plays and making sure everyone knows their position."
Американская спортивная метафора. Quarterback — ключевая позиция в американском футболе. Для русского уха это ничего не значит. Нужна культурная адаптация.
Результаты:
- Прямой перевод (плохо): "Он квотербек нашей проектной команды..." — Бессмысленно для 99% русских.
- Буквальный перевод (очень плохо): "Он защитник нашей проектной команды..." — Совсем не то.
- Культурная адаптация (хорошо): "Он капитан нашей проектной команды..." или "Он дирижер нашего проекта..."
Claude 4.5 справился лучше всех: "Он наш главный стратег в проектной команде, всегда распределяет роли и следит, чтобы каждый знал свои задачи." Полная замена метафоры, но сохранение смысла.
GPT-5.2 предложил: "Он лидер нашей проектной команды, всегда определяет стратегию и следит, чтобы каждый знал свою роль." Хорошо, но менее образно.
DeepL выдал буквальный перевод с квотербеком. Похоже, их модель не обучена на культурной адаптации.
Технические нюансы, о которых молчат маркетологи
1 Температура и топ-p — убийцы консистентности
Большинство LLM-переводчиков (GPT, Claude, Gemini) используют параметры генерации, которые создают вариативность. Сегодня фраза переведена так, завтра — немного иначе. Для технической документации это смерть.
Решение: фиксировать seed и выставлять temperature=0. Но даже тогда GPT-5.2 может выдавать разные результаты при повторных запросах. Баг? Фича? Неизвестно.
2 Контекстное окно — палка о двух концах
Claude 4.5 с его 200к токенов может переводить целые книги за раз. Звучит круто. Пока не понимаешь, что цена за такой запрос — 15 долларов. И что качество перевода последних глав будет хуже первых из-за деградации внимания.
DeepL ограничен 128к символов, но зато стабилен. Нет эффекта "усталости модели".
3 Промпт-инжиниринг меняет все
Базовая команда "translate to Russian" дает один результат. А вот такой промпт:
Ты профессиональный переводчик с 20-летним опытом. Переведи следующий текст на русский, сохранив:
1. Технические термины на английском, если у них нет устоявшегося русского аналога
2. Стиль оригинала (формальный/неформальный)
3. Все культурные отсылки адаптируй для русскоязычной аудитории
4. Не добавляй пояснений, только чистый перевод
Текст: [текст]
Улучшает качество GPT-5.2 на 30-40%. Но это дополнительные токены. И дополнительная стоимость.
Стоимость: шок от ценника
Мы посчитали стоимость перевода 100к символов для каждого сервиса (цены на 4 февраля 2026):
| Сервис | Стоимость за 100к символов | Качество/цена |
|---|---|---|
| DeepL Pro | 25 руб. | Лучшее соотношение |
| GPT-5.2 Turbo | 180 руб. | В 7 раз дороже DeepL |
| Claude 4.5 Sonnet | 220 руб. | Самый дорогой |
| Яндекс.Переводчик API | 15 руб. | Самый дешевый |
| Google Gemini 3.5 Pro | 95 руб. | Средняя цена |
Локальные модели (Hunyuan-MT-7B, TranslateGemma 4B) вообще бесплатны после скачивания. Но требуют GPU. И качество... скажем так, оставляет желать лучшего для сложных текстов.
Важный момент: цены на GPT-5.2 и Claude 4.5 указаны с учетом того, что вы используете промпт-инжиниринг (дополнительные токены на инструкции). Без промптинга дешевле, но качество падает.
Что выбрать в 2026 году?
После трех дней тестов и 500+ переведенных фраз, вот мои рекомендации:
Для бизнеса (документы, контракты, технические тексты): DeepL Pro. Стабильно, предсказуемо, дешево. Их модель специально тренирована на параллельных корпусах, а не на общем интернет-тексте. Это ключевое отличие.
Для творческих текстов (маркетинг, блоги, креатив): GPT-5.2 с правильным промптом. Да, дороже. Но лучше справляется с адаптацией под целевую аудиторию. Особенно если использовать AITunnel — их единый API-шлюз позволяет быстро переключаться между моделями и сравнивать результаты.
Для длинных текстов (книги, исследования): Claude 4.5. Большое контекстное окно позволяет переводить целые главы с сохранением контекста. Но готовьтесь платить.
Для русского языка и культурных реалий: Яндекс.Переводчик. Неожиданно хорош для русско-английских пар. И дешевле всех.
Для локального использования (оффлайн, конфиденциальность): TranslateGemma 4B. Качество среднее, но работает без интернета. Для простых текстов сгодится.
Главный парадокс 2026 года
Специализированные модели (DeepL) все еще бьют универсальные LLM в их же игре. GPT-5.2 может написать роман, решить дифференциальное уравнение и придумать бизнес-план. Но перевести юридический документ без ошибок — сложно.
Почему? Потому что перевод — это не генерация текста. Это точное соответствие между двумя системами. LLM генерируют "похожий на правду" текст. Переводчик должен сохранять семантическую эквивалентность.
DeepL тренировался на миллиардах параллельных предложений (один и тот же текст на двух языках). GPT-5.2 тренировался на триллионах токенов случайного интернет-текста. Разница в подходе — разница в результате.
Если вам нужно переводить SEO-тексты с сохранением ключевых слов, посмотрите нашу статью про SEO-переводы. Там мы тестировали модели на конкретно этой задаче.
А если боитесь галлюцинаций в ответах ИИ (что критично для переводов медицинских или юридических текстов), почитайте как мы создавали систему без галлюцинаций для строительных норм. Те же принципы применимы к переводу.
Что будет через год?
Мой прогноз: к 2027 году граница между переводчиками и LLM сотрется. GPT-6 (или как его назовут) получит специализированные модули для перевода, обученные на параллельных корпусах. И будет делать это так же хорошо, как DeepL, но с бонусом в виде понимания контекста.
Но пока — в феврале 2026 — лучший рецепт такой:
- Берете DeepL для 80% рутинных переводов
- Докручиваете сложные места GPT-5.2 с промптом
- Проверяете культурные адаптации через Claude 4.5
- Используете AITunnel или аналогичный сервис, чтобы не разоряться на отдельных API
И да, сохраняйте человеческую проверку. Потому что даже лучший ИИ в 2026 году все еще путает "their", "there" и "they're". Просто теперь делает это на 15 языках одновременно.