Как часто нужно проводить evaluation при миграции?

Как минимум один раз перед миграцией, затем каждые 24 часа в течение недели после переключения. AWS рекомендует непрерывный мониторинг с автоматическим сравнением с baseline.

Что делать, если новая модель хуже на редких кейсах?

Собирайте production-логи и добавляйте их в evaluation suite. Для таких кейсов можно использовать fallback – роутинг отдельных запросов на старую модель через классификатор.

Миграция LLM в production: фреймворк AWS для смены моделей

Переход с одной LLM на другую – это головная боль, которая не прощает спонтанности. Вы обновили модель с Claude 3.5 на Claude 4, а пользователи жалуются на тон. Или перешли с GPT-4 на Llama 3.2 – и suddenly половина пайпов сломалась. Так происходит, потому что большинство команд тупо заменяют модель в промпте, не задумываясь о дрифте форматов, чувствительности к инструментам и неявных допущениях.

Amazon Web Services (AWS) в 2025–2026 годах выкатил целый фреймворк миграции LLM – системный подход, который раньше использовали только внутри, а теперь документировали для клиентов. Суть: не тупо менять эндпоинт, а проходить цепочку оценка → конвертация → тестирование → канарейка → мониторинг. Давайте разберем каждый блок, с кодом, граблями и жирными предупреждениями.

Этап 1. Почему ваша текущая модель уже не та, что вчера?

Перед любой миграцией нужно понять: а не сломалась ли текущая модель сама по себе? Interpretation drift – зверь, который пожирает ваши метрики незаметно. Сегодня модель отвечает одним паттерном, завтра – другим, хотя вы ничего не меняли. Если вы не зафиксировали baseline, вы не поймете, стало лучше или хуже после перехода.

Совет: перед миграцией прогоните текущую модель на эталонном датасете. AWS рекомендует использовать Amazon Bedrock Model Evaluation – инструмент, который автоматически генерирует отчет по accuracy, toxicity, faithfulness. Если у вас нет такого – пишите свой скрипт. Вот пример на Python с boto3 и pyarrow.

import boto3
import json
from datetime import datetime

client = boto3.client('bedrock')

# 1. Собираем ответы текущей модели на 200 тестовых промптов
with open('test_prompts.json') as f:
    prompts = json.load(f)

results = []
for p in prompts[:200]:
    response = client.invoke_model(
        modelId='anthropic.claude-3-5-sonnet-20241022',
        contentType='application/json',
        accept='application/json',
        body=json.dumps({
            "messages": [{"role": "user", "content": p["prompt"]}],
            "max_tokens": 1024,
            "temperature": 0
        })
    )
    result = json.loads(response['body'].read())
    results.append({
        'prompt_id': p['id'],
        'response': result['content'][0]['text'],
        'ts': datetime.utcnow().isoformat()
    })

# Сохраняем baseline
import pyarrow as pa
import pyarrow.parquet as pq
table = pa.Table.from_pylist(results)
pq.write_table(table, 'baseline_20260430.parquet')

Этот baseline – ваш иммунитет против газлайтинга модели. Через неделю сможете сравнить, не уехал ли тон. Подробнее о дрифте читайте здесь.

Этап 2. Выбор целевой модели – не по бенчмаркам, а по вашим кейсам

Главная ошибка: смотреть на leaderboard и брать самую верхнюю. Реальность: модель, которая круто пишет стихи, может провалить JSON-режим. AWS предлагает матрицу выбора: цена → латентность → качество на вашем датасете. В 2026 году на AWS доступны не только Anthropic и Meta, но и собственные модели AWS Titan 3.0, а также кастомные через SageMaker.

Практический совет: для каждой задачи определите must-have метрики. Например:

Для чат-бота: тон ответа (no toxicity, no hallucination) – порог 95% по LLM-as-judge.
Для code gen: синтаксическая валидность – 100% на эталонных тестах.
Для извлечения данных: точность парсинга >98%.

Если целевая модель – открытая (из семейства Llama, Mistral, Phi), обратите внимание на инфраструктуру. Миграция на open-source модель часто означает смену рантайма: с Bedrock на локальные фреймворки. AWS рекомендует использовать SageMaker JumpStart для быстрого деплоя или перейти с TGI на vLLM или llama.cpp – там и скорость выше, и стоимость ниже.

Этап 3. Конвертация промптов – самое больное место

Вы взяли промпт, который идеально работал на GPT-4, скопировали в запрос к Claude – и получили отписку в стиле «Я не могу выполнить этот запрос, так как…». Почему? Разные модели по-разному чувствуют системные сообщения, форматы few-shot и инструменты (tools/function calling).

Фреймворк AWS включает модуль Prompt Converter – инструмент на основе LLM, который переписывает промпты из одного диалекта в другой. Он доступен в Amazon Bedrock Studio. Но можно сделать и своими руками: взять пару десятков промптов, вручную адаптировать, а потом обучить маленький классификатор, который будет определять, какие части нужно заменить.

Warning: Не используйте одну и ту же модель для конвертации и для ответа. Это создает circular bias. Берите сторонний LLM (например, Gemini 2.5 или GPT-4o) как переводчик.

def convert_prompt(source_prompt: str, source_format: str, target_format: str) -> str:
    """
    Конвертирует промпт из формата одной модели в другую.
    Использует отдельную модель-переводчик.
    """
    import anthropic
    client = anthropic.Anthropic()
    
    converter_prompt = f"""You are a prompt migration assistant.
    Source format: {source_format}
    Target format: {target_format}
    
    Translate the following prompt exactly, preserving the semantic intent but adapting to the target model's style.
    Only output the translated prompt, no extra text.
    
    Source prompt:
    {source_prompt}
    """
    response = client.messages.create(
        model="claude-3-5-sonnet-20241022",
        max_tokens=2048,
        messages=[{"role": "user", "content": converter_prompt}]
    )
    return response.content[0].text

# Пример использования
old_prompt = """You are a helpful assistant. Always answer in JSON format with keys: 'answer', 'confidence'."""
new_prompt = convert_prompt(old_prompt, "GPT-4", "Claude 3.5")
print(new_prompt)
# Output: """Please respond in JSON. Only output a JSON object with fields 'answer' and 'confidence'. Do not include any other text."""

После конвертации обязательно прогнать конвертированные промпты через evaluation suite. Если у вас кластер из разных GPU, можно параллельно тестировать сразу несколько кандидатов.

Этап 4. Evaluation Suite – автоматический прокси для качества

Ручное тестирование – путь к катастрофе. AWS рекомендует built-in evaluation с тремя уровнями:

Syntactic checks: валидность JSON/YAML/HTML, соответствие схеме.
Semantic checks: through LLM-as-judge – ответы соответствуют заданному смыслу.
Business checks: валидация через rule-based engine (например, no profanity, no PII).

Если вы используете SageMaker, встройте этот пайплайн в MLOps pipeline. Вот пример на основе AWS Step Functions:

EvaluateModel:
  Type: Task
  Resource: arn:aws:states:::sagemaker:createProcessingJob
  Parameters:
    ProcessingJobName: eval-$(date +%s)
    AppSpecification:
      ImageUri: 123456789012.dkr.ecr.us-east-1.amazonaws.com/llm-eval:latest
    ProcessingResources:
      ClusterConfig:
        InstanceCount: 1
        InstanceType: ml.g5.2xlarge
        VolumeSizeInGB: 30
    RoleArn: arn:aws:iam::123456789012:role/SageMakerEvalRole
    StoppingCondition:
      MaxRuntimeInSeconds: 3600

После прогона получаете матрицу: для каждой метрики сравниваете baseline и candidate. Если какая-то метрика просела больше 5% – abort.

Этап 5. Канареечное развертывание и Shadow Mode

Даже если evaluation прошел идеально, в production могут вылезти краевые случаи. AWS рекомендует два подхода:

Shadow mode: новая модель получает трафик, но ее ответы не показываются пользователю. Сравниваем с текущей моделью offline.
Canary deployment: 5% трафика идет на новую модель, 95% – на старую. Мониторим ошибки, задержки, user feedback.

В Bedrock это реализуется через Inference Profiles: создаете два профиля (prod и canary) и постепенно перенаправляете трафик. В SageMaker – через конечные точки с variant weights.

import boto3

def create_canary(endpoint_name, model_variants):
    """
    Создает endpoint с двумя вариантами: production (90%) и canary (10%)
    """
    sm = boto3.client('sagemaker')
    
    response = sm.create_endpoint_config(
        EndpointConfigName=f'{endpoint_name}-config',
        ProductionVariants=[
            {
                'VariantName': 'prod',
                'ModelName': model_variants['old'],
                'InitialInstanceCount': 2,
                'InstanceType': 'ml.g5.24xlarge',
                'InitialVariantWeight': 90
            },
            {
                'VariantName': 'canary',
                'ModelName': model_variants['new'],
                'InitialInstanceCount': 1,
                'InstanceType': 'ml.g5.24xlarge',
                'InitialVariantWeight': 10
            }
        ]
    )
    return response

Не забудьте про drit monitoring! Подключите CloudWatch Logs с парсингом ответов. Drift может ударить в любой момент.

Этап 6. Автоматический откат – ваша страховка

Если канарейка поймала ошибку, должен сработать automatic rollback. AWS рекомендует использовать CloudWatch Alarms + Lambda + Step Functions. Пример: если процент 5xx ответов на новой модели превышает 1%, трафик переключается обратно на старую модель.

def rollback_handler(event, context):
    """Lambda, вызываемая по тревоге"""
    sm = boto3.client('sagemaker')
    endpoint = event['detail']['endpoint']
    
    # Обновляем вес canary на 0
    sm.update_endpoint_weights_and_capacities(
        EndpointName=endpoint,
        DesiredWeightsAndCapacities=[
            {'VariantName': 'prod', 'DesiredWeight': 100},
            {'VariantName': 'canary', 'DesiredWeight': 0}
        ]
    )
    return {'status': 'rolled back'}

Без автоматизации отката вы рискуете выкатить баг на всю аудиторию за несколько минут.

Подводные камни, которые я видел в 15+ миграциях

Разные токенизаторы: одна и та же строка может занимать разное количество токенов в разных моделях. Системные промпты выходят за лимит. Решение: всегда обрезать с запасом, а лучше использовать модели с 200K+ контекстом (Claude 4, Gemini 2.5).
Галлюцинации на границах: новая модель может начать галлюцинировать на редких инпутах, которые не были в тестовом наборе. Страховка: собирайте production-логи и добавляйте их в evaluation suite.
Стоимость запуска: миграция на более мощную модель может взлететь в цене из-за большего количества токенов. Фреймворк AWS включает Cost Analysis – сравните TCO до и после.
Multi-LoRA и адаптеры: если вы используете несколько LoRA-адаптеров на одной базовой модели, переезд на новую модель требует переобучения всех адаптеров. vLLM 0.15.0 умеет обслуживать десятки LoRA на одном GPU – это может упростить миграцию, если вы остаетесь в том же семействе.

Финальный прогноз: куда катимся?

В 2026 году AWS уже тестирует агентный подход к миграции: агент сам выбирает модель под каждый промпт, переписывает запрос и собирает фидбек. Это превращает миграцию из разового проекта в постоянный процесс. Фреймворк, описанный выше, станет фундаментом для таких агентов. Если ваша команда еще не автоматизировала переход между моделями – вы отстаете на год. Берите на вооружение evaluation suites, shadow mode и prompt converters. И помните: правильная миграция – это не смена одной модели на другую, а создание иммунной системы, которая позволяет менять модели безболезненно.

Подписаться на канал

Фреймворк миграции LLM от AWS: как системно переходить между моделями в production