Aqui está a tradução do artigo técnico:

Anunciando o Amazon SageMaker Inference para modelos Amazon Nova personalizados

Desde que lançamos a personalização do Amazon Nova no Amazon SageMaker AI durante o AWS NY Summit 2025, os clientes têm solicitado as mesmas capacidades com o Amazon Nova que eles têm ao personalizar modelos de pesos abertos no Amazon SageMaker Inference. Eles também desejavam ter mais controle e flexibilidade na inferência de modelos personalizados sobre tipos de instância, políticas de autoescalabilidade, comprimento de contexto e configurações de concorrência que as cargas de trabalho de produção exigem.

Hoje, estamos anunciando a disponibilidade comercial do suporte a modelos Nova personalizados no Amazon SageMaker Inference, um serviço de inferência gerenciado de nível de produção, configurável e com custo-benefício para implantar e escalar modelos Nova personalizados de rank completo. Agora você pode experimentar uma jornada de personalização ponta a ponta para treinar modelos Nova Micro, Nova Lite e Nova 2 Lite com capacidades de raciocínio usando Amazon SageMaker Training Jobs ou Amazon HyperPod e implantá-los de forma contínua com a infraestrutura de inferência gerenciada do Amazon SageMaker AI.

Com o Amazon SageMaker Inference para modelos Nova personalizados, você pode reduzir o custo de inferência por meio da utilização otimizada da GPU usando instâncias Amazon Elastic Compute Cloud (Amazon EC2) G5 e G6 em vez de instâncias P5, autoescalabilidade baseada em padrões de uso de 5 minutos e parâmetros de inferência configuráveis. Este recurso permite a implantação de modelos Nova personalizados com pré-treinamento contínuo, fine-tuning supervisionado ou fine-tuning por reforço para seus casos de uso. Você também pode definir configurações avançadas sobre comprimento de contexto, concorrência e tamanho de batch para otimizar o tradeoff entre latência, custo e precisão para suas cargas de trabalho específicas.

Vamos ver como implantar modelos Nova personalizados em endpoints de tempo real do SageMaker AI, configurar parâmetros de inferência e invocar seus modelos para teste.

Implante modelos Nova personalizados no SageMaker Inference

No AWS re:Invent 2025, introduzimos uma nova personalização serverless no Amazon SageMaker AI para modelos de IA populares, incluindo modelos Nova. Com apenas alguns cliques, você pode selecionar um modelo e uma técnica de personalização, e lidar com a avaliação e implantação do modelo de forma contínua.

Se você já possui um artefato de modelo Nova personalizado treinado, pode implantar os modelos no SageMaker Inference através do SageMaker Studio ou do SageMaker AI SDK.

No SageMaker Studio, escolha um modelo Nova treinado em "Models" no menu "Models". Você pode implantar o modelo escolhendo o botão "Deploy", "SageMaker AI" e "Create new endpoint". Escolha o nome do endpoint, tipo de instância e opções avançadas como contagem de instâncias, contagem máxima de instâncias, permissões e rede, e o botão "Deploy". No lançamento comercial, você pode usar os tipos de instância g5.12xlarge, g5.24xlarge, g5.48xlarge, g6.12xlarge, g6.24xlarge, g6.48xlarge e p5.48xlarge para o modelo Nova Micro; g5.48xlarge, g6.48xlarge e p5.48xlarge para o modelo Nova Lite; e p5.48xlarge para o modelo Nova 2 Lite.

A criação do seu endpoint requer tempo para provisionar a infraestrutura, baixar seus artefatos de modelo e inicializar o container de inferência. Após a conclusão da implantação do modelo e o status do endpoint mostrar "InService", você pode realizar inferência em tempo real usando o novo endpoint. Para testar o modelo, escolha a aba "Playground" e insira seu prompt no modo "Chat".

Você também pode usar o SageMaker AI SDK para criar dois recursos: um objeto de modelo do SageMaker AI que referencia seus artefatos de modelo Nova e uma configuração de endpoint que define como o modelo será implantado. O exemplo de código a seguir cria um modelo do SageMaker AI que referencia seus artefatos de modelo Nova. Para imagens de container suportadas por Região, consulte a tabela que lista os URIs das imagens de container:

python

# Create a SageMaker AI model
model_response = sagemaker.create_model(
    ModelName= 'Nova-micro-ml-g5-12xlarge',
    PrimaryContainer={
        'Image': '708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:v1.0.0',
        'ModelDataSource': {
            'S3DataSource': {
                'S3Uri': 's3://your-bucket-name/path/to/model/artifacts/',
                'S3DataType': 'S3Prefix',
                'CompressionType': 'None'
            }
        },
        # Model Parameters
        'Environment': {
            'CONTEXT_LENGTH': 8000,
            'MAX_CONCURRENCY': 16,
            'DEFAULT_TEMPERATURE': 0.0,
            'DEFAULT_TOP_P': 1.0
        }
    },
    ExecutionRoleArn=SAGEMAKER_EXECUTION_ROLE_ARN,
    EnableNetworkIsolation=True
)
print("Model created successfully!")

# Create a SageMaker AI model
model_response = sagemaker.create_model(
    ModelName= 'Nova-micro-ml-g5-12xlarge',
    PrimaryContainer={
        'Image': '708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:v1.0.0',
        'ModelDataSource': {
            'S3DataSource': {
                'S3Uri': 's3://your-bucket-name/path/to/model/artifacts/',
                'S3DataType': 'S3Prefix',
                'CompressionType': 'None'
            }
        },
        # Model Parameters
        'Environment': {
            'CONTEXT_LENGTH': 8000,
            'MAX_CONCURRENCY': 16,
            'DEFAULT_TEMPERATURE': 0.0,
            'DEFAULT_TOP_P': 1.0
        }
    },
    ExecutionRoleArn=SAGEMAKER_EXECUTION_ROLE_ARN,
    EnableNetworkIsolation=True
)
print("Model created successfully!")

Em seguida, crie uma configuração de endpoint que define sua infraestrutura de implantação e implante seu modelo Nova criando um endpoint de tempo real do SageMaker AI. Este endpoint hospedará seu modelo e fornecerá um endpoint HTTPS seguro para fazer solicitações de inferência.

python

# Create Endpoint Configuration
production_variant = {
    'VariantName': 'primary',
    'ModelName': 'Nova-micro-ml-g5-12xlarge',
    'InitialInstanceCount': 1,
    'InstanceType': 'ml.g5.12xlarge',
}
config_response = sagemaker.create_endpoint_config(
    EndpointConfigName= 'Nova-micro-ml-g5-12xlarge-Config',
    ProductionVariants= production_variant
)
print("Endpoint configuration created successfully!")

# Deploy your Noval model
endpoint_response = sagemaker.create_endpoint(
    EndpointName= 'Nova-micro-ml-g5-12xlarge-endpoint',
    EndpointConfigName= 'Nova-micro-ml-g5-12xlarge-Config'
)
print("Endpoint creation initiated successfully!")

# Create Endpoint Configuration
production_variant = {
    'VariantName': 'primary',
    'ModelName': 'Nova-micro-ml-g5-12xlarge',
    'InitialInstanceCount': 1,
    'InstanceType': 'ml.g5.12xlarge',
}
config_response = sagemaker.create_endpoint_config(
    EndpointConfigName= 'Nova-micro-ml-g5-12xlarge-Config',
    ProductionVariants= production_variant
)
print("Endpoint configuration created successfully!")

# Deploy your Noval model
endpoint_response = sagemaker.create_endpoint(
    EndpointName= 'Nova-micro-ml-g5-12xlarge-endpoint',
    EndpointConfigName= 'Nova-micro-ml-g5-12xlarge-Config'
)
print("Endpoint creation initiated successfully!")

Após a criação do endpoint, você pode enviar solicitações de inferência para gerar previsões do seu modelo Nova personalizado. O Amazon SageMaker AI suporta endpoints síncronos para tempo real com modos streaming/non-streaming e endpoints assíncronos para processamento em batch. Por exemplo, o código a seguir cria um formato de conclusão de streaming para geração de texto:

python

# Streaming chat request with comprehensive parameters
streaming_request = {
    "messages": [
        {"role": "user", "content": "Compare our Q4 2025 actual spend against budget across all departments and highlight variances exceeding 10%"}
    ],
    "max_tokens": 512,
    "stream": True,
    "temperature": 0.7,
    "top_p": 0.95,
    "top_k": 40,
    "logprobs": True,
    "top_logprobs": 2,
    "reasoning_effort": "low", # Options: "low", "high"
    "stream_options": {"include_usage": True}
}
invoke_nova_endpoint(streaming_request)

def invoke_nova_endpoint(request_body):
    """
    Invoke Nova endpoint with automatic streaming detection.

    Args:
        request_body (dict): Request payload containing prompt and parameters

    Returns:
        dict: Response from the model (for non-streaming requests)
        None: For streaming requests (prints output directly)
    """
    body = json.dumps(request_body)
    is_streaming = request_body.get("stream", False)

    try:
        print(f"Invoking endpoint ({'streaming' if is_streaming else 'non-streaming'})...")
        if is_streaming:
            response = runtime_client.invoke_endpoint_with_response_stream(
                EndpointName=ENDPOINT_NAME,
                ContentType='application/json',
                Body=body
            )
            event_stream = response['Body']
            for event in event_stream:
                if 'PayloadPart' in event:
                    chunk = event['PayloadPart']
                    if 'Bytes' in chunk:
                        data = chunk['Bytes'].decode()
                        print("Chunk:", data)
        else:
            # Non-streaming inference
            response = runtime_client.invoke_endpoint(
                EndpointName=ENDPOINT_NAME,
                ContentType='application/json',
                Accept='application/json',
                Body=body
            )
            response_body = response['Body'].read().decode('utf-8')
            result = json.loads(response_body)
            print("✅ Response received successfully")
            return result
    except ClientError as e:
        error_code = e.response['Error']['Code']
        error_message = e.response['Error']['Message']
        print(f"❌ AWS Error: {error_code} - {error_message}")
    except Exception as e:
        print(f"❌ Unexpected error: {str(e)}")

# Streaming chat request with comprehensive parameters
streaming_request = {
    "messages": [
        {"role": "user", "content": "Compare our Q4 2025 actual spend against budget across all departments and highlight variances exceeding 10%"}
    ],
    "max_tokens": 512,
    "stream": True,
    "temperature": 0.7,
    "top_p": 0.95,
    "top_k": 40,
    "logprobs": True,
    "top_logprobs": 2,
    "reasoning_effort": "low", # Options: "low", "high"
    "stream_options": {"include_usage": True}
}
invoke_nova_endpoint(streaming_request)

def invoke_nova_endpoint(request_body):
    """
    Invoke Nova endpoint with automatic streaming detection.

    Args:
        request_body (dict): Request payload containing prompt and parameters

    Returns:
        dict: Response from the model (for non-streaming requests)
        None: For streaming requests (prints output directly)
    """
    body = json.dumps(request_body)
    is_streaming = request_body.get("stream", False)

    try:
        print(f"Invoking endpoint ({'streaming' if is_streaming else 'non-streaming'})...")
        if is_streaming:
            response = runtime_client.invoke_endpoint_with_response_stream(
                EndpointName=ENDPOINT_NAME,
                ContentType='application/json',
                Body=body
            )
            event_stream = response['Body']
            for event in event_stream:
                if 'PayloadPart' in event:
                    chunk = event['PayloadPart']
                    if 'Bytes' in chunk:
                        data = chunk['Bytes'].decode()
                        print("Chunk:", data)
        else:
            # Non-streaming inference
            response = runtime_client.invoke_endpoint(
                EndpointName=ENDPOINT_NAME,
                ContentType='application/json',
                Accept='application/json',
                Body=body
            )
            response_body = response['Body'].read().decode('utf-8')
            result = json.loads(response_body)
            print("✅ Response received successfully")
            return result
    except ClientError as e:
        error_code = e.response['Error']['Code']
        error_message = e.response['Error']['Message']
        print(f"❌ AWS Error: {error_code} - {error_message}")
    except Exception as e:
        print(f"❌ Unexpected error: {str(e)}")

Para exemplos de código completos, visite Getting started with customizing Nova models on SageMaker AI [blocked]. Para saber mais sobre as melhores práticas para implantação e gerenciamento de modelos, visite Best practices for SageMaker AI [blocked].

Agora disponível

O Amazon SageMaker Inference para modelos Nova personalizados está disponível hoje nas Regiões da AWS Leste dos EUA (N. Virginia) e Oeste dos EUA (Oregon). Para disponibilidade regional e um roadmap futuro, visite AWS Capabilities by Region [blocked]. O recurso suporta modelos Nova Micro, Nova Lite e Nova 2 Lite com capacidades de raciocínio, rodando em instâncias EC2 G5, G6 e P5 com suporte a autoescalabilidade. Você paga apenas pelas instâncias de computação que usa, com faturamento por hora e sem compromissos mínimos. Para mais informações, visite a página de preços do Amazon SageMaker AI Pricing [blocked].

Experimente no console do Amazon SageMaker AI e envie feedback para o AWS re:Post para SageMaker ou através dos seus contatos usuais de Suporte da AWS.

— Channy

Este site utiliza cookies

Anunciando a Inferência do Amazon SageMaker para modelos personalizados do Amazon Nova

Anunciando o Amazon SageMaker Inference para modelos Amazon Nova personalizados

Implante modelos Nova personalizados no SageMaker Inference

Agora disponível

Precisa de ajuda com suas soluções de TI?