Inteligência Artificial

Amazon Bedrock Adiciona Ajuste Fino por Reforço, Simplificando Como Desenvolvedores Criam Modelos de IA Mais Inteligentes e Precisos

AWS News Blog Team
04 de dezembro de 2025
7 min de leitura
Compartilhar:
Amazon Bedrock Adiciona Ajuste Fino por Reforço, Simplificando Como Desenvolvedores Criam Modelos de IA Mais Inteligentes e Precisos

Amazon Bedrock Adiciona Ajuste Fino por Reforço, Simplificando Como Desenvolvedores Criam Modelos de IA Mais Inteligentes e Precisos

Organizações enfrentam um dilema desafiador ao adaptar modelos de IA às suas necessidades de negócio específicas: contentar-se com modelos genéricos que produzem resultados medianos, ou encarar a complexidade e o custo da customização avançada de modelos. Abordagens tradicionais forçam uma escolha entre o desempenho insatisfatório de modelos menores ou os altos custos de implantação de variantes de modelos maiores e a gestão de infraestrutura complexa.

O ajuste fino por reforço (reinforcement fine-tuning) é uma técnica avançada que treina modelos usando feedback em vez de grandes datasets rotulados. No entanto, sua implementação geralmente exige expertise especializada em Machine Learning (ML), infraestrutura complicada e um investimento significativo – sem garantia de alcançar a precisão necessária para casos de uso específicos.

Hoje, anunciamos o ajuste fino por reforço no Amazon Bedrock, uma nova capacidade de customização de modelos que cria modelos mais inteligentes e econômicos, que aprendem a partir de feedback e entregam outputs de qualidade superior para necessidades de negócio específicas. O ajuste fino por reforço utiliza uma abordagem orientada por feedback, na qual os modelos melhoram iterativamente com base em sinais de recompensa (reward signals), proporcionando ganhos de precisão de 66% em média sobre os modelos base. O Amazon Bedrock automatiza o workflow de ajuste fino por reforço, tornando essa técnica avançada de customização de modelos acessível a desenvolvedores comuns, sem exigir expertise aprofundada em ML ou grandes datasets rotulados.

Como Funciona o Ajuste Fino por Reforço

O ajuste fino por reforço é construído sobre princípios de aprendizado por reforço (reinforcement learning) para abordar um desafio comum: fazer com que os modelos produzam consistentemente outputs que se alinhem aos requisitos de negócio e às preferências do usuário. Enquanto o fine-tuning tradicional requer grandes datasets rotulados e anotação humana dispendiosa, o ajuste fino por reforço adota uma abordagem diferente.

Em vez de aprender com exemplos fixos, ele utiliza funções de recompensa (reward functions) para avaliar e julgar quais respostas são consideradas boas para casos de uso de negócio específicos. Isso ensina os modelos a entender o que constitui uma resposta de qualidade sem exigir quantidades massivas de dados de treinamento pré-rotulados, tornando a customização avançada de modelos no Amazon Bedrock mais acessível e econômica.

Aqui estão os benefícios de usar o ajuste fino por reforço no Amazon Bedrock:

  • Facilidade de Uso: O Amazon Bedrock automatiza grande parte da complexidade, tornando o ajuste fino por reforço mais acessível aos desenvolvedores que criam aplicações de IA. Os modelos podem ser treinados usando logs de API existentes no Amazon Bedrock ou através do upload de datasets como dados de treinamento, eliminando a necessidade de datasets rotulados ou de configuração de infraestrutura.
  • Melhor Desempenho do Modelo: O ajuste fino por reforço melhora a precisão do modelo em 66% em média sobre os modelos base, permitindo a otimização de preço e desempenho ao treinar variantes de modelos menores, mais rápidos e mais eficientes. Isso funciona com o modelo Amazon Nova 2 Lite, melhorando a qualidade e o desempenho de preço para necessidades de negócio específicas, com suporte para modelos adicionais em breve.
  • Segurança: Os dados permanecem dentro do ambiente seguro da AWS durante todo o processo de customização, mitigando preocupações de segurança e compliance.

A capacidade suporta duas abordagens complementares para oferecer flexibilidade na otimização de modelos:

  1. Aprendizado por Reforço com Recompensas Verificáveis (RLVR - Reinforcement Learning with Verifiable Rewards): Utiliza graders baseados em regras para tarefas objetivas, como geração de código ou raciocínio matemático.
  2. Aprendizado por Reforço a partir de Feedback de IA (RLAIF - Reinforcement Learning from AI Feedback): Emprega juízes baseados em IA para tarefas subjetivas, como seguir instruções (instruction following) ou moderação de conteúdo.

Primeiros Passos com Ajuste Fino por Reforço no Amazon Bedrock

Vamos detalhar a criação de um trabalho de ajuste fino por reforço. Primeiro, acesso o console do Amazon Bedrock. Em seguida, navego para a página Modelos customizados (Custom models). Eu escolho Criar (Create) e, então, seleciono Trabalho de ajuste fino por reforço (Reinforcement fine-tuning job).

Começo inserindo o nome deste trabalho de customização e, em seguida, seleciono meu modelo base. No lançamento, o ajuste fino por reforço suporta o Amazon Nova 2 Lite, com suporte para modelos adicionais em breve.

Em seguida, preciso fornecer os dados de treinamento. Posso usar meus logs de invocação armazenados diretamente, eliminando a necessidade de fazer upload de datasets separados. Também posso fazer upload de novos arquivos JSONL ou selecionar datasets existentes do Amazon Simple Storage Service (Amazon S3). O ajuste fino por reforço valida automaticamente meu dataset de treinamento e suporta o formato de dados OpenAI Chat Completions. Se eu fornecer logs de invocação no formato invoke ou converse do Amazon Bedrock, o Amazon Bedrock os converte automaticamente para o formato Chat Completions.

A configuração da função de recompensa (reward function setup) é onde defino o que constitui uma boa resposta. Tenho duas opções aqui. Para tarefas objetivas, posso selecionar Código customizado (Custom code) e escrever código Python personalizado que é executado através de funções AWS Lambda. Para avaliações mais subjetivas, posso selecionar Modelo como juiz (Model as judge) para usar foundation models (FMs) como juízes, fornecendo instruções de avaliação.

Neste exemplo, seleciono Código customizado e crio uma nova função Lambda ou uso uma existente como função de recompensa. Posso começar com um dos templates fornecidos e personalizá-lo para minhas necessidades específicas. Opcionalmente, posso modificar hiperparâmetros padrão, como taxa de aprendizado (learning rate), tamanho do lote (batch size) e epochs. Para segurança aprimorada, posso configurar as definições de Virtual Private Cloud (VPC) e a criptografia AWS Key Management Service (AWS KMS) para atender aos requisitos de compliance da minha organização.

Em seguida, escolho Criar para iniciar o trabalho de customização do modelo. Durante o processo de treinamento, posso monitorar métricas em tempo real para entender como o modelo está aprendendo. O dashboard de métricas de treinamento mostra indicadores-chave de desempenho, incluindo pontuações de recompensa (reward scores), curvas de perda (loss curves) e melhorias de precisão ao longo do tempo. Essas métricas me ajudam a entender se o modelo está convergindo corretamente e se a função de recompensa está guiando o processo de aprendizado de forma eficaz.

Quando o trabalho de ajuste fino por reforço é concluído, posso ver o status final do trabalho na página Detalhes do modelo (Model details). Uma vez concluído, posso implantar o modelo com um único clique. Seleciono Configurar inferência (Set up inference) e, em seguida, escolho Implantar sob demanda (Deploy for on-demand). Aqui, forneço alguns detalhes para o meu modelo.

Após a implantação, posso avaliar rapidamente o desempenho do modelo usando o playground do Amazon Bedrock. Isso me ajuda a testar o modelo fine-tuned com prompts de amostra e comparar suas respostas com o modelo base para validar as melhorias. Seleciono Testar no playground (Test in playground). O playground fornece uma interface intuitiva para testes e iteração rápidos, ajudando-me a confirmar que o modelo atende aos meus requisitos de qualidade antes de integrá-lo em aplicações de produção.

Demonstração Interativa

Saiba mais navegando em uma demonstração interativa do ajuste fino por reforço do Amazon Bedrock em ação.

Informações Adicionais

Aqui estão pontos-chave a serem observados:

  • Templates: Existem sete templates de função de recompensa prontos para uso, cobrindo casos de uso comuns tanto para tarefas objetivas quanto subjetivas.
  • Preços (Pricing): Para saber mais sobre preços, consulte a página de preços do Amazon Bedrock.
  • Segurança: Os dados de treinamento e os modelos customizados permanecem privados e não são usados para melhorar os FMs para uso público. A funcionalidade suporta criptografia VPC e AWS KMS para segurança aprimorada.

Comece a usar o ajuste fino por reforço visitando a documentação de ajuste fino por reforço e acessando o console do Amazon Bedrock.

Boa construção! — Donnie

Precisa de ajuda com suas soluções de TI?

A VirtuAllIT Solutions oferece consultoria especializada em virtualização, cloud computing e infraestrutura tecnológica.