Amazon Bedrock AgentCore adiciona avaliações de qualidade e controles de política para a implantação de agentes de IA confiáveis

Amazon Bedrock AgentCore Adiciona Avaliações de Qualidade e Controles de Política para a Implantação de Agentes de IA Confiáveis
Hoje, estamos anunciando novos recursos no Amazon Bedrock AgentCore para remover ainda mais as barreiras que impedem a produção de agentes de IA. Organizações em diversos setores já estão construindo sobre o AgentCore, a plataforma agentic mais avançada para criar, implantar e operar agentes altamente capazes e seguros em qualquer escala. Em apenas 5 meses desde o preview, o AgentCore SDK foi baixado mais de 2 milhões de vezes.
Por exemplo, o PGA TOUR, pioneiro e líder em inovação no esporte, construiu um sistema de geração de conteúdo multiagente para criar artigos para suas plataformas digitais. A nova solução, desenvolvida no AgentCore, permite ao PGA TOUR fornecer cobertura abrangente para cada jogador em campo, aumentando a velocidade de redação de conteúdo em 1.000% e alcançando uma redução de custos de 95%.
Independent Software Vendors (ISVs) como a Workday estão construindo o software do futuro no AgentCore. O AgentCore Code Interpreter fornece ao Workday Planning Agent proteção de dados segura e recursos essenciais para exploração de dados financeiros. Os usuários podem analisar dados financeiros e operacionais por meio de consultas em linguagem natural, tornando o planejamento financeiro intuitivo e autônomo. Essa capacidade reduz o tempo gasto em análises de planejamento de rotina em 30%, economizando aproximadamente 100 horas por mês.
O Grupo Elfa, um distribuidor e varejista brasileiro, confia no AgentCore Observability para rastreabilidade completa de auditoria e métricas em tempo real de seus agentes, transformando seus processos reativos em operações proativas. Usando esta plataforma unificada, sua equipe de vendas pode lidar com milhares de cotações diárias de preços, enquanto a organização mantém visibilidade total das decisões dos agentes, ajudando a alcançar 100% de rastreabilidade das decisões e interações dos agentes, e reduzindo o tempo de resolução de problemas em 50%.
À medida que as organizações escalam suas implantações de agentes, elas enfrentam desafios relacionados à implementação dos limites e verificações de qualidade corretos para implantar agentes com confiança. A autonomia que torna os agentes poderosos também os torna difíceis de implantar com segurança em escala, pois podem acessar dados confidenciais de forma inadequada, tomar decisões não autorizadas ou realizar ações inesperadas. As equipes de desenvolvimento devem equilibrar a autonomia do agente, garantindo que ele opere dentro dos limites aceitáveis e com a qualidade exigida para colocá-lo diante de clientes e funcionários.
Os novos recursos disponíveis hoje eliminam as incertezas desse processo e ajudam você a construir e implantar agentes de IA confiáveis com segurança:
- Policy in AgentCore (Pré-visualização): Define limites claros para as ações do agente, interceptando as chamadas de ferramenta do AgentCore Gateway antes que sejam executadas, usando policies com permissões de granularidade fina (fine-grained permissions).
- AgentCore Evaluations (Pré-visualização): Monitora a qualidade dos seus agentes com base no comportamento do mundo real, usando avaliadores integrados para dimensões como correção (correctness) e utilidade (helpfulness), além de avaliadores personalizados para requisitos específicos de negócios.
Também estamos introduzindo recursos que expandem o que os agentes podem fazer:
- Funcionalidade Episódica no AgentCore Memory: Uma nova estratégia de longo prazo que ajuda os agentes a aprender com experiências e adaptar soluções em situações semelhantes para maior consistência e desempenho em tarefas futuras similares.
- Bidirectional streaming no AgentCore Runtime: Implanta agentes de voz onde usuários e agentes podem falar simultaneamente, seguindo um fluxo de conversa natural.
Policy in AgentCore para Controle Preciso do Agente
O recurso Policy oferece controle sobre as ações que os agentes podem realizar e é aplicado fora do loop de raciocínio do agente, tratando os agentes como atores autônomos cujas decisões exigem verificação antes de alcançar ferramentas, sistemas ou dados. Ele se integra ao AgentCore Gateway para interceptar as chamadas de ferramenta à medida que ocorrem, processando solicitações enquanto mantém a velocidade operacional, para que os fluxos de trabalho permaneçam rápidos e responsivos.
Você pode criar policies usando linguagem natural ou usar diretamente o Cedar – uma linguagem de policy de código aberto para permissões de granularidade fina – simplificando o processo de configuração, compreensão e auditoria de regras sem escrever código customizado. Essa abordagem torna a criação de policies acessível a equipes de desenvolvimento, segurança e compliance, que podem criar, entender e auditar regras sem conhecimento especializado em codificação.
As policies operam independentemente de como o agente foi construído ou qual modelo ele utiliza. Você pode definir quais ferramentas e dados os agentes podem acessar – sejam eles APIs, funções AWS Lambda, servidores Model Context Protocol (MCP) ou serviços de terceiros – quais ações eles podem realizar e sob quais condições. As equipes podem definir policies claras uma vez e aplicá-las consistentemente em toda a organização. Com as policies em vigor, os desenvolvedores ganham a liberdade de criar experiências agentic inovadoras, e as organizações podem implantar seus agentes para agir autonomamente, sabendo que permanecerão dentro dos limites definidos e dos requisitos de compliance.
Usando Policy in AgentCore
Você pode começar criando um policy engine na nova seção Policy do console do AgentCore e associá-lo a um ou mais AgentCore gateways. Um policy engine é uma coleção de policies que são avaliadas no endpoint do gateway. Ao associar um gateway a um policy engine, você pode escolher se deseja aplicar o resultado da policy — efetivamente permitindo ou negando o acesso a uma chamada de ferramenta — ou apenas emitir logs. O uso de logs ajuda você a testar e validar uma policy antes de habilitá-la em produção.
Em seguida, você pode definir as policies a serem aplicadas para ter controle granular sobre o acesso às ferramentas oferecidas pelos AgentCore gateways associados. Para criar uma policy, você pode começar com uma descrição em linguagem natural (que deve incluir informações das claims de autenticação a serem usadas) ou editar diretamente o código Cedar.
A autoria de policies baseada em linguagem natural oferece uma maneira mais acessível de criar policies de granularidade fina. Em vez de escrever código formal de policy, você pode descrever regras em inglês simples. O sistema interpreta sua intenção, gera policies candidatas, as valida em relação ao schema da ferramenta e usa raciocínio automatizado para verificar condições de segurança – identificando prompts que são excessivamente permissivos, excessivamente restritivos ou contêm condições que nunca podem ser satisfeitas.
Ao contrário das traduções genéricas de large language model (LLM), este recurso entende a estrutura de suas ferramentas e gera policies que são sintaticamente corretas e semanticamente alinhadas com sua intenção, ao mesmo tempo que sinaliza regras que não podem ser aplicadas. Ele também está disponível como um servidor Model Context Protocol (MCP), para que você possa criar e validar policies diretamente em seu ambiente de codificação assistida por IA preferido, como parte do seu fluxo de trabalho de desenvolvimento normal. Essa abordagem reduz o tempo de onboarding e ajuda você a escrever regras de autorização de alta qualidade sem a necessidade de experiência em Cedar.
O seguinte exemplo de policy usa informações das OAuth claims no JWT token usado para autenticar um AgentCore gateway (para a função) e os argumentos passados para a chamada da ferramenta (context.input) para validar o acesso à ferramenta que processa um reembolso. Apenas um usuário autenticado com a função refund-agent pode acessar a ferramenta, mas para valores (context.input.amount) inferiores a $200 USD.
permit(
principal is AgentCore::OAuthUser,
action == AgentCore::Action::"RefundTool__process_refund",
resource == AgentCore::Gateway::"<GATEWAY_ARN>"
)
when {
principal.hasTag("role") && principal.getTag("role") == "refund-agent" && context.input.amount < 200
};
permit(
principal is AgentCore::OAuthUser,
action == AgentCore::Action::"RefundTool__process_refund",
resource == AgentCore::Gateway::"<GATEWAY_ARN>"
)
when {
principal.hasTag("role") && principal.getTag("role") == "refund-agent" && context.input.amount < 200
};
AgentCore Evaluations para Inteligência de Qualidade Contínua e em Tempo Real
O AgentCore Evaluations é um serviço totalmente gerenciado que ajuda você a monitorar e analisar continuamente o desempenho do agente com base no comportamento do mundo real. Com o AgentCore Evaluations, você pode usar avaliadores integrados para dimensões de qualidade comuns, como correção (correctness), utilidade (helpfulness), precisão na seleção de ferramentas, segurança, taxa de sucesso de metas e relevância do contexto.
Você também pode criar sistemas de pontuação personalizados baseados em modelos, configurados com sua escolha de prompt e modelo para pontuação adaptada ao negócio, enquanto o serviço amostra interações de agentes ao vivo e as pontua continuamente. Todos os resultados do AgentCore Evaluations são visualizados no Amazon CloudWatch, juntamente com os insights do AgentCore Observability, fornecendo um único local para monitoramento unificado. Você também pode configurar alertas e alarmes nas pontuações de avaliação para monitorar proativamente a qualidade do agente e responder quando as métricas caírem fora dos limites aceitáveis.
Você pode usar o AgentCore Evaluations durante a fase de testes, onde pode verificar um agente em relação à linha de base antes da implantação para impedir que versões defeituosas cheguem aos usuários, e em produção para melhoria contínua de seus agentes. Quando as métricas de qualidade caem abaixo dos limites definidos – como a satisfação do agente de atendimento ao cliente diminuindo ou as pontuações de polidez caindo mais de 10% em um período de 8 horas – o sistema aciona alertas imediatos, ajudando a detectar e resolver problemas de qualidade mais rapidamente.
Usando AgentCore Evaluations
Você pode criar uma avaliação online na nova seção Evaluations do console do AgentCore. Você pode usar como fonte de dados um endpoint de agente do AgentCore ou um log group do CloudWatch usado por um agente externo. Por exemplo, estou usando aqui o mesmo agente de suporte ao cliente de exemplo que compartilhei quando introduzimos o AgentCore em preview.
Em seguida, você pode selecionar os avaliadores a serem usados, incluindo avaliadores customizados que você pode definir a partir dos templates existentes ou construir do zero. Por exemplo, para um agente de suporte ao cliente, você pode selecionar métricas como:
- Correctness (Correção): Avalia se a informação na resposta do agente é factualmente precisa.
- Faithfulness (Fidelidade): Avalia se a informação na resposta é suportada pelo contexto/fontes fornecidas.
- Helpfulness (Utilidade): Avalia, da perspectiva do usuário, o quão útil e valiosa é a resposta do agente.
- Harmfulness (Nocividade): Avalia se a resposta contém conteúdo prejudicial.
- Stereotyping (Estereotipagem): Detecta conteúdo que faz generalizações sobre indivíduos ou grupos.
Os avaliadores para seleção de ferramentas e precisão de parâmetros de ferramentas podem ajudar você a entender se um agente está escolhendo a ferramenta certa para uma tarefa e extraindo os parâmetros corretos das consultas do usuário. Para concluir a criação da avaliação, você pode escolher a taxa de amostragem e filtros opcionais. Para permissões, você pode criar uma nova service role do AWS Identity and Access Management (IAM) ou passar uma existente.
Os resultados são publicados, à medida que são avaliados, no Amazon CloudWatch no dashboard do AgentCore Observability. Você pode escolher qualquer uma das seções do gráfico de barras para ver os traces correspondentes e obter uma visão mais profunda das solicitações e respostas por trás dessa avaliação específica. Como os resultados estão no CloudWatch, você pode usar todos os seus recursos para criar, por exemplo, alarmes e automações.
Criando Avaliadores Customizados no AgentCore Evaluations
Avaliadores customizados permitem que você defina métricas de qualidade específicas para o seu negócio, adaptadas aos requisitos exclusivos do seu agente. Para criar um avaliador customizado, você fornece o modelo a ser usado como juiz, incluindo parâmetros de inferência como temperatura e máximo de tokens de saída, e um prompt adaptado com as instruções de julgamento. Você pode começar a partir do prompt usado por um dos avaliadores integrados ou inserir um novo. Em seguida, você define a escala a ser produzida na saída. Pode ser valores numéricos ou rótulos de texto customizados que você define. Finalmente, você configura se a avaliação é computada pelo modelo em traces únicos, sessões completas ou para cada chamada de ferramenta.
Funcionalidade Episódica do AgentCore Memory para Aprendizagem Baseada em Experiência
O AgentCore Memory, um serviço totalmente gerenciado que dá aos agentes de IA a capacidade de lembrar interações passadas, agora inclui uma nova estratégia de memória de longo prazo que lhes confere a capacidade de aprender com experiências passadas e aplicar essas lições para fornecer assistência mais útil em interações futuras.
Considere reservar uma viagem com um agente: com o tempo, o agente aprende com seus padrões de reserva – como o fato de que você frequentemente precisa mudar voos para horários posteriores ao viajar a trabalho devido a reuniões com clientes. Quando você inicia sua próxima reserva envolvendo reuniões com clientes, o agente sugere proativamente opções de retorno flexíveis com base nesses padrões aprendidos. Assim como um assistente experiente que aprende seus hábitos de viagem específicos, os agentes com memória episódica agora podem reconhecer e se adaptar às suas necessidades individuais.
Quando você habilita a nova funcionalidade episódica, o AgentCore Memory captura episódios estruturados que registram o contexto, o processo de raciocínio, as ações tomadas e os resultados das interações do agente, enquanto um agente de reflexão analisa esses episódios para extrair insights e padrões mais amplos. Ao enfrentar tarefas semelhantes, os agentes podem recuperar esses aprendizados para melhorar a consistência na tomada de decisões e reduzir o tempo de processamento. Isso diminui a necessidade de instruções customizadas, incluindo no contexto do agente apenas os aprendizados específicos de que ele precisa para completar uma tarefa, em vez de uma longa lista de todas as sugestões possíveis.
Bidirectional Streaming do AgentCore Runtime para Conversas Mais Naturais
Com o AgentCore Runtime, você pode implantar aplicações agentic com poucas linhas de código. Para simplificar a implantação de experiências conversacionais que parecem naturais e responsivas, o AgentCore Runtime agora suporta bidirectional streaming (streaming bidirecional). Essa capacidade permite que agentes de voz ouçam e se adaptem enquanto os usuários falam, para que as pessoas possam interromper os agentes no meio da resposta e fazer com que o agente se ajuste imediatamente ao novo contexto – sem esperar que o agente termine sua saída atual.
Em vez da interação tradicional baseada em turnos, onde os usuários devem esperar por respostas completas, o bidirectional streaming cria conversas fluidas e naturais, onde os agentes mudam dinamicamente sua resposta com base no que o usuário está dizendo. Construir essas experiências conversacionais do zero requer um esforço de engenharia significativo para lidar com o complexo fluxo de comunicação simultânea. O bidirectional streaming simplifica isso, gerenciando a infraestrutura necessária para que os agentes processem a entrada enquanto geram a saída, lidando com interrupções de forma elegante e mantendo o contexto durante mudanças dinâmicas na conversa. Agora você pode implantar agentes que se adaptam naturalmente à natureza fluida da conversa humana – suportando interrupções no meio do pensamento, mudanças de contexto e esclarecimentos sem perder o fio da interação.
O que Você Precisa Saber
O Amazon Bedrock AgentCore, incluindo a pré-visualização do Policy, está disponível nas regiões AWS Leste dos EUA (Ohio, Virgínia do Norte), Oeste dos EUA (Oregon), Ásia-Pacífico (Mumbai, Singapura, Sydney, Tóquio) e Europa (Frankfurt, Irlanda). A pré-visualização do AgentCore Evaluations está disponível nas regiões Leste dos EUA (Ohio, Virgínia do Norte), Oeste dos EUA (Oregon), Ásia-Pacífico (Sydney) e Europa (Frankfurt). Para disponibilidade regional e roadmap futuro, visite AWS Capabilities by Region.
Com o AgentCore, você paga pelo que usa, sem compromissos iniciais (upfront commitments). Para informações detalhadas sobre preços, visite a página de preços do Amazon Bedrock. O AgentCore também faz parte do AWS Free Tier, que novos clientes AWS podem usar para começar sem custo e explorar os principais serviços AWS.
Esses novos recursos funcionam com qualquer framework de código aberto, como CrewAI, LangGraph, LlamaIndex e Strands Agents, e com qualquer foundation model. Os serviços do AgentCore podem ser usados juntos ou independentemente, e você pode começar usando seu ambiente de desenvolvimento assistido por IA favorito com o servidor MCP de código aberto do AgentCore. Para saber mais e começar rapidamente, visite o AgentCore Developer Guide.
— Danilo
Precisa de ajuda com suas soluções de TI?
A VirtuAllIT Solutions oferece consultoria especializada em virtualização, cloud computing e infraestrutura tecnológica.

