Da Infraestrutura aos Agentes: Um Guia Prático para IA Privada Segura com Broadcom – Parte 1

Aqui está a tradução do artigo técnico:
Parte 1 de 4: Configurando a Infraestrutura – Rede e Tenancy Profunda
À medida que as empresas correm para integrar a IA em seus fluxos de trabalho, a transição da experimentação para a produção é frequentemente impedida por um obstáculo crítico: o risco relacionado à segurança, privacidade e conformidade. Desriscar a IA corporativa exige mais do que apenas implantar um modelo atrás de um firewall corporativo. Significa garantir a privacidade rigorosa do tenant, escanear rigorosamente os modelos conteinerizados em busca de vulnerabilidades antes mesmo de serem implantados, proteger esses modelos em produção contra prompt injections e envenenamento de dados (data poisoning), e aplicar governança robusta a agentes de IA autônomos. Embora a indústria discuta esses conceitos de segurança extensivamente, a orientação prática e focada em engenharia permanece escassa.
Nesta série de blogs, estamos indo além da arquitetura de alto nível para compartilhar nossas notas de laboratório sobre como proteger uma stack completa de IA privada. No entanto, não estamos começando da arquitetura bare metal. Para a construção da arquitetura, implantamos o VMware Private AI Foundation with NVIDIA, o que significa que VMware Private AI Services, VMware Cloud Foundation (VCF) e VMware vSphere Kubernetes Services (VKS) foram implantados. Com a infraestrutura já estabelecida, mudamos a implantação para um ambiente de IA fortificado e de nível empresarial.
Seja você um engenheiro de rede, um arquiteto de segurança ou um operador de plataforma, esta série fornece um blueprint de segurança para usar VMware Private AI Services, vDefend, Avi, Istio, admission controllers e a plataforma Tanzu para proteger eficazmente suas cargas de trabalho de IA contra riscos de privacidade, segurança e conformidade. Para fornecer um caminho claro e acionável, estruturamos esta série de blogs em quatro partes:
Parte 1: Configurando a infraestrutura – Rede e Tenancy Profunda Com base em nossas implantações existentes de VCF, VKS e IA privada, esta postagem detalha como construímos um ambiente de IA seguro. Abordamos a configuração de rede L3 e o estabelecimento de tenancy profunda de GPU para isolar cargas de trabalho antes mesmo de considerarmos uma regra de firewall.
Parte 2: Protegendo Cargas de Trabalho de IA Aceleradas por GPU com VMware vDefend no VMware Private AI Foundation with NVIDIA Com a infraestrutura implantada, nossa segunda postagem aborda a implantação do vDefend para impor o firewall L3 em VMs e pods. Demonstramos como implementar microssegmentação granular para conter estritamente ameaças potenciais e limitar o raio de impacto de qualquer carga de trabalho de IA comprometida.
Parte 3: Protegendo a Camada de Aplicação – Proteção L7 Norte-Sul com Avi WAF e Istio Como os modelos de IA privados interagem com usuários e sistemas externos, a defesa da camada de aplicação é crítica. Na parte três, detalhamos a configuração do Istio para configurar a criptografia mTLS ponta a ponta integrada ao Avi Web Application Firewall (WAF) para proteção L7 robusta. Detalhamos as etapas para proteger seus endpoints e APIs de IA contra entradas maliciosas, exfiltração de dados e agentes de ameaça externos.
Parte 4: Governando o Loop Agente – Trazendo Plataforma como Serviço e Codificação Agente Governada com Tanzu Finalmente, avançamos para a experiência do desenvolvedor e da aplicação. Nossa postagem final explora como o Tanzu oferece os recursos de plataforma como serviço para impor a governança e estabelecer guardrails rígidos para loops agentes autônomos. Demonstramos como criar um ambiente seguro e sem atritos para o desenvolvimento de aplicativos de IA de próxima geração e "codificação de vibe", ajudando seus desenvolvedores a avançar rapidamente sem quebrar os protocolos de segurança.
Arquitetando Tenancy Profunda de GPU: Dividindo o Compute da Organização ao Silício
Antes de olharmos para uma regra de firewall ou proteções L7, precisamos falar sobre a camada de infraestrutura – especificamente, isolamento de rede, compute e memória. Ao construir uma nuvem de IA de nível empresarial, você não está apenas dividindo recursos entre duas aplicações simples. Você está frequentemente atuando como um provedor de serviços interno, dividindo um cluster de GPU caro e monolítico entre unidades de negócios inteiramente distintas. Seus tenants precisam de processamento paralelo para modelos, pipelines RAG e agentes, mas não todos de uma vez, o tempo todo.
Nós arquitetamos a tenancy profunda de GPU, estabelecendo isolamento lógico e físico rigoroso, desde o nível organizacional até o silício. Começamos no nível macro usando VCF e a stack de VMware Private AI Services para criar Organizational Tenants distintos. Ao mapear unidades de negócios inteiras para classes de VM de GPU dedicadas e/ou compartilhadas, podemos impor cotas de GPU, Controle de Acesso Baseado em Função (RBAC) e mecanismos de chargeback a elas. Isso ajuda a garantir que uma organização tenha acesso garantido à sua parte da infraestrutura de IA e não possa sobrecarregar a capacidade de outra equipe da organização, enquanto outros departamentos podem compartilhar recursos de GPU.
Os clientes frequentemente perguntam se poderiam alcançar esse nível de segurança e governança de recursos em um ambiente bare-metal não virtualizado. A diferença fundamental é que o VCF oferece uma plataforma de nuvem segura que permite o compartilhamento seguro de todo o seu parque de GPUs, enquanto as distribuições Kubernetes bare metal fornecem limites de governança fracos para o compartilhamento de GPUs. Isso ocorre porque o bare metal não foi projetado para compartilhar GPUs com segurança entre diferentes clusters ou unidades de negócios, levando a capacidade fragmentada e menor utilização. Os clientes devem integrar e gerenciar software de terceiros separado com primitivas Kubernetes para dividir e isolar recursos. A multi-tenancy e a segurança em bare metal normalmente operam como um único cluster Kubernetes grande, o que aumenta significativamente o domínio de impacto de falhas e concentra o risco. Construir multi-tenancy e isolamento verdadeiros que rivalizam com os seis níveis de isolamento do VCF exige configuração manual de políticas de rede, operadores dedicados para storage e ferramentas de segurança externas.
Uma vez que os limites organizacionais são definidos, passamos para a camada de execução de hardware usando VMware Private AI Foundation with NVIDIA. Em vez de apenas passar GPUs físicas inteiras para um único cluster ou depender puramente de isolamento em nível de software, aproveitamos a tecnologia NVIDIA vGPU integrada diretamente ao hipervisor. Pegamos essas GPUs físicas massivas e as dividimos em perfis vGPU dedicados com limites de memória estritamente alocados e recursos de compute compartilhados por tempo. Pode haver tenants que não devem consumir GPUs dentro de uma organização. Podemos impedir o uso não autorizado dessas classes de VM de GPU por meio de política IAAS em nível de projeto.
Aqui está um exemplo de uma política que impede o uso das classes baseadas em GPU:
failurePolicy: Fail
matchConstraints:
resourceRules:
- apiGroups: ["cluster.x-k8s.io"]
apiVersions: ["v1beta1"]
operations: ["CREATE", "UPDATE"]
resources: ["clusters"]
validations:
# 1. Check Global Variables
- expression: |
!object.spec.topology.variables.exists(v, v.name == 'vmClass' && v.value.lowerAscii().contains('gpu') )
message: "GPU VM classes are not allowed."
# 2. Check MachineDeployment Overrides
- expression: |
!object.spec.topology.workers.machineDeployments.exists(md, has(md.variables) && has(md.variables.overrides) && md.variables.overrides.exists(o, o.name == 'vmClass' && o.value.lowerAscii().contains('gpu') ) )
message: "GPU VM classes are not allowed."
validationActions:
- Deny
failurePolicy: Fail
matchConstraints:
resourceRules:
- apiGroups: ["cluster.x-k8s.io"]
apiVersions: ["v1beta1"]
operations: ["CREATE", "UPDATE"]
resources: ["clusters"]
validations:
# 1. Check Global Variables
- expression: |
!object.spec.topology.variables.exists(v, v.name == 'vmClass' && v.value.lowerAscii().contains('gpu') )
message: "GPU VM classes are not allowed."
# 2. Check MachineDeployment Overrides
- expression: |
!object.spec.topology.workers.machineDeployments.exists(md, has(md.variables) && has(md.variables.overrides) && md.variables.overrides.exists(o, o.name == 'vmClass' && o.value.lowerAscii().contains('gpu') ) )
message: "GPU VM classes are not allowed."
validationActions:
- Deny
Esses perfis vGPU são então mapeados diretamente para Namespaces específicos do vSphere como vmclasses e consumidos pelo vSphere Kubernetes Service (VKS) por tenant. O resultado? Isolamento robusto de multi-tenancy. A memória é estritamente particionada por tenant com risco zero de vazamento de dados de side-channel através do framebuffer da GPU, enquanto o compute fatiado no tempo garante um agendamento justo entre as cargas de trabalho. As cargas de trabalho são isoladas fisicamente no nível do host e logicamente no nível organizacional, proporcionando desempenho de modelo previsível. Além disso, ao misturar estrategicamente recursos reservados para aplicativos de missão crítica e recursos de GPU compartilhados para cargas de trabalho não críticas ou experimentais, aumentamos drasticamente a utilização geral do hardware. Isso significa que você não está apenas protegendo o ambiente, mas maximizando o retorno de um investimento massivo em infraestrutura.
Mas o isolamento de compute é apenas metade da batalha. É aí que subimos na stack para proteger a rede.
Controle de Rede Forte: De IA Airgapped a VPCs Dinâmicas
Nós protegemos o silício e o hipervisor, mas no mundo da IA, a rede é o vetor de ataque final. Se um modelo for comprometido por meio de uma prompt injection sofisticada ou um ataque de envenenamento de dados, a pergunta imediata se torna: o que mais ele pode alcançar? Para responder a isso, precisamos analisar como projetamos a topologia de rede. Com o VCF e a arquitetura subjacente do VMware NSX, não estamos apenas atribuindo VLANs, estamos construindo arquiteturas de rede altamente dinâmicas e definidas por software, adaptadas ao perfil de risco exato da carga de trabalho de IA.
Vamos começar com a opção mais forte: o airgap. Como estamos executando o VMware Private AI Foundation with NVIDIA inteiramente on-premises, habilitamos a capacidade nativa de implantar um ambiente de IA totalmente airgapped. Se você é um empreiteiro de defesa, um provedor de saúde ou uma instituição financeira altamente regulamentada, pode isolar sua stack de IA completamente do mundo exterior. Os modelos, os pipelines RAG, os dados e os endpoints de inferência nunca pingam a internet pública.
Mas para a maioria das empresas, os modelos de IA precisam interagir com bancos de dados internos e aplicativos corporativos. É aqui que nossa capacidade de controlar a rede se torna absoluta. Em vez de colocar todas as cargas de trabalho de IA em uma rede corporativa plana, provisionamos virtual private clouds (VPCs) dedicadas para cada tenant organizacional. A criação de uma VPC dedicada pode ser feita usando código para que todo esse processo possa ser facilmente automatizado.
Aqui está um exemplo de criação de uma VPC:
apiVersion: vpc.nsx.vmware.com/v1alpha1
kind: VPC
metadata:
name: gpu-vpc
spec:
description: GPU vpc
loadBalancerVPCEndpoint:
enabled: true
privateIPs:
- 192.173.237.0/24
regionName: us-west
apiVersion: vpc.nsx.vmware.com/v1alpha1
kind: VPC
metadata:
name: gpu-vpc
spec:
description: GPU vpc
loadBalancerVPCEndpoint:
enabled: true
privateIPs:
- 192.173.237.0/24
regionName: us-west
Isso nos dá imensa flexibilidade em como mapeamos redes lógicas para hardware físico:
- Infraestrutura Física Compartilhada: Para ferramentas de IA padrão e voltadas para uso interno (como um bot de helpdesk de TI), várias VPCs de tenant podem compartilhar com segurança os mesmos switches de rede física e hardware subjacentes, contando com isolamento de roteamento lógico.
- Infraestrutura Física Dedicada: Para projetos de IA altamente classificados (como modelagem financeira proprietária ou P&D de produtos não lançados), podemos rotear a VPC desse tenant específico para uma rede de acesso totalmente separada. Ao implantar roteadores Tier-0 (T0) dedicados para esses tenants específicos, conectamos suas VPCs lógicas diretamente a uma stack de rede fisicamente separada.
Essa capacidade permite impor isolamento de rede lógico e físico rigoroso para seus tenants mais sensíveis, ao mesmo tempo em que permite que eles compartilhem o mesmo pool subjacente de recursos de GPU altamente caros. Você obtém a postura de segurança de rede definitiva sem destruir a utilização do seu compute. Em um ambiente bare-metal, alcançar esse isolamento de rede físico exige a compra de servidores completamente separados e a conexão manual deles a switches air-gapped, forçando você a dedicar GPUs inteiras a projetos únicos e fragmentando o ROI do seu hardware.
Nós ditamos o roteamento, o isolamento e os pontos de saída. Podemos controlar exatamente quais data stores um agente de IA pode consultar e quais APIs ele pode acionar. No entanto, controlar a topologia de rede ampla é apenas o primeiro passo. Para desriscar verdadeiramente a IA corporativa, precisamos adotar uma mentalidade de Confiança Zero (Zero Trust) e assumir que um invasor pode eventualmente violar uma VPC ou pod específico. Precisamos policiar o tráfego dentro da rede, até o pacote individual. Isso prepara o terreno para nossa próxima postagem na série: impondo a microssegmentação Leste-Oeste com o vDefend.
Pronto para iniciar sua jornada de IA e ML? Confira estes recursos úteis:
Preencha este formulário para entrar em contato conosco! Leia o solution brief do VMware Private AI Foundation with NVIDIA. Saiba mais sobre o VMware Private AI Foundation with NVIDIA. Descubra mais no Blog VMware Cloud Foundation (VCF). Assine para receber as últimas postagens por e-mail.
Perspectiva da VirtuAllIT:
Como parceira certificada, a VirtuAllIT possui a expertise e as certificações necessárias para auxiliar sua empresa na implementação e otimização das soluções VMware Private AI Foundation with NVIDIA, garantindo uma infraestrutura de IA segura, eficiente e em conformidade com as melhores práticas do mercado. Nossa equipe pode guiar sua organização desde o planejamento até a operação, maximizando o retorno sobre o investimento em suas iniciativas de IA.
Precisa de ajuda com suas soluções de TI?
A VirtuAllIT Solutions oferece consultoria especializada em virtualização, cloud computing e infraestrutura tecnológica.

