Desempenho de IA/ML em VMware Cloud Foundation (VCF) 9.0: Resultados do MLPerf Inference 5.1

A Broadcom colaborou com a Dell, Intel, NVIDIA e SuperMicro para destacar as vantagens da virtualização, entregando resultados notáveis no MLPerf Inference v5.1. O VMware Cloud Foundation (VCF) 9.0 alcançou desempenho comparável a ambientes bare metal nos principais benchmarks de IA — incluindo Speech-to-Text (Whisper), Text-to-Video (Stable Diffusion XL), LLMs (Llama 3.1-405B e Llama 2-70B), Graph Neural Networks (R-GAT) e Computer Vision (RetinaNet).

Esses resultados foram obtidos em soluções de GPU e CPU com 8x H200 GPUs virtualizadas da NVIDIA, 8x B200 GPUs em passthrough/DirectPath I/O, e processadores Xeon 6787P de dual-socket virtualizados da Intel. Para a comparação bruta das métricas relevantes, consulte os resultados oficiais do MLCommons Inference 5.1.

Com esses resultados, a Broadcom demonstra mais uma vez que os ambientes virtualizados do VCF apresentam desempenho equivalente ao bare metal, permitindo que os clientes se beneficiem da maior Agilidade, Disponibilidade e Flexibilidade que o VCF oferece, ao mesmo tempo que aproveitam um excelente desempenho.

VMware Private AI e Democratização da Inovação

O VMware Private AI é uma abordagem arquitetônica que equilibra os ganhos de negócios da IA com as necessidades de privacidade e compliance da organização. Construída sobre a plataforma de private cloud líder do setor, o VMware Cloud Foundation (VCF), essa abordagem garante a privacidade e o controle dos dados, a escolha de soluções de IA open-source e comerciais, e um ótimo custo, desempenho e compliance.

A Broadcom visa democratizar a IA e impulsionar a inovação de negócios para todas as organizações. O VMware Private AI permite que as empresas usem uma variedade de soluções de IA para seus ambientes — NVIDIA, AMD, Intel, repositórios da comunidade open-source e fornecedores independentes de software. Com o VMware Private AI, as empresas podem implantar com confiança, sabendo que a Broadcom estabeleceu parcerias com os principais provedores de IA.

A Broadcom traz o poder de seus parceiros Dell, Intel, NVIDIA e SuperMicro para o VCF, simplificando o gerenciamento de data centers acelerados por IA e permitindo o desenvolvimento e a execução eficientes de aplicações para workloads exigentes de AI/ML.

Apresentamos três configurações no VCF: o SuperMicro GPU SuperServer AS-4126GS-NBR-LCC com 8xB200s interligadas por NVLink em DirectPath I/O, o Dell PowerEdge XE9680 com 8xH200s interligadas por NVLink no modo vGPU, e uma VM 1-node-2S-GNR_86C_ESXi_172VCPU com CPUs INTEL(R) XEON(R) 6787P de 86 cores.

Desempenho do MLPerf Inference 5.1 com VCF no Servidor SuperMicro com NVIDIA 8xB200

O VCF suporta tanto as tecnologias DirectPath I/O quanto NVIDIA Virtual GPU (vGPU) para habilitar GPUs para IA e outros workloads baseados em GPU. Para uma demonstração de desempenho de IA com NVIDIA B200 GPUs, escolhemos o DirectPath I/O para nosso benchmarking do MLPerf Inference.

Executamos workloads do MLPerf Inference em um SuperMicro SuperServer AS-4126GS-NBR-LCC com oito NVIDIA SXM B200 180GB HBM3e GPUs utilizando o VCF 9.0.0. A Tabela 1 mostra as configurações de hardware usadas para executar os workloads do MLPerf Inference 5.1 nos sistemas bare metal e virtualizados. Os benchmarks foram otimizados com o NVIDIA TensorRT-LLM.

O TensorRT-LLM consiste no compilador de deep learning TensorRT e inclui kernels otimizados, etapas de pré e pós-processamento, e primitivas de comunicação multi-GPU/multi-nó para um desempenho revolucionário em NVIDIA GPUs.

Tabela 1. Hardware e software para testes MLPerf bare metal e virtualizados

	Bare Metal	Virtual System
SuperMicro GPU SuperServer	SYS-422GA-NBRT-LCC	AS-4126GS-NBR-LCC
Processors	2x Intel Xeon 6960P 72 Core	2x AMD EPYC 9965 192 Core
Logical processors	144	192 de 384 (50%) alocados para a VM para inferência (com utilização de CPU abaixo de 10%). Portanto, 192 disponíveis para outras VMs/workloads com isolamento total devido à virtualização.
GPUs	8x NVIDIA B200 180GB HBM3e	DirectPath I/O 8x NVIDIA B200 180GB HBM3e
Accelerator Interconnect	18x NVIDIA 5th Gen NVLinks, 14.4 TB/s aggregated bandwidth	18x NVIDIA 5th Gen NVLinks, 14.4 TB/s aggregated bandwidth
Memory	2.3 TB Host Memory	3 TB
Storage	4x 15.36 TB NVMe SSD	4x 13.97 TB NVMe SSD
OS	Ubuntu 24.04	Ubuntu 24.04 VM on VCF/ESXi 9.0.0.0.24755229
CUDA	12.9 CUDA and Driver 575.57.08	12.8 CUDA and Driver 570.158.01
TensorRT	TensorRT 10.1	TensorRT 10.1

A Figura 1 demonstra que os workloads de Inferência AI/ML de diversos domínios, como LLM (Llama 3.1 com 405 bilhões de parâmetros, Speech2Text (Whisper da OpenAI), Text2Images (Stable Diffusion XL)), obtêm um desempenho em VCF comparável ao bare metal. Ao executar workloads de AI/ML no VCF, o cliente obtém os benefícios de gerenciamento de data center do VCF, aproveitando o desempenho equivalente ao bare metal.

Desempenho do MLPerf Inference 5.1 com VCF no Servidor Dell com NVIDIA 8xH200

A Broadcom oferece suporte a clientes empresariais que possuem infraestrutura de IA de diferentes fornecedores de hardware. Nesta rodada de submissão do MLPerf Inference 5.1, colaboramos com a NVIDIA e a Dell para demonstrar o VCF 9.0 como uma excelente plataforma para IA, especialmente para workloads de IA generativa.

Escolhemos o vGPU para nosso benchmarking para apresentar outra opção de implantação que os clientes podem escolher no VCF 9.0. O recurso vGPU integrado ao VCF oferece vários benefícios para a implantação e o gerenciamento da infraestrutura de IA.

Primeiro, o VCF cria grupos de dispositivos de 2-GPU, 4-GPU e 8-GPU usando NVLink e NVSwitch. Esses grupos de dispositivos podem ser alocados para diferentes VMs. Isso proporciona flexibilidade na alocação de recursos de GPU para a VM para melhor atender aos requisitos do workload e aumenta a utilização da GPU.

Segundo, o vGPU permite que múltiplas VMs compartilhem recursos de GPU no mesmo host. O vGPU aloca a cada VM uma porção da memória da GPU e/ou capacidade de computação da GPU especificada pelo perfil vGPU. Isso permite que múltiplos workloads menores compartilhem uma única GPU com base em seus requisitos de memória e computação. Isso ajuda a aumentar a consolidação do sistema, maximizar a utilização de recursos e economizar custos de implantação da infraestrutura de IA.

Terceiro, o vGPU oferece uma maneira flexível de gerenciar data centers com GPUs, suportando suspend/resume e VMware vMotion de VMs (nota: o vMotion é suportado apenas quando os workloads de IA não utilizam o recurso Unified Virtual Memory GPU).

Por último, mas não menos importante, o vGPU permite que diversos workloads baseados em GPU (como IA, gráficos ou outros workloads de high performance computing) compartilhem as mesmas GPUs físicas, onde cada workload pode ser implantado em um sistema operacional guest diferente e pertencer a diferentes tenants em um ambiente de multi-tenancy.

Executamos workloads do MLPerf Inference 5.1 em um Dell PowerEdge XE9680 com oito NVIDIA SXM H200 141 GB HBM3e GPUs utilizando o VCF 9.0.0. As VMs utilizadas em nossos testes receberam apenas uma fração dos recursos bare metal. A Tabela 2 apresenta as configurações de hardware usadas para executar os workloads do MLPerf Inference 5.1 nos sistemas bare metal e virtualizados.

Tabela 2. Hardware e software para Dell PowerEdge XE9680

	Bare Metal	Virtual System
Dell PowerEdge XE9680
Processors	Intel(R) Xeon(R) Platinum 8568Y+ 96 cores	Intel(R) Xeon(R) Platinum 8568Y+ 96 cores
Logical processors	192	192 total, 48 (25%) alocados para a VM para inferência, 144 disponíveis para outras VMs/workloads com isolamento total devido à virtualização.
GPU	8x NVIDIA H200 141GB HBM3e	8x virtualized NVIDIA H200-SXM-141GB (vGPU)
Accelerator Interconnect	18x 4th Gen NVLink, 900GB/s	18x 4th Gen NVLink, 900GB/s
Memory	3 TB Host Memory	3 TB
Alocação de Memória para VM	N/A	2 TB (67%) alocados para a VM de inferência
Storage	2 TB SSD, 5 TB CIFS	2x 3.5TB SSD, 1x 7TB SSD
OS	Ubuntu 24.04	Ubuntu 24.04 VM on VCF/ESXi 9.0.0.0.24755229
CUDA	12.8 and Driver 570.133	12.8 CUDA and Linux Driver 570.158.01
TensorRT	TensorRT 10.1	TensorRT 10.1

Os resultados do MLPerf Inference 5.1 apresentados na Tabela 3 mostram um excelente desempenho para large language models (Llama 3.1 405B e Llama 2 70B) e geração de imagens (SDXL – Stable Diffusion).

Tabela 3. Resultados do MLPerf Inference 5.1 usando 8x vGPUs no VCF 9.0 com Hardware Dell PowerEdge XE9680 com 8x H200 GPUs

Benchmarks	Throughputs
Llama 3.1 405B Server (tokens / sec)	277
Llama 3.1 405B Offline (tokens / sec)	547
Llama 2 70B Server (tokens / sec)	33385
Llama 2 70B Offline (tokens / sec)	34301
Llama 2 70B – High Accuracy – Server (tokens per sec)	33371
Llama 2 70B – High Accuracy – Offline (tokens per sec)	34486
SDXL Server (samples / sec)	17.95
SDXL Offline (samples / sec)	18.64

Na Figura 2, comparamos nossos resultados do MLPerf Inference 5.1 no VCF com os resultados da Dell em bare metal no mesmo Dell PowerEdge XE9680 com H200 GPUs. Ambos os resultados da Broadcom e da Dell estão publicamente disponíveis no website do MLCommons. Como a Dell submeteu apenas resultados do Llama 2 70B, a Figura 2 inclui o desempenho do MLPerf Inference 5.1 no VCF 9.0 versus bare metal para esses workloads e mostra que o VCF e o bare metal diferem em apenas 1% ou 2% no desempenho.

Desempenho do MLPerf Inference 5.1 no VCF com Processador Intel Xeon 6

A Intel e a Broadcom colaboraram para demonstrar as capacidades do VCF, capacitando clientes que utilizam apenas o processador Intel Xeon com aceleração AMX integrada para workloads de IA. Executamos workloads do MLPerf Inference 5.1, incluindo Llama 3.1 8B, DLRM-V2, R-GAT, Whisper e RetinaNet, no sistema apresentado na Tabela 4.

Tabela 4. Hardware e software para sistemas Intel

	Bare Metal	Virtual System
Nome do Sistema	1-node-2S-GNR_86C_BareMetal	1-node-2S-GNR_86C_ESXi_172VCPU-VM
Processors	INTEL(R) XEON(R) 6787P 86 cores	INTEL(R) XEON(R) 6787P 86 cores
Logical processors	172	172 vCPUs (43 vCPUs por nó NUMA)
Memory	1 TB (16x 64 GB DDR5 1286400 MT/s[8000 MT/s])	921 GB
Storage	1x 1.7 TB SSD	1x 1.7 TB SSD
OS	CentOS Stream 9	CentOS Stream 9
Other software stack	6.6.0-gnr.bkc.6.6.31.1.45.x86_64	6.6.0-gnr.bkc.6.6.31.1.45.x86_64, VMware ESXi 9.0.0.0.24755229

Workloads de IA, particularmente modelos menores, podem ser executados de forma eficiente em Intel Xeon CPUs com aceleração AMX usando o VCF, alcançando desempenho próximo ao bare metal enquanto se beneficiam da capacidade de gerenciamento e flexibilidade do VCF. Isso torna os processadores Intel Xeon CPUs um ótimo ponto de partida para organizações que embarcam em sua jornada de IA, pois podem aproveitar a infraestrutura existente.

Os resultados do MLPerf Inference 5.1 usando Processadores Intel Xeon no VCF mostram desempenho equivalente ao bare metal. Em casos onde os data centers não possuem aceleradores como GPUs disponíveis, ou os workloads de IA são menos exigentes em termos de computação, dependendo dos casos de uso do cliente, os workloads de AI/ML podem ser implantados em Processadores Intel Xeon no VCF para se beneficiarem da virtualização, aproveitando o desempenho equivalente ao bare metal, conforme mostrado na Figura 3.

Benchmarks do MLPerf Inference

Cada benchmark é definido por um Dataset e um Quality Target. A tabela a seguir resume os benchmarks nesta versão da suíte:

Tabela 5. Os benchmarks do MLPerf Inference 5.1

Área	Tarefa	Modelo	Dataset	QSL Size
Language	LLM – Q&A	Llama 2 70B	OpenOrca	24576
Language	Summarization	Llama 3.1 8B	CNN Dailymail (v3.00, max_seq_len=2048)	13368
Language	Text Generation	Llama 3.1 405B	Subset of LongBench, LongDataCollections, Ruler, GovReport	8313
Vision	Object detection	RetinaNet	OpenImages (800×800)	64
Speech	Speech to text	Whisper	LibriSpeech	1633
Image	Image Generation	SDXL 1.0	COCO-2014	5000
R-GAT	Node Classification	R-GAT	IGBH	788379
Commerce	Recommendation	DLRM-DCNv2	Criteo 4TB Multi-hot	204800
Commerce	Recommendation	DLRM	1TB Click Logs	204800

Em um cenário Offline, o gerador de workload (LoadGen) envia todas as consultas para o sistema sob teste (SUT) no início da execução. Em um cenário Server, o LoadGen envia novas consultas para o sistema sob teste de acordo com uma distribuição Poisson. Isso é mostrado na Tabela 6.

Tabela 6. Os cenários de teste do MLPerf Inference

Cenário	Geração de Query	Duração	Samples por query	Latency constraint	Tail latency	Performance metric
Server	LoadGen sends new queries to the SUT according to a Poisson distribution	270,336 queries and 60 seconds	1	Benchmark-specific	99%	Maximum Poisson throughput parameter supported
Offline	LoadGen sends all queries to the SUT at start	1 query and 60 seconds	At least 24,576	None	N/A	Measured throughput

Conclusão

O VCF oferece aos clientes múltiplas opções flexíveis para implantação de infraestrutura de IA, suporta múltiplos fornecedores de hardware e permite uma variedade de maneiras de habilitar workloads de IA que usam GPUs ou CPUs para computação.

Ao usar GPUs, as configurações virtualizadas das VMs utilizam apenas uma fração dos recursos de CPU e memória em nosso benchmarking e entregam desempenho de MLPerf Inference 5.1 equivalente ao bare metal, mesmo em pico de utilização da GPU — este é um benefício chave da virtualização. Isso permite que você utilize os recursos restantes de CPU e memória nesses sistemas para executar outros workloads com isolamento total, reduzir o custo da infraestrutura AI/ML e aproveitar os benefícios de virtualização do VCF para gerenciar data centers.

Os resultados de nossos testes de benchmark indicam que o VCF 9.0 se enquadra na "Zona Goldilocks" para workloads de AI/ML com desempenho comparável a ambientes bare metal.

O VCF também facilita o gerenciamento e o processamento rápido de workloads usando vGPUs, NVLinks flexíveis para conectar dispositivos e tecnologias de virtualização para usar a infraestrutura AI/ML para gráficos, training e inferência. A virtualização reduz o Total Cost of Ownership (TCO) de uma infraestrutura AI/ML, permitindo o compartilhamento de recursos de hardware caros entre múltiplos tenants.

Pronto para iniciar sua jornada de IA e ML?

Confira estes recursos úteis:

Preencha este formulário para entrar em contato conosco!
Leia o solution brief do VMware Private AI Foundation with NVIDIA.
Saiba mais sobre o VMware Private AI Foundation with NVIDIA.
Conecte-se conosco no Twitter em @VMwareVCF e no LinkedIn em VMware VCF.

Agradecimentos:

Gostaríamos de agradecer especialmente a Jia Dai (NVIDIA); Patrick Geary, Eddie Chao, Dexter Bermudez e Steven Phan (SuperMicro); Frank Han, Thaddeus Rogers, Minesh Patel e Manpreet Sokhi (Dell); Sajjid Reza, Mihir Rajesh Dattani, Manasa Kankanala e Komala B Rangappa (Intel); e Juan Garcia-Rovetta (Broadcom) por sua ajuda e apoio na conclusão deste trabalho.

Descubra mais no Blog VMware Cloud Foundation (VCF). Assine para receber os posts mais recentes por e-mail.

Este site utiliza cookies

O Novo Paradigma: MLPerf 5.1 Confirma que VCF é o Futuro do Desempenho de IA/ML