Principais Conclusões: A Dell e a NVIDIA estão impulsionando a próxima evolução da inferência de IA, agora avançando o KV Cache com inovações como a Context Memory Storage Platform (CMS - Plataforma de Armazenamento de Memória de Contexto) e a unidade de processamento de dados (DPU) NVIDIA BlueField-4. Essa colaboração permite um processamento mais rápido e eficiente para Large Language Models (LLMs), ajudando as organizações a otimizar a velocidade, reduzir a latência e melhorar a eficiência de custos. As soluções de armazenamento de alto desempenho da Dell, incluindo Dell PowerScale, Dell ObjectScale e Project Lightning, são projetadas para suportar esses avanços, fornecendo a base flexível necessária para as cargas de trabalho de IA atuais e futuras. Juntas, Dell e NVIDIA estão construindo a infraestrutura para impulsionar a próxima geração de inovação em IA.

A Inteligência Artificial está avançando rapidamente, com os Large Language Models (LLMs) tornando-se cada vez mais inteligentes e complexos. Para as organizações que implementam esses modelos, o desafio muitas vezes muda do treinamento para a inferência agentic, entregando respostas rápidas e cientes do contexto, enquanto otimizam a infraestrutura e aceleram a geração de tokens. Uma solução chave para esse desafio é o offloading (descarregamento) do Key-Value (KV) Cache.

Quando um LLM processa um prompt, ele gera dados de "atenção", Keys e Values, que o ajudam a entender o contexto da inferência. Armazenar esses dados na memória de alta largura de banda (HBM) da GPU permite uma rápida geração de tokens, um processo conhecido como KV Caching. No entanto, à medida que o histórico da conversa ou o comprimento do documento aumentam, o cache se expande, forçando uma recomputação custosa quando não pode mais ser mantido na memória da GPU. Esse gargalo retarda os tempos de resposta e aumenta o consumo de energia. A resposta reside em descarregar o KV Cache para recursos mais abundantes, liberando as GPUs para se concentrarem na computação. O NVIDIA BlueField-4 e a Dell Technologies fornecem o desempenho e a escalabilidade necessários para enfrentar esses desafios, garantindo uma inferência de IA eficiente em escala.

Apresentando a Context Memory Storage Platform com NVIDIA BlueField-4

O mais recente avanço em IA da NVIDIA, o processador de dados NVIDIA BlueField-4, traz o conceito de CMS para o primeiro plano. É um tier (camada) de memória dedicado projetado para lidar com as crescentes demandas do "reservatório de raciocínio" em cargas de trabalho de IA. A Dell está desenvolvendo soluções de armazenamento que são construídas especificamente para complementar e alavancar totalmente as capacidades do processador de dados para CMS, a fim de acelerar ainda mais a inferência. O NVIDIA BlueField-4 otimiza o KV caching com um motor de aceleração especializado, preenchendo a lacuna entre a memória da GPU, rápida mas limitada, e o armazenamento tradicional para acelerar ainda mais o desempenho da inferência.

Principais Benefícios do NVIDIA BlueField-4 para KV Cache

Otimizar a Utilização e o Throughput da GPU: O processador de dados é projetado para otimizar os caminhos de dados, reduzir interrupções e recomputação, melhorando o throughput (vazão) e a utilização para inferência de "longo raciocínio" (long-thinking).
Acelerar a Inferência Agentic: Para raciocínio ativo e conversas em tempo real, cada milissegundo conta. A baixa latência do processador de dados melhora a capacidade de resposta e minimiza o tempo necessário para buscar o contexto em cache.
Melhorar a Eficiência Energética: Ao otimizar o movimento de dados, a solução melhora o desempenho por watt, tornando-a uma escolha sustentável para escalar as fábricas de IA.

Desempenho Escalável para Cada Arquitetura

A comprovada experiência da Dell em armazenamento e gerenciamento de dados garante que os clientes não precisem esperar pelo hardware de amanhã para ver ganhos massivos de desempenho e eficiência agora. A Dell se dedica a apoiar as mais recentes inovações em IA da NVIDIA, desenvolvendo soluções de armazenamento projetadas para desbloquear e amplificar as capacidades do NVIDIA BlueField-4. Nosso objetivo é ajudar as organizações a aproveitar todo o poder desta nova plataforma para uma ampla gama de cargas de trabalho de IA, fornecendo uma infraestrutura contínua e escalável que se baseia nos avanços da NVIDIA.

Ao mesmo tempo, para as organizações de hoje, a Dell já oferece soluções de offload de KV Cache altamente escaláveis e de alto desempenho que aceleram a inferência de forma contínua, proporcionando uma melhoria de 19x no TTFT (Time to First Token – Tempo para o Primeiro Token) e até 5,3x no número de consultas por segundo.

A Abordagem da Dell: Flexibilidade Encontra Desempenho

Para ambientes sem NVIDIA BlueField-4, ou para aqueles que precisam escalar a capacidade para a faixa de petabytes, a Dell oferece um robusto stack de software. Ao integrar tecnologias como LMCache e NVIDIA NIXL (NVIDIA Inference Transfer Library) com nossos motores de armazenamento de IA líderes do setor, transformamos sua infraestrutura de armazenamento em uma extensão de alta velocidade da sua memória da GPU. Essa solução permite que o KV Cache seja descarregado eficientemente para os motores de file ou object storage da Dell usando a tecnologia RDMA, ignorando a CPU para manter um fluxo de dados de alta velocidade.

O Poder da Escolha: Motores de Armazenamento de IA da Dell

Suportamos essa capacidade de offloading em nosso portfólio diversificado, dando a você a liberdade de escolher o armazenamento certo para suas necessidades específicas:

Dell PowerScale: Ideal para quem precisa da simplicidade do NAS com acesso paralelo de alto desempenho. Usando NFS-over-RDMA, o PowerScale oferece acesso de baixa latência a grandes quantidades de dados em cache.
Dell ObjectScale: Para organizações que constroem aplicações cloud-native, o ObjectScale fornece object storage de alto desempenho. Com nossa tecnologia exclusiva S3-over-RDMA, você obtém a escalabilidade do object storage com a velocidade tipicamente reservada para file systems (sistemas de arquivos).
Project Lightning (em private preview): Para as cargas de trabalho mais exigentes, nosso inovador file system paralelo, projetado para a era da IA, aproveita o NVMe-over-Fabrics para transferir dados diretamente das unidades para a memória da GPU, minimizando a latência e maximizando o throughput.

Por Que Isso Importa Para o Seu Negócio

A capacidade de descarregar o KV Cache de forma eficaz – seja através de uma DPU especializada como o NVIDIA BlueField-4 ou de um motor de armazenamento escalável – transforma a economia da IA.

Eficiência de Custo: Você não precisa mais comprar GPUs mais caras apenas para obter mais memória. Você pode expandir sua janela de contexto usando armazenamento econômico ou DPUs especializadas.
Experiência do Usuário Aprimorada: Ao reter longas janelas de contexto, seus modelos de IA podem lembrar mais da conversa, resumir documentos maiores e fornecer respostas mais precisas e personalizadas, mesmo para conversas longas e multi-turn em várias sessões de usuário.
Preparação para o Futuro (Future-Proofing): À medida que os modelos crescem para suportar milhões de tokens em um único prompt, o KV Cache se tornará muito grande para qualquer servidor único, aumentando a importância da inferência distribuída. As soluções de armazenamento escaláveis da Dell garantem que sua infraestrutura possa crescer junto com suas ambições de IA.

Avançando a Infraestrutura de IA Juntos

Na Dell Technologies, acreditamos no poder de um ecossistema aberto. Ao colaborar com a NVIDIA, estamos construindo uma AI Factory abrangente que o capacita a inovar mais rapidamente. Seja implementando o NVIDIA BlueField-4 para extensão de contexto de latência ultrabaixa ou aproveitando a escalabilidade massiva do Dell PowerScale, ObjectScale e Lightning para seu stack de inferência empresarial, temos as soluções para ajudá-lo a avançar. O futuro da IA é ciente do contexto, rápido e eficiente. Juntos, estamos construindo a infraestrutura que o torna possível.

Sobre o Autor: Rajesh Rajaraman

Rajesh Rajaraman é responsável pela estratégia de tecnologia, arquitetura e inovação em todo o portfólio. Líder de tecnologia comprovado com mais de 25 anos de experiência em armazenamento e sistemas distribuídos. Ele possui uma vasta amplitude e profundidade técnica em armazenamento, proteção de dados, tecnologias de public cloud e é autor de muitas patentes. Ele também possui um diploma de engenharia em eletrônica e comunicação. Antes de ingressar na Dell, ele ocupou cargos na NetApp, Cohesity e DEC.

Este site utiliza cookies

Dell e NVIDIA Expandem os Horizontes da Inferência de IA

Precisa de ajuda com suas soluções de TI?