Apresentando o Treinamento Checkpointless e Elastic no Amazon SageMaker HyperPod

Hoje, anunciamos dois novos recursos de treinamento de modelos de IA dentro do Amazon SageMaker HyperPod: o checkpointless training (treinamento sem checkpoint), uma abordagem que mitiga a necessidade de recuperação tradicional baseada em checkpoint ao permitir a recuperação de estado peer-to-peer, e o elastic training (treinamento elástico), que permite que as cargas de trabalho de IA escalem automaticamente com base na disponibilidade de recursos.

Checkpointless Training – O checkpointless training elimina ciclos disruptivos de reinício (checkpoint-restart), mantendo o progresso contínuo do treinamento apesar das falhas e reduzindo o tempo de recuperação de horas para minutos. Acelere o desenvolvimento de seus modelos de IA, recupere dias dos seus cronogramas de desenvolvimento e escale fluxos de trabalho de treinamento com confiança para milhares de aceleradores de IA.

Elastic Training – O elastic training maximiza a utilização do cluster, pois as cargas de trabalho de treinamento se expandem automaticamente para usar a capacidade ociosa assim que ela se torna disponível, e se contraem para liberar recursos quando cargas de trabalho de prioridade mais alta, como picos de volumes de inference, atingem o máximo. Economize horas de tempo de engenharia por semana que seriam gastas reconfigurando jobs de treinamento com base na disponibilidade de compute.

Em vez de gastar tempo gerenciando a infraestrutura de treinamento, essas novas técnicas significam que sua equipe pode se concentrar inteiramente em aprimorar o desempenho do modelo, levando seus modelos de IA ao mercado mais rapidamente. Ao eliminar as dependências tradicionais de checkpoint e utilizar totalmente a capacidade disponível, você pode reduzir significativamente os tempos de conclusão do treinamento de modelos.

Checkpointless Training: Como Funciona

A recuperação tradicional baseada em checkpoint possui as seguintes etapas sequenciais: 1) término e reinício do job, 2) descoberta de processo e configuração de rede, 3) recuperação do checkpoint, 4) inicialização do data loader e 5) retomada do training loop. Quando falhas ocorrem, cada etapa pode se tornar um gargalo, e a recuperação do treinamento pode levar até uma hora em clusters de treinamento autogerenciados. O cluster inteiro deve esperar que cada etapa seja concluída antes que o treinamento possa ser retomado. Isso pode levar o cluster de treinamento inteiro a ficar ocioso durante as operações de recuperação, o que aumenta os custos e estende o tempo de colocação no mercado (time to market).

O checkpointless training remove esse gargalo inteiramente ao manter a preservação contínua do estado do modelo em todo o cluster de treinamento. Quando falhas ocorrem, o sistema se recupera instantaneamente usando peers saudáveis, evitando a necessidade de uma recuperação baseada em checkpoint que exige o reinício de todo o job. Como resultado, o checkpointless training permite a recuperação de falhas em minutos.

O checkpointless training foi projetado para adoção incremental e é construído sobre quatro componentes principais que trabalham juntos: 1) otimizações de inicialização de comunicações coletivas, 2) carregamento de dados mapeados por memória (memory-mapped data loading) que permite caching, 3) recuperação em processo (in-process recovery) e 4) replicação de estado peer-to-peer checkpointless. Esses componentes são orquestrados através do operador de treinamento do HyperPod, usado para iniciar o job.

Cada componente otimiza uma etapa específica no processo de recuperação e, juntos, eles permitem a detecção e recuperação automática de falhas de infraestrutura em minutos, com zero intervenção manual, mesmo com milhares de aceleradores de IA. Você pode habilitar progressivamente cada um desses recursos à medida que seu treinamento escala. Os modelos Amazon Nova mais recentes foram treinados usando essa tecnologia em dezenas de milhares de aceleradores. Além disso, com base em estudos internos em tamanhos de cluster variando entre 16 GPUs a mais de 2.000 GPUs, o checkpointless training demonstrou melhorias significativas nos tempos de recuperação, reduzindo o downtime em mais de 80% em comparação com a recuperação tradicional baseada em checkpoint. Para saber mais, visite HyperPod Checkpointless Training no Amazon SageMaker AI Developer Guide.

Elastic Training: Como Funciona

Em clusters que executam diferentes tipos de cargas de trabalho de IA modernas, a disponibilidade de aceleradores pode mudar continuamente ao longo do dia, à medida que execuções de treinamento de curta duração são concluídas, picos de inference ocorrem e diminuem, ou recursos são liberados de experimentos finalizados. Apesar dessa disponibilidade dinâmica de aceleradores de IA, as cargas de trabalho de treinamento tradicionais permanecem presas à sua alocação inicial de compute, incapazes de aproveitar os aceleradores ociosos sem intervenção manual. Essa rigidez deixa valiosa capacidade de GPU não utilizada e impede que as organizações maximizem seu investimento em infraestrutura.

O elastic training transforma a maneira como as cargas de trabalho de treinamento interagem com os recursos do cluster. Os jobs de treinamento podem escalar automaticamente para utilizar os aceleradores disponíveis e se contrair de forma elegante quando os recursos são necessários em outro lugar, tudo isso mantendo a qualidade do treinamento. A elasticidade da carga de trabalho é habilitada através do operador de treinamento do HyperPod, que orquestra as decisões de escalabilidade por meio da integração com o Kubernetes control plane e o resource scheduler.

Ele monitora continuamente o estado do cluster através de três canais principais: eventos de ciclo de vida de pods, mudanças na disponibilidade de nós e sinais de prioridade do resource scheduler. Esse monitoramento abrangente permite a detecção quase instantânea de oportunidades de escalabilidade, seja a partir de recursos recém-disponíveis ou de solicitações de cargas de trabalho de prioridade mais alta.

O mecanismo de escalabilidade depende da adição e remoção de réplicas de paralelismo de dados (data parallel replicas). Quando recursos de compute adicionais se tornam disponíveis, novas réplicas de paralelismo de dados se juntam ao job de treinamento, acelerando o throughput. Inversamente, durante eventos de redução de escala (scale-down) (por exemplo, quando uma carga de trabalho de prioridade mais alta solicita recursos), o sistema reduz a escala removendo réplicas em vez de encerrar o job inteiro, permitindo que o treinamento continue com capacidade reduzida. Em diferentes escalas, o sistema preserva o global batch size e adapta as taxas de aprendizado (learning rates), evitando que a convergência do modelo seja adversamente impactada. Isso permite que as cargas de trabalho escalem dinamicamente para cima ou para baixo para utilizar os aceleradores de IA disponíveis sem qualquer intervenção manual.

Você pode iniciar o elastic training através das HyperPod recipes para foundation models (FMs) publicamente disponíveis, incluindo Llama e GPT-OSS. Além disso, você pode modificar seus scripts de treinamento PyTorch para adicionar elastic event handlers, que permitem que o job escale dinamicamente. Para saber mais, visite HyperPod Elastic Training no Amazon SageMaker AI Developer Guide. Para começar, encontre as HyperPod recipes disponíveis no repositório AWS GitHub.

Já Disponível

Ambos os recursos estão disponíveis em todas as Regiões onde o Amazon SageMaker HyperPod está disponível. Você pode usar essas técnicas de treinamento sem custo adicional. Para saber mais, visite a página do produto SageMaker HyperPod e a página de preços SageMaker AI. Experimente e envie feedback para o AWS re:Post para SageMaker ou através de seus contatos habituais de Suporte AWS.

— Channy

Este site utiliza cookies

Apresentando o treinamento elástico e sem checkpoints no Amazon SageMaker HyperPod

Apresentando o Treinamento Checkpointless e Elastic no Amazon SageMaker HyperPod

Checkpointless Training: Como Funciona

Elastic Training: Como Funciona

Já Disponível

Precisa de ajuda com suas soluções de TI?