Scaler vos charges de travail GPU avec Karpenter et Argo Workflows
03/02/2026 , Debussy

Distribuer des workloads ML sur Kubernetes tourne vite au casse-tête dès que les usages se multiplient : l’inférence batch n’a pas les mêmes contraintes que l’expérimentation ou l’évaluation :

  • Comment attribuer les bons GPU à chaque usage ?
  • Comment scaler différemment les charges de travail, nécessitant du hardware spécifique ?
  • Comment s'assurer du scale à 0 lorsqu’aucun GPU n’est utilisé dans le cluster ?

Dans ce talk, nous montrerons comment marier Argo Workflows (pour l'orchestration) et Karpenter — gestionnaire d'autoscaling open-source d’AWS, désormais supporté par la plupart des cloud providers mainstream, pour gérer des traitements ML batch sur Kubernetes. Nous décortiquerons les pièges de la gestion de flotte GPU (disponibilité, affinités/taints, coûts, interruptions Spot, ...) et comment Karpenter y répond : provisionning dynamique, contraintes d'affinité explicites, etc, dans le contexte de traitements batch avec Argo Workflows.

MLOps Engineer working at pruna, I am interested in efficient, reliable & robustly beneficial AI. My work is centered around building ML development platforms, and provide relevant tooling to build & deploy robust ML models in applications.