Hybrid GPU Orchestration for Enterprise AI at Scale

Hybrid GPU Orchestration for Enterprise AI at Scale Kerim Satirli
Senior Developer Advocate II HashiCorp, an IBM Company NVIDIA GTC 2026

©2026 HASHICORP Your GPU is probably in three places at
once.

Edge On-Prem Cloud Workload Locations

mobile deployments and disconnected locations • NVIDIA Jetson Series •
disposable compute Edge traditional DCS and failover locations • Linux distributions • Windows Server On-Prem AWS, Azure, Google, IBM Cloud, and more • traditional compute • specialized compute Cloud Workload Locations

mobile deployments and disconnected locations • NVIDIA Jetson Series •
disposable compute Edge traditional DCS and failover locations • Linux distributions • Windows Server On-Prem AWS, Azure, Google, IBM Cloud, and more • traditional compute • specialized compute Cloud Workload Locations HashiCorp Nomad

©2026 HASHICORP • resource hungry • state aware • hardware
constrained AI workloads are just

Workload Orchestration with HashiCorp Nomad

Executables Containers Runtimes Workload Support

Executables Containers Runtimes Workload Support • isolated and raw execution
• Windows binaries • macOS binaries traditional workloads

• Windows binaries • macOS binaries • Docker • Podman • containerd traditional workloads modern workloads

• Windows binaries • macOS binaries • Docker • Podman • containerd • Java • QEMU • libvirt traditional workloads modern workloads specialized workloads

• Windows binaries • macOS binaries • Docker • Podman • containerd • Java • QEMU • libvirt traditional workloads modern workloads specialized workloads HashiCorp Nomad

©2026 HASHICORP Nomad is a general-purpose workload orchestrator (not a
container runtime)

Orchestrating a Workload with HashiCorp Nomad

defines basic job properties • datacenter and region • type
of job • update strategy Job Workload Specification

of job • update strategy defines how to co-locate tasks • network config • volume config • service discovery Job Group Workload Specification

of job • update strategy defines atomic units of work • driver selection • task environment • resource requirements defines how to co-locate tasks • network config • volume config • service discovery Task Job Group Workload Specification

GPU Workloads with Nomad job "docling" { datacenters = ["dc1"]
type = "service" constraint { attribute = "${node.class}" value = "linux" } group "api" { task "docling-serve" { driver = "podman" config { image = "quay.io/docling-project/docling-serve:latest" command = "docling-serve" } device "nvidia/gpu" { count = 1 } } } } docling.nomad.hcl

GPU Workloads with Nomad NVIDIA H200 141GB GPU

GPU Workloads with Nomad 18GB 18GB 18GB 18GB 18GB 18GB
18GB 1 compute 1 compute 1 compute 1 compute 1 compute 1 compute NVIDIA H200 MIG Pro fi le 18GB 1 compute

GPU Workloads with Nomad 18GB 18GB 18GB 18GB 18GB 18GB
1 compute 1 compute 1 compute 1 compute 1 compute NVIDIA H200 MIG Pro fi le 18GB 1 compute 18GB 1 compute

GPU Workloads with Nomad 18GB 18GB 18GB 18GB 18GB 1
compute 1 compute 1 compute 1 compute I H200 18GB 1 compute 18GB 1 compute 18GB 1 compute

GPU Workloads with Nomad job "docling" { # other config
hidden group "api" { task "docling-serve" { # other config hidden device "nvidia/gpu" { count = 1 } resources { device "nvidia/gpu/NVIDIA H200 MIG 1g.18gb" { count = 1 } } } } } docling.nomad.hcl

github.com/ksatirli/gpu-workloads-on-nomad Get the Code

speakerdeck.com/ksatirli Thank you

Hybrid GPU Orchestration for Enterprise AI at S...

Hybrid GPU Orchestration for Enterprise AI at Scale

Resources

Companion Code

More Decks by Kerim Satirli

Other Decks in Programming

Featured

Transcript