Slide 22
Slide 22 text
總結
• DeepOps 簡化繁瑣部署各種問題,是⼀個 Nvidia 開源專案協助加速 GPU 叢集建置的⼯具
• Slurm 提供更多的 Scheduling Algorithms,讓 HPC 使⽤者資料科學家,能更有效執⾏對應 Jo
b
• 需要搭配 module load system 配置 GPU 環境依賴資源
• Kubernetes 對於 Batch System / AI 應⽤場景, 例如 TensorFlow, Spark, PyTorch, MP
I
• 需要搭配其他 Job Scheduler (kube-batch, Volcano) 來提升執⾏策略
• 平台選擇依據現有開發環境,選擇對開發者適⽤性最⾼為最佳
• 技術⾨檻 (e.g., 學習 YAML 撰寫, Disk 掛載問題)