Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模な分散機械学習を支える NVIDIA H100 Kubernetes クラスタとそのエコシステム

大規模な分散機械学習を支える NVIDIA H100 Kubernetes クラスタとそのエコシステム

CyberAgent group Infrastructure Unit(CIU)では、機械学習を用いた開発における課題を解決するためにML Platformという社内向け機械学習基盤を開発しています。この基盤では日々様々なタスクが実行されており、その中でも画像生成・自然言語処理モデルのサイズは年々大きくなっています。また、モデルのパラメーター数も指数関数的に増加しており、それに伴い大規模な計算リソースが不可欠になっています。本セッションでは大規模なGPUクラスタを実現するためのアーキテクチャや、分散学習をKubernetesで実行するためのエコシステムについて紹介いたします。

https://cadc.cyberagent.co.jp/2023/sessions/distributed-ml-with-kubernetes/?utm_medium=ca_ex&utm_source=speaker_deck&utm_campaign=official

CyberAgent

June 29, 2023
Tweet

More Decks by CyberAgent

Other Decks in Technology

Transcript