Cloud Native Days Summer 2024での発表のスライドです。
概要
LLMを含む生成AIモデル学習の競争が激化しており、高い計算能力を持つクラスタを早く構築し使い勝手よく提供することがより重要になっています。生成AIのモデル学習向けにさらなる計算リソースを得るため、我々はさくらインターネット石狩データセンターのNVIDIA H100 GPUベアメタルサーバサービスを用いてKubernetesクラスタを構築しています。本発表ではこの新たな生成AI向け機械学習クラスタをどのように短期間で構築したのか、設計思想や構成から具体的なテクニックまで我々のこれまでのオンプレミス機械学習クラスタの構築と運用の経験を織りまぜながらお話しします。