SageMaker Hyperpod 101 #regrowth_sapporo
by
takakuni
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
2024/12/12 re:Growth 2024 札幌 たかくに SageMaker HyperPod 101
Slide 2
Slide 2 text
⾃⼰紹介 ● 部署 ○ AWS 事業本部コンサルティング部 ● 名前(ニックネーム) ○ たかくに ● ロール ○ ソリューションアーキテクト ● re:Invent どうだった? ○ 楽しかった!が釣りタイトル踏んでしまう
Slide 3
Slide 3 text
オーバーしたらごめんなさい❤
Slide 4
Slide 4 text
re:Invent 2024 どうでしたか?
Slide 5
Slide 5 text
re:Invent 2024 どうでしたか??
Slide 6
Slide 6 text
re:Invent 2024 どうでしたか???
Slide 7
Slide 7 text
SageMaker HyperPod すごかったですね!!!!!!!!
Slide 8
Slide 8 text
Dr. Swami’s Key Note
Slide 9
Slide 9 text
Dr. Swami’s Key Note
Slide 10
Slide 10 text
Dr. Swami’s Key Note
Slide 11
Slide 11 text
Dr. Swami’s Key Note
Slide 12
Slide 12 text
Dr. Swami’s Key Note
Slide 13
Slide 13 text
Dr. Swami’s Key Note
Slide 14
Slide 14 text
SageMaker HyperPod すごかったですね!!!!!!!!
Slide 15
Slide 15 text
問題です
Slide 16
Slide 16 text
re:Invent 2023 の Dr.Swami は 何枚⽬でしたでしょう?
Slide 17
Slide 17 text
正解:2枚⽬
Slide 18
Slide 18 text
そうです。 2023年に出てきたサービスです。
Slide 19
Slide 19 text
● ⼤規模な⾔語モデルの推論や分散並列学習を ⾏うプラットフォーム ● Slurm と EKS オーケストレーターをサポート ● 回復⼒のあるプラットフォームを提供 SageMaker HyperPod
Slide 20
Slide 20 text
モデルにわたす データセット、トークン、パラメータ
Slide 21
Slide 21 text
でかい!!!!!!!!!!!
Slide 22
Slide 22 text
SageMaker HyperPod
Slide 23
Slide 23 text
安定した機械学習ワークロードを 提供するように設計されている AWS ParallelCluster と⽐べて
Slide 24
Slide 24 text
SageMaker HyperPod のここがすごい ● クラスターヘルスチェック ○ 起動中やワーカーノード追加前にヘルスチェック ■ GPU, Trainium, EFA ■ EKS の場合はハードウェアまで確認 ● ⾃動ノード復旧/再開 ○ 障害を検知しノードを交換 ○ 新規ノードはチェックポイントから⾃動で再開
Slide 25
Slide 25 text
やっと、アップデート紹介です。
Slide 26
Slide 26 text
SageMaker HyperPod のここがすごい ● クラスターヘルスチェック ○ 起動中やワーカーノード追加前にヘルスチェック ■ GPU, Trainium, EFA ■ EKS の場合はハードウェアまで確認 ● ⾃動ノード復旧/再開 ○ 障害を検知しノードを交換 ○ 新規ノードはチェックポイントから⾃動で再開
Slide 27
Slide 27 text
● EKS のみサポート ● 起動しているインスタンス/タスクの可視化 ○ GPU の使⽤率、使⽤時間等 ● クラスターポリシーを使い統制可能に Amazon SageMaker HyperPod task governance
Slide 28
Slide 28 text
Amazon SageMaker HyperPod task governance
Slide 29
Slide 29 text
● EKS のみサポート ● 起動しているインスタンス/タスクの可視化 ○ GPU の使⽤率、使⽤時間等 ● クラスターポリシーを使い統制可能に Amazon SageMaker HyperPod task governance
Slide 30
Slide 30 text
● 利⽤可能なコンピュートサイズ、期間を予約 する機能 ● 予約期間は1⽇から182⽇まで1⽇単位で設定 ● 安くなるわけではない Amazon SageMaker HyperPod flexible training plans
Slide 31
Slide 31 text
Amazon SageMaker HyperPod flexible training plans
Slide 32
Slide 32 text
No content