Slide 1

Slide 1 text

2024/12/12 re:Growth 2024 札幌 たかくに SageMaker HyperPod 101

Slide 2

Slide 2 text

⾃⼰紹介 ● 部署 ○ AWS 事業本部コンサルティング部 ● 名前(ニックネーム) ○ たかくに ● ロール ○ ソリューションアーキテクト ● re:Invent どうだった? ○ 楽しかった!が釣りタイトル踏んでしまう

Slide 3

Slide 3 text

オーバーしたらごめんなさい❤

Slide 4

Slide 4 text

re:Invent 2024 どうでしたか?

Slide 5

Slide 5 text

re:Invent 2024 どうでしたか??

Slide 6

Slide 6 text

re:Invent 2024 どうでしたか???

Slide 7

Slide 7 text

SageMaker HyperPod すごかったですね!!!!!!!!

Slide 8

Slide 8 text

Dr. Swami’s Key Note

Slide 9

Slide 9 text

Dr. Swami’s Key Note

Slide 10

Slide 10 text

Dr. Swami’s Key Note

Slide 11

Slide 11 text

Dr. Swami’s Key Note

Slide 12

Slide 12 text

Dr. Swami’s Key Note

Slide 13

Slide 13 text

Dr. Swami’s Key Note

Slide 14

Slide 14 text

SageMaker HyperPod すごかったですね!!!!!!!!

Slide 15

Slide 15 text

問題です

Slide 16

Slide 16 text

re:Invent 2023 の Dr.Swami は 何枚⽬でしたでしょう?

Slide 17

Slide 17 text

正解:2枚⽬

Slide 18

Slide 18 text

そうです。 2023年に出てきたサービスです。

Slide 19

Slide 19 text

● ⼤規模な⾔語モデルの推論や分散並列学習を ⾏うプラットフォーム ● Slurm と EKS オーケストレーターをサポート ● 回復⼒のあるプラットフォームを提供 SageMaker HyperPod

Slide 20

Slide 20 text

モデルにわたす データセット、トークン、パラメータ

Slide 21

Slide 21 text

でかい!!!!!!!!!!!

Slide 22

Slide 22 text

SageMaker HyperPod

Slide 23

Slide 23 text

安定した機械学習ワークロードを 提供するように設計されている AWS ParallelCluster と⽐べて

Slide 24

Slide 24 text

SageMaker HyperPod のここがすごい ● クラスターヘルスチェック ○ 起動中やワーカーノード追加前にヘルスチェック ■ GPU, Trainium, EFA ■ EKS の場合はハードウェアまで確認 ● ⾃動ノード復旧/再開 ○ 障害を検知しノードを交換 ○ 新規ノードはチェックポイントから⾃動で再開

Slide 25

Slide 25 text

やっと、アップデート紹介です。

Slide 26

Slide 26 text

SageMaker HyperPod のここがすごい ● クラスターヘルスチェック ○ 起動中やワーカーノード追加前にヘルスチェック ■ GPU, Trainium, EFA ■ EKS の場合はハードウェアまで確認 ● ⾃動ノード復旧/再開 ○ 障害を検知しノードを交換 ○ 新規ノードはチェックポイントから⾃動で再開

Slide 27

Slide 27 text

● EKS のみサポート ● 起動しているインスタンス/タスクの可視化 ○ GPU の使⽤率、使⽤時間等 ● クラスターポリシーを使い統制可能に Amazon SageMaker HyperPod task governance

Slide 28

Slide 28 text

Amazon SageMaker HyperPod task governance

Slide 29

Slide 29 text

● EKS のみサポート ● 起動しているインスタンス/タスクの可視化 ○ GPU の使⽤率、使⽤時間等 ● クラスターポリシーを使い統制可能に Amazon SageMaker HyperPod task governance

Slide 30

Slide 30 text

● 利⽤可能なコンピュートサイズ、期間を予約 する機能 ● 予約期間は1⽇から182⽇まで1⽇単位で設定 ● 安くなるわけではない Amazon SageMaker HyperPod flexible training plans

Slide 31

Slide 31 text

Amazon SageMaker HyperPod flexible training plans

Slide 32

Slide 32 text

No content