FSx for Lustreを使ったAIモデル開発の始め方

JAWS-UG福岡 #20 Storage-JAWS共催スペシャル森⽥⼒ FSx for Lustreを使ったAIモデル開発の始め⽅

⾃⼰紹介 2 • 名前 ◦ 森⽥⼒ • 所属 ◦
クラスメソッド株式会社 ▪ 福岡オフィス所属 ◦ クラウド事業本部コンサルティング部 • 好きなAWSサービス ◦ AWS Lambda ◦ Amazon Bedrock

⽬次 3 • AIモデル開発で必要となるファイルシステムの要件 • そもそもLustreとは • Amazon FSx for
Lustre とは • AIモデル開発で利⽤するには

AIモデル開発で必要となるファイルシステムの要件

AIモデル開発に必要なもの 5 AIモデル開発では何が必要か • ⾼性能コンピューティング（GPU/TPU） • ⼤規模データセット⽤の⾼速ファイルシステム • 効率的なデータパイプライン •
スケーラブルなストレージソリューション • 並列処理能⼒

AIモデル開発に必要なもの 6 AIモデル開発では何が必要か • ⾼性能コンピューティング（GPU/TPU） • ⼤規模データセット⽤の⾼速ファイルシステム • 効率的なデータパイプライン •
スケーラブルなストレージソリューション • 並列処理能⼒

ファイルシステムの課題 7 AIモデル開発におけるストレージの課題 • ⼤量のデータ（TB〜PB規模）の⾼速アクセス • 並列読み取り/書き込みのパフォーマンス • トレーニング中のI/Oボトルネック •
データセットの効率的な管理

そもそもLustreとは

Lustreとは 9 Lustreの特徴 • オープンソースの分散ファイルシステム • ⼤規模クラスターコンピューティング向けに設計 • ⾼スループット、低レイテンシー •
HPC（⾼性能コンピューティング）環境で広く採⽤ • 並列I/O処理に最適化

FSx for Lustre とは 10 • AWSが提供するフルマネージドLustreファイルシステム • インフラ管理不要 ◦
セットアップ, パッチ適⽤などマネージド管理 • S3との統合 • 数百GBpsのスループット、数百万IOPSを実現 ◦ ⼤規模な分散学習に耐えれる • オンデマンドでスケーリング可能 • 従量課⾦ ◦ 秒単位（ストレージサイズ, スループット）

S3からシームレスにデータをRead/Write 11 • S3バケットにデータセットを格納 • S3バケットがファイルシステムに同期される ◦ 低レイテンシ、⾼スループット • 学習済みモデルなどのアーティファクトをS3に保存する

AIモデル開発で利⽤するには

AIモデル開発で利⽤するには 13 SageMaker HyperPod で利⽤する • 容易さ ◦ 設定ファイル内で定義するだけで⾃動接続 ◦
分散学習向けに最適化された構成が提供される • パフォーマンス ◦ EFAとの最適化された統合 ◦ SageMaker分散ライブラリとの連携 • 管理 ◦ FSx for Lustreの設定もライフサイクルスクリプトに含められる ◦ モデルチェックポイント管理などマネージドなS3との統合

設定ファイルの変更 14 https://github.com/aws-samples/awsome-distributed-training/tree/mai n/1.architectures/5.sagemaker-hyperpod

AIモデル開発で利⽤するには 15 SageMaker HyperPod recipes • re:Invent 2024で発表 • ML必要なリソースの⾃動セットアップ
◦ トレーニングデータセットのロード ◦ 分散トレーニング ◦ 障害復旧の⾃動化

SageMaker HyperPod recipes 16 DeepSeek-R1をFine-Tuningしてみたのでよければご参考ください！

まとめ

まとめ 18 • FSx for Lustreでは⾼速‧⼤容量ファイルシステムをAWS上でフルマネージド提供 ◦ AIモデル開発⽤途に良い •
S3との統合で⼤規模データセットを低レイテンシ‧⾼スループットで処理可能 • SageMaker HyperPodとの連携で分散学習環境を容易に構築でき、AIモデル開発のデータ処理ボトルネックを解消 ◦ 特に、SageMaker HyperPod recipes がおすすめ

FSx for Lustreを使ったAIモデル開発の始め方

FSx for Lustreを使ったAIモデル開発の始め方

Morita

More Decks by Morita

Featured

Transcript

JAWS-UG福岡 #20 Storage-JAWS共催スペシャル森⽥⼒ FSx for Lustreを使ったAIモデル開発の始め⽅

⾃⼰紹介 2 • 名前 ◦ 森⽥⼒ • 所属 ◦

⽬次 3 • AIモデル開発で必要となるファイルシステムの要件 • そもそもLustreとは • Amazon FSx for

AIモデル開発で必要となるファイルシステムの要件

AIモデル開発に必要なもの 5 AIモデル開発では何が必要か • ⾼性能コンピューティング（GPU/TPU） • ⼤規模データセット⽤の⾼速ファイルシステム • 効率的なデータパイプライン •

AIモデル開発に必要なもの 6 AIモデル開発では何が必要か • ⾼性能コンピューティング（GPU/TPU） • ⼤規模データセット⽤の⾼速ファイルシステム • 効率的なデータパイプライン •

ファイルシステムの課題 7 AIモデル開発におけるストレージの課題 • ⼤量のデータ（TB〜PB規模）の⾼速アクセス • 並列読み取り/書き込みのパフォーマンス • トレーニング中のI/Oボトルネック •

そもそもLustreとは

Lustreとは 9 Lustreの特徴 • オープンソースの分散ファイルシステム • ⼤規模クラスターコンピューティング向けに設計 • ⾼スループット、低レイテンシー •

FSx for Lustre とは 10 • AWSが提供するフルマネージドLustreファイルシステム • インフラ管理不要 ◦

S3からシームレスにデータをRead/Write 11 • S3バケットにデータセットを格納 • S3バケットがファイルシステムに同期される ◦ 低レイテンシ、⾼スループット • 学習済みモデルなどのアーティファクトをS3に保存する

AIモデル開発で利⽤するには

AIモデル開発で利⽤するには 13 SageMaker HyperPod で利⽤する • 容易さ ◦ 設定ファイル内で定義するだけで⾃動接続 ◦

設定ファイルの変更 14 https://github.com/aws-samples/awsome-distributed-training/tree/mai n/1.architectures/5.sagemaker-hyperpod

AIモデル開発で利⽤するには 15 SageMaker HyperPod recipes • re:Invent 2024で発表 • ML必要なリソースの⾃動セットアップ

SageMaker HyperPod recipes 16 DeepSeek-R1をFine-Tuningしてみたのでよければご参考ください！

まとめ

まとめ 18 • FSx for Lustreでは⾼速‧⼤容量ファイルシステムをAWS上でフルマネージド提供 ◦ AIモデル開発⽤途に良い •