SageMakerを使った際のインフラ観点での気づき

株式会社NTTデータ杉山一馬 SageMakerを使った際のインフラ観点での気づき JAWS-UG AI/ML #31:Generative AI /
ML LT大会

2 自己紹介 Works ・クラウド開発(バックエンド)のインフラエンジニア・製造業向けのシステム開発を担当株式会社NTTデータ杉山一馬 Qualification Private ・福岡出身→東京→千葉
・外食、食べログいった登録1000＋・LIVE参戦・AWS Solution Architect Professional ・AWS DevOps Engineer Professional ・AWS Machine Learning Specialty などなど

3 なぜこの発表をするに至ったのか MLパイプライン、MLOpsはすでに需要が高まっているが、今後さらに需要が高まる一方で、汎用的なフロント/バックエンドクラウドシステム開発の経験だけでは悩むことも多くそんな悩みを共有したり、知見を得たりする機会が欲しかった最近のトレンドは生成AI系(Bedrock)であるものの実開発としてはSageMakerも頑張っています!! SageMaker系のサービスリリースはいまだにされており、進化もしている・キーワード:Unified Studio,
HyperPod, Bedrock統合機能 ★今回はトレンドを追った発表はしないですが、より活性化すれば嬉しい

4 本日紹介する内容 SageMakerを用いる場合の環境面の考え方 https://aws.amazon.com/jp/blogs/news/manage-ml-and-generative-ai-experiments-using-amazon-sagemaker-with-mlflow/ モデル学習や検証の結果追跡、結果の管理をしてくれるサービス (2024年6月末にExperimentsから置き換わる形でリリース) このサービスを使った際にインフラエンジニアの観点での気づき様々なマネージドサービスやモデル学習を理解していく過程で MLシステムの環境面におけるインフラエンジニア観点での気づき SageMaker
フルマネージド型 mlflowについて 1 2

5 発表1: SageMaker フルマネージド型 mlflow 本題に入る前に、SageMaker domainについて触れる。簡単に環境が用意でき、アプリ開発が促進するサービスが包含されている。Mlflowもこの中に入っているもの。余談だが、自身の用意したAWSアカウントとは別の環境に用意されたドメイン内のサービスが使えるイメージ。 https://aws.amazon.com/jp/blogs/machine-learning/amazon-sagemaker-domain-in-vpc-only-mode-to-support-
sagemaker-studio-with-auto-shutdown-lifecycle-configuration-and-sagemaker-canvas-with-terraform/ 仮に自環境にサービスを展開している場合そこと疎通させたい際にはインターネット経由 orエンドポイント経由となるこの中の話

6 発表1: SageMaker フルマネージド型 mlflow SageMaker Experimentsの後継として登場したフルマネージド型 mlflow。 OSSベースのmlflowが統合された。実験管理の用途であり、モデル学習や検証の結果を管理したり、結果比較したりする際に活用。AWS側でサーバをマ
ネージドに用意されることから実験管理の準備負荷が減り、簡単に学習管理環境が用意できる。 https://aws.amazon.com/jp/sagemaker-ai/mlops/ https://aws.amazon.com/jp/blogs/news/manage-ml-and-generative-ai-experiments-using-amazon-sagemaker-with-mlflow/

7 発表1: SageMaker フルマネージド型 mlflow 本マネージドサービスの使用方法について、実験管理したいモデル学習や評価のパラメータをmlflowへ出力するコードを準備し、SageMaker Studioからmlflowを選択することでダッシュボードを閲覧可能(別URL発行) トラッキングサーバの用意がコンソールからできるため、構築と管理が容易である。出力用のサーバを用意
(サーバ起動時に課金) あくまでMLflowは実験管理管理用の出力の仕込み必要 (詳細割愛、ライブラリを用いて比較的簡単に連携可能) ダッシュボードへ Experimentsタブからも選択可能結果的にmlflowが開かれる任意の出力

8 発表1: SageMaker フルマネージド型 mlflow 1. 本トラッキングサーバの可用性についてデータのバックアップはされるのか?復旧はできるのか? ・終了保護やバックアップ/リストアはできない・IAMポリシー等で縛るなどの対策必要
・本サーバの可用性の記述は見つけられなかったおそらくSageMakerの下限99.9%になるものと推定開発適用時に仕様整理で困る可能性はある (Model Registryも含めて不明であり、開示していないものと推定) StopとDeleteの操作が可能 2. 本環境をIaCで構築できるか Terraformでの構築は可能 Studioに加えて、中のサーバまでは用意できる出力するための実行コマンドは手配置・デフォルト設定も詳細も対応しておりサーバスペック等も指定できる・ただし、そもそもそこまで指定するべく項目もなくあえてIaC化するべきかは要検討ポイント https://registry.terraform.io/providers/hashicorp/aws/latest/docs/ resources/sagemaker_mlflow_tracking_server インフラエンジニアとして気になった観点

9 発表2: SageMaker を用いた際の環境面の考え方開発の原則的には同じ環境をそれぞれで持つただし、状況によっては差分を作ることもあるただしそれはそれで管理観点で難しさもある＋障害の基となるケースもある開発環境検証環境
本番環境モデル学習(画像/教師あり): P系のインスタンスを使って実行月にフル稼働すると数百万円が発生モデル学習を同じように他の面でも実行する? https://docs.ultralytics.com/ja/tasks/detect/ 疑問 → NO。学習は高コストなので“配布/サービング”などを検討一般的に商用開発では複数同じ構成で環境用意することが求められるケースが多い。一方で、モデル学習は高単価のGPUを用いることになるため、全環境で同じ実行をすると高額になる。SageMakerを前提にするときにどのように環境面を作るのが最適なのか当初は悩んでしまったが、単純にフルコピーをすることは悪手である仮説は立てていた。

10 発表2: SageMaker を用いた際の環境面の考え方開発環境 SageMaker Model Registry S3 (ストレージ)
SageMaker Pipelines ②モデルリリース (モデル格納先や学習条件を整理) ①学習済みモデルの格納検証/本番環境 ③リリース検出イベント発火 Event Bridge モデル学習 SageMaker Endpoint サービング Laｍbda など SageMaker Endpoint サービング ④モデルの配布 ⑤配布 Code Pipeline (詳細割愛) 結果出力/監視 (ストレージ経由) SageMaker Model Monitor Laｍbda など SageMaker Model Monitor 要件にも依るが、例えば開発環境で用意したモデルを配布するようなアーキテクチャにするとコストが抑えられるただし、正解はなく、要件やMLモデルの特性に応じた最適化は必要である＋様々な検討ポイントがある以下のようなアーキテクチャテンプレートがマネージドサービス化されているとなおありがたいなと感じた

11 発表2: SageMaker を用いた際の環境面の考え方 1. 用意するリージョンについて MLモデルにも依るが、例えばGPUを多分に使いたいケースの場合、昨今確保が難しいケースがある・比較的アメリカが確保しやすいが、一方でPJによってはアメリカに自由にサーバを用意できないまたは学習用データをプライバシー保護等で送付できないケースもあるのでリージョン決定する際は注意が必要(キャパ不足時の代替策も検討もしておくとBest)
・アメリカにおいても、リージョンは複数ある。リージョンごとにサーバの確保容易性は異なるサーバ数は非公表、かつ動確も水物な情報ではあるが、事前に起動確認などはしておくと後悔しない 2. 複数リージョンで学習する際の結果管理についてリージョンを分け、学習サーバを確保しやすくする策を講じた際にその結果管理まで分かれてしまうのは困るため、一括管理したい Studio内のトラッキングサーバをPublic設定すれば受付可能となるがその場合はセキュリティ設計などを忘れないことここまでは”開発面をどう切るか?”という観点で整理をしたが、他にも以下の環境面の観点での整理も重要面の検討以外にも、コストを抑える施策、CI/CDやアラートの作りこみなど、検討ポイントは多岐に渡る学習用サーバ学習用サーバトラッキングサーババージニアオハイオ

12 まとめ技術ブログやウェビナーに本日取り組みなどなどをまとめていますもしよかったらご覧ください!!! https://zenn.dev/nttdata_tech/articles/63d4810e2feb31 https://www.nttdata.com/jp/ja/trends/event/archive/2025/042/ おまけまとめ本日はSageMakerのサービスを使ってみたうえでの気づきをインフラエンジニアの視点から紹介しました
簡単に環境を用意できる便利なサービスである半面実システムとして活用する上では頭を悩ませるポイントもあるかなという所感を持っていますブログウェビナー

SageMakerを使った際のインフラ観点での気づき

SageMakerを使った際のインフラ観点での気づき

kazuma sugiyama

Featured

Transcript

株式会社NTTデータ杉山一馬 SageMakerを使った際のインフラ観点での気づき JAWS-UG AI/ML #31:Generative AI /

2 自己紹介 Works ・クラウド開発(バックエンド)のインフラエンジニア・製造業向けのシステム開発を担当株式会社NTTデータ杉山一馬 Qualification Private ・福岡出身→東京→千葉

8 発表1: SageMaker フルマネージド型 mlflow 1. 本トラッキングサーバの可用性についてデータのバックアップはされるのか?復旧はできるのか? ・終了保護やバックアップ/リストアはできない・IAMポリシー等で縛るなどの対策必要

10 発表2: SageMaker を用いた際の環境面の考え方開発環境 SageMaker Model Registry S3 (ストレージ)