Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SageMakerを使った際のインフラ観点での気づき
Search
kazuma sugiyama
September 17, 2025
390
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SageMakerを使った際のインフラ観点での気づき
kazuma sugiyama
September 17, 2025
Featured
See All Featured
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
190
So, you think you're a good person
axbom
PRO
2
2.1k
We Have a Design System, Now What?
morganepeng
55
8.2k
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
730
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9.1k
Exploring anti-patterns in Rails
aemeredith
3
410
How to Think Like a Performance Engineer
csswizardry
28
2.6k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
390
Balancing Empowerment & Direction
lara
6
1.2k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
330
A Soul's Torment
seathinner
6
2.9k
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
230
Transcript
株式会社NTTデータ 杉山 一馬 SageMakerを使った際の インフラ観点での気づき JAWS-UG AI/ML #31:Generative AI /
ML LT大会
2 自己紹介 Works ・クラウド開発(バックエンド)のインフラエンジニア ・製造業向けのシステム開発を担当 株式会社NTTデータ 杉山一馬 Qualification Private ・福岡出身→東京→千葉
・外食、食べログいった登録1000+ ・LIVE参戦 ・AWS Solution Architect Professional ・AWS DevOps Engineer Professional ・AWS Machine Learning Specialty などなど
3 なぜこの発表をするに至ったのか MLパイプライン、MLOpsはすでに需要が高まっているが、今後さらに需要が高まる 一方で、汎用的なフロント/バックエンドクラウドシステム開発の経験だけでは悩むことも多く そんな悩みを共有したり、知見を得たりする機会が欲しかった 最近のトレンドは生成AI系(Bedrock)であるものの 実開発としてはSageMakerも頑張っています!! SageMaker系のサービスリリースはいまだにされており、進化もしている ・キーワード:Unified Studio,
HyperPod, Bedrock統合機能 ★今回はトレンドを追った発表はしないですが、より活性化すれば嬉しい
4 本日紹介する内容 SageMakerを用いる場合の環境面の考え方 https://aws.amazon.com/jp/blogs/news/manage-ml-and-generative-ai-experiments-using-amazon-sagemaker-with-mlflow/ モデル学習や検証の結果追跡、結果の管理をしてくれるサービス (2024年6月末にExperimentsから置き換わる形でリリース) このサービスを使った際にインフラエンジニアの観点での気づき 様々なマネージドサービスやモデル学習を理解していく過程で MLシステムの環境面におけるインフラエンジニア観点での気づき SageMaker
フルマネージド型 mlflowについて 1 2
5 発表1: SageMaker フルマネージド型 mlflow 本題に入る前に、SageMaker domainについて触れる。簡単に環境が用意でき、アプリ開発が促進するサービスが 包含されている。Mlflowもこの中に入っているもの。 余談だが、自身の用意したAWSアカウントとは別の環境に用意されたドメイン内のサービスが使えるイメージ。 https://aws.amazon.com/jp/blogs/machine-learning/amazon-sagemaker-domain-in-vpc-only-mode-to-support-
sagemaker-studio-with-auto-shutdown-lifecycle-configuration-and-sagemaker-canvas-with-terraform/ 仮に自環境にサービスを展開している場合 そこと疎通させたい際にはインターネット経由 orエンドポイント経由となる この中の話
6 発表1: SageMaker フルマネージド型 mlflow SageMaker Experimentsの後継として登場したフルマネージド型 mlflow。 OSSベースのmlflowが統合された。 実験管理の用途であり、モデル学習や検証の結果を管理したり、結果比較したりする際に活用。AWS側でサーバをマ
ネージドに用意されることから実験管理の準備負荷が減り、簡単に学習管理環境が用意できる。 https://aws.amazon.com/jp/sagemaker-ai/mlops/ https://aws.amazon.com/jp/blogs/news/manage-ml-and-generative-ai-experiments-using-amazon-sagemaker-with-mlflow/
7 発表1: SageMaker フルマネージド型 mlflow 本マネージドサービスの使用方法について、実験管理したいモデル学習や評価のパラメータをmlflowへ出力する コードを準備し、SageMaker Studioからmlflowを選択することでダッシュボードを閲覧可能(別URL発行) トラッキングサーバの用意がコンソールからできるため、構築と管理が容易である。 出力用のサーバを用意
(サーバ起動時に課金) あくまでMLflowは実験管理 管理用の出力の仕込み必要 (詳細割愛、ライブラリを用いて 比較的簡単に連携可能) ダッシュボードへ Experimentsタブからも選択可能 結果的にmlflowが開かれる 任意の出力
8 発表1: SageMaker フルマネージド型 mlflow 1. 本トラッキングサーバの可用性について データのバックアップはされるのか?復旧はできるのか? ・終了保護やバックアップ/リストアはできない ・IAMポリシー等で縛るなどの対策必要
・本サーバの可用性の記述は見つけられなかった おそらくSageMakerの下限99.9%になるものと推定 開発適用時に仕様整理で困る可能性はある (Model Registryも含めて不明であり、開示していないものと推定) StopとDeleteの操作が可能 2. 本環境をIaCで構築できるか Terraformでの構築は可能 Studioに加えて、中のサーバまでは用意できる 出力するための実行コマンドは手配置 ・デフォルト設定も詳細も対応しており サーバスペック等も指定できる ・ただし、そもそもそこまで指定するべく項目もなく あえてIaC化するべきかは要検討ポイント https://registry.terraform.io/providers/hashicorp/aws/latest/docs/ resources/sagemaker_mlflow_tracking_server インフラエンジニアとして気になった観点
9 発表2: SageMaker を用いた際の環境面の考え方 開発の原則的には同じ環境をそれぞれで持つ ただし、状況によっては差分を作ることもある ただしそれはそれで管理観点で難しさもある +障害の基となるケースもある 開発環境 検証環境
本番環境 モデル学習(画像/教師あり): P系のインスタンスを使って実行 月にフル稼働すると数百万円が発生 モデル学習を同じように他の面でも実行する? https://docs.ultralytics.com/ja/tasks/detect/ 疑問 → NO。学習は高コストなので“配布/サービング”などを検討 一般的に商用開発では複数同じ構成で環境用意することが求められるケースが多い。一方で、モデル学習は高単 価のGPUを用いることになるため、全環境で同じ実行をすると高額になる。SageMakerを前提にするときにどのよう に環境面を作るのが最適なのか当初は悩んでしまったが、単純にフルコピーをすることは悪手である仮説は立ててい た。
10 発表2: SageMaker を用いた際の環境面の考え方 開発環境 SageMaker Model Registry S3 (ストレージ)
SageMaker Pipelines ②モデルリリース (モデル格納先や学習条件を整理) ①学習済みモデルの格納 検証/本番環境 ③リリース検出 イベント発火 Event Bridge モデル学習 SageMaker Endpoint サービング Lambda など SageMaker Endpoint サービング ④モデルの配布 ⑤配布 Code Pipeline (詳細割愛) 結果出力/監視 (ストレージ経由) SageMaker Model Monitor Lambda など SageMaker Model Monitor 要件にも依るが、例えば開発環境で用意したモデルを配布するようなアーキテクチャにするとコストが抑えられる ただし、正解はなく、要件やMLモデルの特性に応じた最適化は必要である+様々な検討ポイントがある 以下のようなアーキテクチャテンプレートがマネージドサービス化されているとなおありがたいなと感じた
11 発表2: SageMaker を用いた際の環境面の考え方 1. 用意するリージョンについて MLモデルにも依るが、例えばGPUを多分に使いたいケースの場合、昨今確保が難しいケースがある ・比較的アメリカが確保しやすいが、一方でPJによってはアメリカに自由にサーバを用意できない または学習用データをプライバシー保護等で送付できないケースもあるので リージョン決定する際は注意が必要(キャパ不足時の代替策も検討もしておくとBest)
・アメリカにおいても、リージョンは複数ある。リージョンごとにサーバの確保容易性は異なる サーバ数は非公表、かつ動確も水物な情報ではあるが、事前に起動確認などはしておくと後悔しない 2. 複数リージョンで学習する際の結果管理について リージョンを分け、学習サーバを確保しやすくする策を講じた際に その結果管理まで分かれてしまうのは困るため、一括管理したい Studio内のトラッキングサーバをPublic設定すれば受付可能となるが その場合はセキュリティ設計などを忘れないこと ここまでは”開発面をどう切るか?”という観点で整理をしたが、他にも以下の環境面の観点での整理も重要 面の検討以外にも、コストを抑える施策、CI/CDやアラートの作りこみなど、検討ポイントは多岐に渡る 学習用サーバ 学習用サーバ トラッキング サーバ バージニア オハイオ
12 まとめ 技術ブログやウェビナーに本日取り組みなどなどをまとめています もしよかったらご覧ください!!! https://zenn.dev/nttdata_tech/articles/63d4810e2feb31 https://www.nttdata.com/jp/ja/trends/event/archive/2025/042/ おまけ まとめ 本日はSageMakerのサービスを使ってみたうえでの気づきを インフラエンジニアの視点から紹介しました
簡単に環境を用意できる便利なサービスである半面 実システムとして活用する上では 頭を悩ませるポイントもあるかなという所感を持っています ブログ ウェビナー