Slide 1

Slide 1 text

2024/11/13 データ事業本部 小笹友弘 まるクラ勉強会 ONLINE #3 Amazon SageMaker MLFlowで スマートに 機械学習モデルの実験を管理する方法

Slide 2

Slide 2 text

自己紹介 2 ● 名前 ○ 小笹 友弘 (オザサ トモヒロ) ● 所属 ○ クラスメソッド株式会社 ○ データ事業本部 ○ インテグレーション部 ○ 機械学習チーム ● 好きな技術領域・サービス ● AWS Step Functions ● Terraform ● 業務領域 ● データ分析/モデル開発 ● AWSの機械学習のマネージドサービスを用いたインフラ 基盤構築 ● 資格

Slide 3

Slide 3 text

機械学習モデルを作るとき 次のような経験はありませんか?

Slide 4

Slide 4 text

実験を繰り返すたびに管理が煩雑に 複数のモデルをテストしているうちに、 いつ実験を行ったのか、 モデルはどのファイルで保存したのか、 どのハイパーパラメータがどの結果を出したのか、 どのモデルが最も良いパフォーマンスを出したのか、 だんだん混乱してしまう。 最初はスプレッドシートや複数のNotebookで管理していたけど、モデ ルの数が増えるにつれて、追跡が難しくなってしまう…。

Slide 5

Slide 5 text

機械学習モデルの実験管理が できるツール(MLflow)があるらしい。 ただ、チームで共有するには サーバが必要になる…

Slide 6

Slide 6 text

インフラ担当者はいったい誰に • データサイエンスチームがMLflowを使い始めたけど、 トラッキングサーバーの構築が必要だと気付く。 みんな忙しいし、誰もその役割を引き受けたがらない。 • データサイエンティスト「え、私たちは分析業務やモデル構築に手一 杯で、サーバーの構築/管理までできない…」 • インフラエンジニア「え、別の案件で手一杯なんだよなあ。そして、 そのツールよく知らないんだけど…」 結果、誰もやりたがらない仕事が宙に浮いてしまいがち。

Slide 7

Slide 7 text

2024年6月にAWSが フルマネージド型の実験管理サービス SageMaker MLflow を一般提供開始

Slide 8

Slide 8 text

これでインフラのこと考えなくて済むのが本当 に助かるよ。今まで、実験環境のセットアップ とか、サーバーの管理とかで無駄に時間取られ てたからさ。 SageMaker Model Registryとも簡単に統合でき るっぽいから、トレーニングしたモデルをすぐ に本番環境に持っていけるのも助かるよね。 そういえば、実験管理も楽になるんだよね?今 まで手動でログ取ったり、バージョン管理した りしてたけど、これからは自動で全部トラッキ ングしてくれるらしいよ。過去の実験結果もす ぐに見返せるし、再現性もバッチリだって。 悩みが解決される

Slide 9

Slide 9 text

Amazon Sagemaker MLflowのセットアップ手順

Slide 10

Slide 10 text

①Amazon SageMakerにアクセス ②Applications and IDEsの中の 「Studio」を選択。 (但し、既にドメインを作成している前提。) ③「Studioを開く」をクリック。 Amazon SageMakerにアクセス

Slide 11

Slide 11 text

④MLflowをクリック ⑤「Create」をクリックして、MLflow Tracking Serverを作成 SageMaker Studioにアクセス

Slide 12

Slide 12 text

⑥ MLflow Tracking Server名を記載 ⑦アーティファクトの保存場所 (S3 URI)を記載 MLflow Tracking Serverを新規作成

Slide 13

Slide 13 text

作成に約25分ほどかかります。 また、停止してから再度立ち上げる際も 約25分ほどかかります。 MLflow Tracking Serverが作成されるまで待ちます

Slide 14

Slide 14 text

セットアップしたSageMaker サーバーで どのような実験情報を確認できるのか

Slide 15

Slide 15 text

MLflow Tracking ServerのUIをブラウザで確認

Slide 16

Slide 16 text

異なる実験の”メトリクス”や”ハイパーパラメータ”を比較

Slide 17

Slide 17 text

ファイル管理やモデルレジストリ登録も可能

Slide 18

Slide 18 text

SageMaker MLflowの料金体系

Slide 19

Slide 19 text

料金(東京リージョンの場合) ①コンピューティング料金: 使用したインスタンスのサイズと実行時間に基づいて 課金されます。 • Small(1 ~ 25ユーザ規模): 1時間あたり 0.789ドル • Medium(1 ~ 50ユーザ規模): 1時間あたり 1.369ドル • Large(1 ~ 100ユーザ規模): 1時間あたり 2.53ドル ②ストレージ料金: データやメタデータの保存に使用するストレージ量に基づいて 課金されます。 • GB-月あたり 0.12ドル 【以下の状況を想定する】 • データサイエンティストの人数:5人 • 勤務時間:9:00 ~ 18:00 0.789 × 9時間 × 20日 = 142ドル(≒2万円)/月

Slide 20

Slide 20 text

No content