FargateとAthenaで作る、機械学習システム

FargateとAthenaで作る、機械学習システム 2022/8/4(⽊) AKIBA.AWS Online #9 データアナリティクス事業部鈴⽊那由太 1

2 ⾃⼰紹介鈴⽊那由太 - nayuts クラスメソッド株式会社データアナリティクス事業本部⼊社:
2021/05 好きなサービス: Amazon Athena 担当業務：データ分析基盤の構築・運⽤、機械学習システムの検証ほか: kaggleにノート公開したりしていた。 2022 APN AWS Top Engineers(Analytics)

3 本⽇お話ししたいこと

4 本⽇お話ししたいこと内容 • S3・Athena・Fargateでの機械学習システムの構成例（CPUで動くモデル⽤、バッチ処理、初期段階のイメージ）課題意識 • 機械学習モデルを作るところまではできたけど、システム化するとき、どの部分にどういう役割を持たせるか難しかった。
• Fargateタスクで動かしてみたかったが、ネットワーク・権限の要件が多く感じた。

5 本⽇お話ししたいこと想定視聴者 • FargateタスクとS3で機械学習システムを構成してみたい⽅ LTの技術的な要点 • プライベートサブネットでFargateタスクを動かすために必要な要件 •
データを蓄えるところはデータ分析基盤の３層構成にすると当てはめやすい

6 LTのテーマご紹介する構成・考え⽅

7 紹介する構成前処理・結合データマート層データを貯める部分 + 機械学習機能で構成する。データレイク層学習・推論
ワークフローエンジンデータを貯める部分機械学習部分

8 構成の根拠

9 構成の根拠 ①データレイク層 ②データウェアハウス層 ③データマート層 No 名前役割 ① データレイク層
⽣データを格納しておく。後続のロジック修正時に再計算できるようにしておく。 ② データウェアハウス層クレンジングや共通化したいデータを格納する。基盤が成熟していない場合、無いこともある。 ③ データマート層ユースケース⽤のデータを格納しておく。データ分析基盤部分は３層で考えるのが、今は⼀般的です。 ˞ʰ࣮ફతσʔλج൫΁ͷॲํᝦʙ ϏδωεՁ஋૑ग़ͷͨΊͷσʔλɾγεςϜɾώτͷϊ΢ϋ΢ʱΛࢀߟʹ͠·ͨ͠ɻ IUUQTHJIZPKQCPPL

10 紹介する構成（再掲）前処理・結合データマート層データを貯める部分 + 機械学習機能で構成する。データレイク層学習・推論
ワークフローエンジンデータを貯める部分機械学習部分

11 難しかったところ

12 プライベートサブネットで実⾏する場合エンドポイント・IAMロールは要件が多めです。 ※NATがないケース

13 ワークフローエンジンで実⾏する場合別のリソースから起動する場合は、追加で必要なものがあります。 ※NATがないケース

14 パフォーマンスチューニング CPUの値とメモリの値に許容される組み合わせがある。 ▪以下のドキュメントより2022/07/23に抜粋 https://docs.aws.amazon.com/ja_jp/AmazonECS/latest/userguide/task_definition_parameters.html

15 実験管理 ▪以下ブログより20220730に抜粋 https://aws.amazon.com/jp/blogs/news/machine-learning-managing-your-machine- learning-lifecycle-with-mlflow-and-amazon-sagemaker/ ▪以下ブログより20220730に抜粋 https://aws.amazon.com/jp/blogs/machine- learning/visualizing-tensorflow-training-jobs-with- tensorboard/ ⾃分で構築するなら以下の２つの選択肢がありそう。
① MLFlow ② TensorBoard ① MLFlowの利⽤例 ② TensorBoardの利⽤例

16 そのたポイント

17 処理単位の分け⽅前処理・結合データマート層データレイク層学習実行学習済みモデルワークフローエンジン学習済みモデル
データマート層推論実行データマート層データマート層実行処理１：データの作成処理２：学習処理３：推論⽇毎・⽉毎に出⼒処理内容と周期で分けると整理しやすかったです。

18 起動設定やデータの渡し⽅ワークフローエンジン学習または推論実行 ①スケジュール実⾏ワークフロー定義内でスケジューリングする。 ②学習・推論に利⽤するデータの指定タスク定義の環境変数でS3上のどのオブジェクトを使うか指定する。
ワークフローからSDKでFargateタスクを呼び出し、環境変数を上書きすると使いやすい。 Boto3 documentationより20220730に抜粋

19 メリット・デメリット • メリット • RedshiftなどDWH製品に詳しくなくても、とりあえずS3とAthenaを覚えればサーバーレスで実現できる⼿軽さ。 • S3を起点としてFargateからデータを読み出しやすい。 •
デメリット • DWH製品とは異なり、ストレージに保存する際に型などのチェックがしにくく、利⽤する際まで異常に気づかないことがある。 • このあたりを使うと良いかも？ • Redshift Serverless

20 ブログ • 以下のブログにも記載しました。

FargateとAthenaで作る、機械学習システム

FargateとAthenaで作る、機械学習システム

Nayuta S.

More Decks by Nayuta S.

Other Decks in Programming

Featured

Transcript

FargateとAthenaで作る、機械学習システム 2022/8/4(⽊) AKIBA.AWS Online #9 データアナリティクス事業部鈴⽊那由太 1

2 ⾃⼰紹介鈴⽊那由太 - nayuts クラスメソッド株式会社データアナリティクス事業本部⼊社:

3 本⽇お話ししたいこと

5 本⽇お話ししたいこと想定視聴者 • FargateタスクとS3で機械学習システムを構成してみたい⽅ LTの技術的な要点 • プライベートサブネットでFargateタスクを動かすために必要な要件 •

6 LTのテーマご紹介する構成・考え⽅

7 紹介する構成前処理・結合データマート層データを貯める部分 + 機械学習機能で構成する。データレイク層学習・推論

8 構成の根拠

9 構成の根拠 ①データレイク層 ②データウェアハウス層 ③データマート層 No 名前役割 ① データレイク層

10 紹介する構成（再掲）前処理・結合データマート層データを貯める部分 + 機械学習機能で構成する。データレイク層学習・推論

11 難しかったところ

12 プライベートサブネットで実⾏する場合エンドポイント・IAMロールは要件が多めです。 ※NATがないケース

13 ワークフローエンジンで実⾏する場合別のリソースから起動する場合は、追加で必要なものがあります。 ※NATがないケース

14 パフォーマンスチューニング CPUの値とメモリの値に許容される組み合わせがある。 ▪以下のドキュメントより2022/07/23に抜粋 https://docs.aws.amazon.com/ja_jp/AmazonECS/latest/userguide/task_definition_parameters.html

16 そのたポイント

17 処理単位の分け⽅前処理・結合データマート層データレイク層学習実行学習済みモデルワークフローエンジン学習済みモデル

19 メリット・デメリット • メリット • RedshiftなどDWH製品に詳しくなくても、とりあえずS3とAthenaを覚えればサーバーレスで実現できる⼿軽さ。 • S3を起点としてFargateからデータを読み出しやすい。 •

20 ブログ • 以下のブログにも記載しました。

21