少人数PJにおける MLOps事例

by Yamaguchi Toshihiro

Slide 1

Slide 1 text

少人数PJにおける MLOps事例日本経済新聞社　山口敏弘 2021/09/17

Slide 2

Slide 2 text

本日話す内容 ● 推薦システム ● Databricksについて ● 開発・運用上の問題 ● Databricksによる実装例 ● Q&A ○ Q. MLFlowでモデルの学習に利用したデータもトラッキングできますか？ ○ A. DeltaLakeのスナップショット機能を利用すれば可能です。

Slide 3

Slide 3 text

推薦システムの概要 ● 目的 ○ アプリに配信した記事のクリック率の向上 ● 推薦アイテム ○ 発行されてから1日以内の記事 ○ 1ユーザーに20ほど推薦する ● 学習データ ○ 記事 ■ 記事ID、タイトル、本文、発行日時 ... ■ API経由で1時間に1回取得 ○ ユーザーの行動ログ ■ ユーザーID、記事ID、クリックしたかどうか ... ■ Kinesis Streamingから都度取得 -> ユーザーの行動を素早く推薦に反映させたい ● モデル ○ ロジスティック回帰 ○ クリックするを1、しないを0としてユーザー毎に各記事をクリックするか推測

Slide 4

Slide 4 text

推薦アイテムの推論 WebサーバユーザーID 推薦記事推薦API 機械学習API 特徴量ストアデータ収集特徴量生成モデル学習デプロイ ① ② ③ ④ ①端末からWebサーバへ推薦アイテムをリクエスト ②WebサーバからAPI Gatewayへリクエスト ③記事、ユーザー特徴量の取得 ④特徴量を元にSageMakerへ推論アイテムをリクエスト ⑤推論結果をユーザーへ渡す ⑤ 推薦記事ユーザーID 特徴量特徴量オンラインオフライン

Slide 5

Slide 5 text

推薦モデルの学習 WebサーバユーザーID 推薦記事推薦API 機械学習API 特徴量ストアデータ収集特徴量生成モデル学習デプロイ ① ② ③ ④ 推薦記事ユーザーID 特徴量特徴量オンラインオフライン記事API ①ログデータをKinesisStreamへ送信 ②記事API、KinesisStreamから記事データ、ログデータを収集 ③特徴量を生成 ④モデルの学習 ⑤SageMakerへのデプロイ ⑤ ②

Slide 6

Slide 6 text

データ収集/ 特徴量生成機械学習パイプラインモデル作成デプロイ Feature Store 行動ログ記事 Model Registry SageMaker

Slide 7

Slide 7 text

開発の流れと運用上のタスク  データ処理モデル開発  デプロイ ● Streamingデータの処理 ● データのスキーマ変更への対応 ● 特徴量の管理 ● モデルの管理 ● モデルの精度の比較等タスク ● 推論APIの更新 ● モデルの更新

Slide 8

Slide 8 text

利用ツール(1) Databricks クラウド上で実行できるデータ分析・機械学習プラットフォーム機械学習に必要な機能がマネージドされている ● Jupyter Notebook ● MLFlow ● Spark ● DeltaLake

Slide 9

Slide 9 text

利用ツール(2) MLflow 実験データ、結果等を記録 Projects Model Model Registry Tracking コードを再現できる形で記録モデルを様々な環境で利用できる形式で保存モデルの集中管理機械学習のライフサイクルを管理するためのプラットフォーム

Slide 10

Slide 10 text

利用ツール(3) Apache Spark ストリーミングデータの読み込み Delta Lakeへの保存期間を指定したデータの抽出データの集計等利用していない機械学習を利用した特徴量生成 Streaming SQL GraphX MLlib 分散処理を行うためのライブラリビッグデータを用いたデータ処理、学習が可能

Slide 11

Slide 11 text

利用ツール(4) Delta Lake Sparkからの呼び出しが可能なデータレイク非構造データを保存でき、その後構造データに変換する

Slide 12

Slide 12 text

ストリーミングデータの取得 Kinesis 生 Data { shardId: xxxx, data: xxxx, partitionKey: xxxx, ... } Table Data user_id string kiji_id string session_id string action string モデル学習特徴量生成ユーザーの行動ログは生データ、構造化データ、特徴量の順に変換する

Slide 13

Slide 13 text

Kinesisからのストリーミングデータ取得ストリーミングデータ取得の例得られたデータフレーム（ kinesisDF）は、静的なデータフレームと同様の方法で処理できます。

Slide 14

Slide 14 text

ストリーミングデータのDelta Tableへの保存ストリーミングデータ保存の例

Slide 15

Slide 15 text

Feature Store articles article_id string title string body string display_time timestamp logs user_id string article_id string action string timestamp timestamp article_feature article_id string lda_feature vector bert_feature vector topic_feature vector user_feature user_id string lda_feature vector bert_feature vector topic_feature vector Table Table 作成した特徴量をDelta Tableに保存する

Slide 16

Slide 16 text

Feature Storeの例作成した特徴量を一括管理特徴量をどのノートブックで作成し、どのモデルで利用しているかといった情報が参照可能

Slide 17

Slide 17 text

推薦API SageMaker エンドポイント AWS Lambda API Gateaway WebサーバユーザーID ユーザーID ユーザー特徴量推薦記事推薦記事推薦記事ユーザー特徴量ユーザーID

Slide 18

Slide 18 text

モデルの定期的なデプロイ SageMaker モデルエンドポイント設定エンドポイント Databricks モデル更新エンドポイント更新モデルを更新しても Lambdaの変更の必要無しバッチ処理バッチ処理

Slide 19

Slide 19 text

ABテスト用のエンドポイント設定例

Slide 20

Slide 20 text

MLFlowとDeltaLakeによる学習データの再現機械学習モデルを改善するために、テーブルのスキーマに変更を加える場合があります。しかし、以前に作成したモデルを再現したい場合など、変更前のテーブルを利用したいことがあります。そのような場合には、Delta Tableのバージョンを指定することで、学習データの再現が可能です。参考ノートブック https://docs.databricks.com/applications/mlflow/tracking-ex-delta.html)

Slide 21

Slide 21 text

サンプルからコード抜粋（１） Delta Tableのバージョン一覧の取得バージョン１が最新のテーブル、０が変更前のテーブル

Slide 22

Slide 22 text

サンプルからコード抜粋（２）モデルの学習に利用した Delta Tableのバージョン取得 spark.mlを利用して学習した場合、テーブルのバージョン情報は MLFlowに自動で記録されます。それ以外の方法で学習させる場合には、例えば mlflow.log_paramを利用することでバージョン情報を記録することができます。

Slide 23

Slide 23 text

サンプルからコード抜粋（3）テーブルのバージョンを指定したデータ読み込み