少人数PJにおける MLOps事例

少人数PJにおける MLOps事例日本経済新聞社　山口敏弘 2021/09/17

本日話す内容 • 推薦システム • Databricksについて • 開発・運用上の問題 • Databricksによる実装例 •
Q&A ◦ Q. MLFlowでモデルの学習に利用したデータもトラッキングできますか？ ◦ A. DeltaLakeのスナップショット機能を利用すれば可能です。

推薦システムの概要 • 目的 ◦ アプリに配信した記事のクリック率の向上 • 推薦アイテム ◦ 発行されてから1日以内の記事 ◦
1ユーザーに20ほど推薦する • 学習データ ◦ 記事 ▪ 記事ID、タイトル、本文、発行日時 ... ▪ API経由で1時間に1回取得 ◦ ユーザーの行動ログ ▪ ユーザーID、記事ID、クリックしたかどうか ... ▪ Kinesis Streamingから都度取得 -> ユーザーの行動を素早く推薦に反映させたい • モデル ◦ ロジスティック回帰 ◦ クリックするを1、しないを0としてユーザー毎に各記事をクリックするか推測

推薦アイテムの推論 WebサーバユーザーID 推薦記事推薦API 機械学習API 特徴量ストアデータ収集特徴量生成モデル学習
デプロイ ① ② ③ ④ ①端末からWebサーバへ推薦アイテムをリクエスト ②WebサーバからAPI Gatewayへリクエスト ③記事、ユーザー特徴量の取得 ④特徴量を元にSageMakerへ推論アイテムをリクエスト ⑤推論結果をユーザーへ渡す ⑤ 推薦記事ユーザーID 特徴量特徴量オンラインオフライン

推薦モデルの学習 WebサーバユーザーID 推薦記事推薦API 機械学習API 特徴量ストアデータ収集特徴量生成モデル学習
デプロイ ① ② ③ ④ 推薦記事ユーザーID 特徴量特徴量オンラインオフライン記事API ①ログデータをKinesisStreamへ送信 ②記事API、KinesisStreamから記事データ、ログデータを収集 ③特徴量を生成 ④モデルの学習 ⑤SageMakerへのデプロイ ⑤ ②

データ収集/ 特徴量生成機械学習パイプラインモデル作成デプロイ Feature Store 行動ログ記事 Model
Registry SageMaker

開発の流れと運用上のタスク  データ処理モデル開発  デプロイ • Streamingデータの処理 • データのスキーマ変更への対応
• 特徴量の管理 • モデルの管理 • モデルの精度の比較等タスク • 推論APIの更新 • モデルの更新

利用ツール(1) Databricks クラウド上で実行できるデータ分析・機械学習プラットフォーム機械学習に必要な機能がマネージドされている • Jupyter Notebook •
MLFlow • Spark • DeltaLake

利用ツール(2) MLflow 実験データ、結果等を記録 Projects Model Model Registry Tracking
コードを再現できる形で記録モデルを様々な環境で利用できる形式で保存モデルの集中管理機械学習のライフサイクルを管理するためのプラットフォーム

利用ツール(3) Apache Spark ストリーミングデータの読み込み Delta Lakeへの保存期間を指定したデータの抽出データの集計等
利用していない機械学習を利用した特徴量生成 Streaming SQL GraphX MLlib 分散処理を行うためのライブラリビッグデータを用いたデータ処理、学習が可能

利用ツール(4) Delta Lake Sparkからの呼び出しが可能なデータレイク非構造データを保存でき、その後構造データに変換する

ストリーミングデータの取得 Kinesis 生 Data { shardId: xxxx, data: xxxx, partitionKey:
xxxx, ... } Table Data user_id string kiji_id string session_id string action string モデル学習特徴量生成ユーザーの行動ログは生データ、構造化データ、特徴量の順に変換する

Kinesisからのストリーミングデータ取得ストリーミングデータ取得の例得られたデータフレーム（ kinesisDF）は、静的なデータフレームと同様の方法で処理できます。

ストリーミングデータのDelta Tableへの保存ストリーミングデータ保存の例

Feature Store articles article_id string title string body string display_time
timestamp logs user_id string article_id string action string timestamp timestamp article_feature article_id string lda_feature vector bert_feature vector topic_feature vector user_feature user_id string lda_feature vector bert_feature vector topic_feature vector Table Table 作成した特徴量をDelta Tableに保存する

Feature Storeの例作成した特徴量を一括管理特徴量をどのノートブックで作成し、どのモデルで利用しているかといった情報が参照可能

推薦API SageMaker エンドポイント AWS Lambda API Gateaway WebサーバユーザーID ユーザーID
ユーザー特徴量推薦記事推薦記事推薦記事ユーザー特徴量ユーザーID

モデルの定期的なデプロイ SageMaker モデルエンドポイント設定エンドポイント Databricks モデル更新エンドポイント
更新モデルを更新しても Lambdaの変更の必要無しバッチ処理バッチ処理

ABテスト用のエンドポイント設定例

MLFlowとDeltaLakeによる学習データの再現機械学習モデルを改善するために、テーブルのスキーマに変更を加える場合があります。しかし、以前に作成したモデルを再現したい場合など、変更前のテーブルを利用したいことがあります。そのような場合には、Delta Tableのバージョンを指定することで、学習データの再現が可能です。参考ノートブック https://docs.databricks.com/applications/mlflow/tracking-ex-delta.html)

サンプルからコード抜粋（１） Delta Tableのバージョン一覧の取得バージョン１が最新のテーブル、０が変更前のテーブル

サンプルからコード抜粋（２）モデルの学習に利用した Delta Tableのバージョン取得 spark.mlを利用して学習した場合、テーブルのバージョン情報は MLFlowに自動で記録されます。それ以外の方法で学習させる場合には、例えば mlflow.log_paramを利用することでバージョン情報を記録することができます。

サンプルからコード抜粋（3）テーブルのバージョンを指定したデータ読み込み

少人数PJにおける MLOps事例

少人数PJにおける MLOps事例

Yamaguchi Toshihiro

Other Decks in Technology

Featured

Transcript