GKE Autopilot で Ops レスなリアルタイム ML を実現

GKE Autopilot で Ops レスなリアルタイム ML を実現西村優汰
株式会社プレイドエンジニア

1. KARTE とは 2. リアルタイム推論基盤上の GKE Autopilot 3. Google Cloud
の PSO を活用した ML プロジェクト 4. まとめアジェンダ

KARTE とは 01

68. 3 億 UU 累計ユーザー数 ※1 105,000 over 秒間トラッキング数 ※3
0.x 秒/解析解析速度 1.55 兆円年間解析流通金額 ※2 ※1 ローンチ〜2020 年 2 月までの解析ユニークユーザー数の実績 ※2 EC 領域における解析流通金額。 2019 年 3 月〜2020 年 2 月までの単年の実績 ※3 秒間解析イベント数（閲覧、購入、クリックなど全計測イベントが対象。　2020 年 3 月の最大値） 180+ PB 月間解析データ量 8+ PB 蓄積データ量

KARTE 導入企業様（一部抜粋）出所:株式会社プレイド「成長可能性に関する説明資料」2020 年 12 月

リアルタイム推論基盤上の GKE Autopilot 02

Batch 予測と Realtime 予測 Batch 予測 - 使用するデータが数日、数週間で変化する場合 Realtime
予測 - 使用するデータが数秒で変化する場合 1 週間後ロイヤルカスタマーになるか 20 秒後問い合わせをするか

Realtime 予測の例会員登録でわからない点があり、離脱してしまう離脱しそうなエンドユーザーに対して、ヘルプページなどを提案離脱予測課題
クーポンがなくても購買するユーザーにもクーポンを配布しており、コストが増加している購入を迷っているエンドユーザーにだけ、クーポンを配布することで ROI を最大化購買予測課題電話とチャットの窓口を用意しているが、電話お問い合わせのオペレーションコストが高いお問い合わせしそうなエンドユーザーに対して、チャットへのお問い合わせを促し、コスト削減問い合わせ予測課題解決策解決策解決策

GKE Autopilot 使用前の全体構成リアルタイム推論基盤（ ML） Prediction API Cloud Run Event
Data Cloud Spanner API trigger Cloud Pub/Sub Data Process Cloud Data ow Prediction Result Cloud Bigtable Event Data Cloud Pub/Sub Core Server Compute Engine リアルタイム解析 / アクション基盤（Not ML）エンドユーザー Web App { "event_name": "view", "keys": { "api_key": "xxxxxx", "user_id": "user_B", }, "page": "https://plaid.co.jp/", ... } Event Data Action 1 sec 以内 ① ② ③ ④ ⑤

Prediction API GKE Autopilot Cloud Run から GKE Autopilot への置き換え
リアルタイム推論基盤（ ML） Prediction API Cloud Run Event Data Cloud Spanner API trigger Cloud Pub/Sub Data Process Cloud Data ow Prediction Result Cloud Bigtable Event Data Cloud Pub/Sub Core Server Compute Engine リアルタイム解析 / アクション基盤（Not ML）エンドユーザー Web App { "event_name": "view", "keys": { "api_key": "xxxxxx", "user_id": "user_B", }, "page": "https://plaid.co.jp/", ... } Event Data Action 1 sec 以内 ① ② ③ ④ ⑤ 内部用推論 API

内部用推論 API の要件 Docker Image でデプロイ可 • Cloud Pub/Sub から
推論トリガーの受取 • Cloud Spanner から生ログデータを取得 • 様々な機械学習ライブラリを使用 • Cloud Bigtable への予測結果の書込インフラ管理を少なく • ML エンジニアが少数 • ML ソリューションをプロダクトに素早く落とすことが重要マシンリソースを手軽に選択 • ML モデルによる必要なマシンリソースの違い • 様々なモデルが多く開発される

Cloud Run vs GKE standard Cloud Run GKE Standard Docker
イメージでデプロイ可インフラ管理コストがかからないマシンリソースを手軽に選択可 VPC 内にデプロイ可コンピュータリソースの永続性運用の手軽さを最重要視して、Cloud Run を選択 (GKE Autopilot ローンチ前)

Cloud Run を内部用推論 API として扱う課題 • Cloud Run の仕様で Cloud
Run 自体に外部 IP を持たせないといけない ◦ 外部 IP をもたせる必要がないのでセキリュティ的に綺麗な設計ではない • Cloud Pub/Sub からの推論トリガーを pull 型で受け取りたい ◦ KARTE で扱う message 数が多いためこれらの課題は GKE Standard を使用することで解決するが運用コスト、マシンリソースの手軽な選択が不可

Cloud Run vs GKE standard vs GKE Autopilot Cloud Run
GKE Standard GKE Autopilot Docker イメージでデプロイ可インフラ管理コストがかからないマシンリソースを手軽に選択可 VPC 内にデプロイ可コンピュータリソースの永続性 Cloud Run から GKE Autopilot へ置換

Cloud Run から GKE Autopilot にしてみて • Pros ◦ manifest
に resources の limits と requests を記述するだけで、 ML エンジニアが欲しいマシンリソースが簡単に用意でき、運用まで期待できる ◦ コンピュータリソースの永続性 ◦ インフラの柔軟性を担保しつつ、運用を考えなくてよい ◦ Cloud Run と比較して latency も大きくは変化しなかった • Cons ◦ ML リアルタイム推論基盤で今後利用したい、 GPU がまだサポートされていない

Proprietary + Confidential Google Cloud の PSO を活用した ML
プロジェクト 03

ML プロジェクト特有の課題と弊社の課題 • プロジェクトチームの ML 理解 • ML が活用できる課題探索
• 課題解決に必要なデータの有無 • ML モデルの実用性の検証 • プロダクトへの組み込み • プロダクトでの実運用 • 弊社で行っている既存の ML プロジェクトが少ない • ML エンジニアが少数 ML プロジェクト特有の課題弊社の課題

Google Cloud のプロフェッショナルサービス（PSO）の活用 • プロジェクトチームの ML 理解 •
ML が活用できる課題探索 • 課題解決に必要なデータの有無 • ML モデルの実用性の検証 • プロダクトへの組み込み • プロダクトでの実運用 ML プロジェクト特有の課題 PSO サービスを活用

ビジネス担当者も含めた課題探索グループ A グループ B グループ C ビジネス上インパクトの大きい課題の探索を行うため、ビジネス担当者や技術 /開発担当者を含めたワークショップを実施

妥当性検証を通して見えてきた課題と方針考慮観点 • 業界によってユーザーの行動特性が異なる • 業態の差を吸収可能な一般的なモデル化 • 横断で活用可能な共通行動データは典型的なもの（訪問、購買など） •
エンドユーザー特性を直感的に理解できる出力が必要 • エンドユーザー行動（訪問 /購買など）に応じた推論値の随時更新モデル化の方針 RFM を基礎にしたユーザー行動モデルを適用/発展 • 既存の RFM よりも詳細な視点で重要なエンドユーザーの発見を促すことが可能 • RFM を基礎にしているので、直感的な理解が可能 • RFM だけなので、典型的なデータのみで構築可能

PLAID ML チームによる ML 基盤開発 User Data Inference Data BigQuery
Experiment AI Pla orm Notebook ML Pipeline AI Pla orm Pipelines Inference GKE GKE Autopilot 実験本番用モデル訓練推論 Batch Train AI Pla orm Training ML Pipeline AI Pla orm Pipelines Model Data Cloud Storage User Data 取得 User Data 取得 Model 保存 User Data 取得 Inference Data 保存 Model 取得 Inference Data 使用 User Data 保存機械学習技術のビジネス適用効率化 /高速化のため、 PLAID エンジニアで ML 基盤を開発

モデル開発と実地検証を遂行中クライアント担当者様 ML 基盤を活用しながら、モデルの継続開発、実地検証の試行錯誤を効率的に遂行中実地検証モデル開発 PLAID ビジネス担当 /
エンジニア PLAID エンジニア PSO 支援 ML 基盤

PSO を活用するメリット • Google Cloud が世界中で培ってきた ML プロジェクトの進め方を学べる ◦ 他の案件でも遂行方法を活用可能
• 以下を担当していただく事により、 ML エンジニアがより開発に集中可能 ◦ ビジネス担当も巻き込んだ ML で解決可能なビジネス課題整理 ◦ ビジネス課題、データなどを総合的に考慮した適切な ML モデルの提案 ◦ 弊社のお客様を巻き込んだ ML モデルの価値検証

Proprietary + Confidential まとめ 04

まとめ • ML プロジェクトには ML 特有の課題がある ◦ ML で実現可能なことの認識のすり合わせ ◦
課題を解くのに必要なデータ特性の把握 ◦ ML モデルの妥当性検証など • Google Cloud のプロフェッショナルサービスを活用し、効率的にプロジェクトを推進できた • ML 基盤を開発したことで、よりスムーズにモデルの価値検証が可能に • リアルタイム推論基盤上の Cloud Run を GKE Autopilot に置換 • インフラ管理をほぼしないリアルタイム推論基盤を実現 • Cloud Run と比較しても特に問題なく使用でき、さらに以下のメリットを享受 ◦ コンピュータリソースの永続性 ◦ 外部 IP を持たせなくて良い Google Cloud の PSO を活用した ML プロジェクトリアルタイム推論基盤上の GKE Autopilot

GKE Autopilot で Ops レスなリアルタイム ML を実現

GKE Autopilot で Ops レスなリアルタイム ML を実現

nichimu

More Decks by nichimu

Other Decks in Programming

Featured

Transcript