GoogleCloudDayDigital PLAID MLPipeline On AIPlatform

で実現する @kargo113 株式会社プレイド

におけるの実現 01

目次 KARTE とはコンセプト ML プロダクト概要インフラ基盤

とは

導入企業様（一部抜粋）

68. 3 億 UU 累計ユーザー数 ※1 105,000 over 秒間トラッキング数 ※3
0.x 秒/解析解析速度 1.55 兆円年間解析流通金額 ※2 ※1 ローンチ〜2020 年 2 月までの解析ユニークユーザー数の実績 ※2 EC 領域における解析流通金額。 2019 年 3 月〜2020 年 2 月までの単年の実績 ※3 秒間解析イベント数（閲覧、購入、クリックなど全計測イベントが対象。 2020 年 3 月の最大値） 180+ PB 月間解析データ量 8+ PB 蓄積データ量

コンセプト

大量のリアルタイムデータからパターンを発見する ML システムと人しかできない思考と発想を継続的に統合する End-to-End の
ML パイプラインを実現 Google Cloud を使い、大量のリアルタイム行動データを捌くデータシステムと多彩な ML システムをシンプルにつなぐパイプラインを実現 Realizing “Human in the Loop” with Google Cloud ML End-to-End System

Realizing “Human in the Loop” with Google Cloud 商品の在庫最適化を図りたいが、需要予測が難しく、在庫ロスが
発生してコストになっている在庫があまりそうな商品に関しては、KARTE を活用していち早くクーポンを配布するなどの対策を実施需要予測課題施策ゲームの不正ユーザーが多く、チートなどの不正行為がなされ、本質的なファンの離脱等が発生してしまっている不正ユーザーデータを、新規会員獲得の為の広告データに還元して、広告の無駄な消費を減少異常検知施策課題クーポンを配布しているが、コストが増加している為、なるべく LTV が高いロイヤルユーザーにのみ配布する形にし、費用対効果を高めたい KARTE を活用して、 LTV が高い傾向にあるユーザーにのみクーポンを配布し ROI を最大化ロイヤルカスタマー分類課題施策

プロダクト概要

プロダクト概要テンプレートを選択パラメーターを設定パイプライン実行 ※画面はイメージであり、実際のものと異なりますパラメーター学習開始日：学習終了日：推論開始日：推論終了日：
閾値：概要説明実行

プロダクト概要 ※画面はイメージであり、実際のものと異なります学習結果スコア推論結果重要度分布出力先データセット再推論スコアや重要度を確認
推論結果の格納先同じモデルで再度実行

プロダクト概要 user_id name Loyal Score aaa Tanaka 0.98 bbb Suzuki
0.88 ccc Iwasaki 0.73 ddd Murakami 0.42 eee Takahashi 0.39 fff Okada 0.32 ggg Takeda 0.20 行動データクライアントエンドユーザースコアに応じてクーポン出し分け紐付けテーブル算出したスコア COUPON “A” COUPON “B”

インフラ基盤

解決したい課題 ①パイプライン実行環境の統一様々なテンプレートごとに異なるワークフローをフロントエンドからもバックエンドからも実行したい ②学習環境のスケーラビリティモデルも多様であるため、用途に応じて柔軟に変更できるようにしたい ③継続的インテグレーション部分的にテンプレートを変更した場合も、
共通モジュールを変更した場合も、安定的にコードを修正してデプロイしたい

インフラ基盤 ML System Flask Server UI Images Container Registory KARTE
System Kubernetes Engine KARTE System 弊社開発者 Status Cloud Pub/Sub ML Pipeline AI Platform Pipelines Batch Train AI Platform Training Transform Train Inference KARTE Data BigQuery クライアント CI/CD Pipeline Github Actions cometML

共通モジュールを変更した場合も、安定的にコードを修正してデプロイしたい AI Platform Pipelines

ML System Flask Server UI Images Container Registory KARTE System
Kubernetes Engine KARTE System 弊社開発者 Status Cloud Pub/Sub ML Pipeline AI Platform Pipelines Batch Train AI Platform Training Transform Train Inference KARTE Data BigQuery クライアント AI Platform Pipelines CI/CD Pipeline Github Actions cometML

SDK によるフロントエンド側との連携 $ pip install kfp Flask Server UI KARTE
System Kubernetes Engine KARTE System ML System ML Pipeline AI Platform Pipelines kfp.Client.run_pipeline

SDK によるフロントエンド側との連携 Flask Server UI KARTE System Kubernetes Engine KARTE
System ML System kfp.Client.run_pipeline params = { start_date = “20200101”, end_date = “20200531”, …, } default の引数を設定すれば params には変更したい引数を入れるだけ ML Pipeline AI Platform Pipelines

SDK による実行環境の分離 KARTE System Kubernetes Engine KARTE System Local System
kfp.Client.run_pipeline experiment_id = “development” experiment_id = “production” ML System ML Pipeline AI Platform Pipelines experiment_id の引数で分離もちろん UI からも実行可能

Pub/Sub を用いた Status の管理 Flask Server UI KARTE System Kubernetes
Engine KARTE System ML System ML Pipeline AI Platform Pipelines Status Cloud Pub/Sub { model_id: “123456”, status: “SUCCEESS”, …. } ExitHandler 成功・失敗に関わらず必ず実行データ更新

• パイプライン実行環境の統一により管理工数が約 30% 削減 ◦ 管理者は単一クラスタのみの対応 • パイプライン開発効率の向上 ◦ 実験から本番までがよりシームレスに

共通モジュールを変更した場合も、安定的にコードを修正してデプロイしたい AI Plat form Training

Kubernetes Engine KARTE System 弊社開発者 Status Cloud Pub/Sub ML Pipeline AI Platform Pipelines Batch Train AI Platform Training Transform Train Inference KARTE Data BigQuery クライアント AI Platform Training cometML CI/CD Pipeline Github Actions

2 8 学習環境のスケーラビリティ Job ML Pipeline AI Platform Pipelines Batch
Train AI Platform Training High-Memory, GPU … etc node pool 作成時に固定 --master-machine-type=”n1-highmem-8”, --master-accelerator=”type=nvidia-tesla-k80,count-2” パイプラインごとに簡単に変更可能 Job High-Memory Pool Kubernetes Engine GPU Pool Kubernetes Engine

マシンリソースの最適化 Job 実行時間分だけの課金 Job がなくても node コストが発生 $ gcloud ai-plarform
jobs submit training ML Pipeline AI Platform Pipelines Job Batch Train AI Platform Training Job High-Memory Pool Kubernetes Engine GPU Pool Kubernetes Engine

3 0 Kubeﬂow 側でもログを取得 ML Pipeline AI Platform Pipelines Batch
Train AI Platform Training AI Platform Training の log を活用 ContainerOp( image="gcr.io/google.com/cloudsdktool/cl oud-sdk:slim", command=[“gcloud”,”ai-platform”, “jobs”, “submit”, “training”,…, “--stream_logs”], …. ) custom container

• インスタンスコストを約 50% も削減 ◦ node コストは最小限 • 学習環境を High-Memory、GPU
など柔軟に選択可能に ◦ ほとんどのタスクに対応可能 • インフラの管理工数も削減 ◦ フルマネージドの恩恵

解決したい課題 ①フロントエンド＆バックエンドからの実行管理様々なテンプレートごとに異なるワークフローをフロントエンドからもバックエンドからも実行したい ②学習環境のスケーラビリティモデルも多様であるため、用途に応じて柔軟に変更できるようにしたい ③継続的インテグレーション
部分的にテンプレートを変更した場合も、共通モジュールを変更した場合も、安定的にコードを修正してデプロイしたい Github Actions

Kubernetes Engine KARTE System 弊社開発者 Status Cloud Pub/Sub ML Pipeline AI Platform Pipelines Batch Train AI Platform Training Transform Train Inference KARTE Data BigQuery クライアント Github Actions CI/CD Pipeline Github Actions cometML

PR 作成時にテスト Service Account Cloud IAM GCP の IAM と連携
GitHub CI/CD Pipeline Github Actions

Service Account Cloud IAM Images Container Registory ML Pipeline AI
Platform Pipelines Image pipeline develop / master ごとに image と pipeline を push CI/CD Pipeline Github Actions GitHub

• デプロイにかかる工数を約 20% 削減 ◦ 管理画面で確認するのみ • 安定的に最新版をデプロイ可能に ◦ チーム開発のさらなる効率化

今後の展望 • ML Platform としての拡充 ◦ リアルタイム基盤 ▪ AI Platform
Prediction / Cloud Run ◦ カスタマイズ性 ▪ テンプレートエンジン ◦ 強化学習基盤 ▪ 接客サービスを最適化

Thank you.

GoogleCloudDayDigital PLAID MLPipeline On AIPla...

GoogleCloudDayDigital PLAID MLPipeline On AIPlatform

kargo113

More Decks by kargo113

Other Decks in Technology

Featured

Transcript

で実現する @kargo113 株式会社プレイド

におけるの実現 01

目次 KARTE とはコンセプト ML プロダクト概要インフラ基盤

とは

導入企業様（一部抜粋）

68. 3 億 UU 累計ユーザー数 ※1 105,000 over 秒間トラッキング数 ※3

コンセプト

大量のリアルタイムデータからパターンを発見する ML システムと人しかできない思考と発想を継続的に統合する End-to-End の

Realizing “Human in the Loop” with Google Cloud 商品の在庫最適化を図りたいが、需要予測が難しく、在庫ロスが

プロダクト概要

プロダクト概要テンプレートを選択パラメーターを設定パイプライン実行 ※画面はイメージであり、実際のものと異なりますパラメーター学習開始日：学習終了日：推論開始日：推論終了日：

プロダクト概要 ※画面はイメージであり、実際のものと異なります学習結果スコア推論結果重要度分布出力先データセット再推論スコアや重要度を確認

プロダクト概要 user_id name Loyal Score aaa Tanaka 0.98 bbb Suzuki

インフラ基盤

インフラ基盤 ML System Flask Server UI Images Container Registory KARTE

ML System Flask Server UI Images Container Registory KARTE System

SDK によるフロントエンド側との連携 $ pip install kfp Flask Server UI KARTE

SDK によるフロントエンド側との連携 Flask Server UI KARTE System Kubernetes Engine KARTE

SDK による実行環境の分離 KARTE System Kubernetes Engine KARTE System Local System

Pub/Sub を用いた Status の管理 Flask Server UI KARTE System Kubernetes

• パイプライン実行環境の統一により管理工数が約 30% 削減 ◦ 管理者は単一クラスタのみの対応 • パイプライン開発効率の向上 ◦ 実験から本番までがよりシームレスに

ML System Flask Server UI Images Container Registory KARTE System

2 8 学習環境のスケーラビリティ Job ML Pipeline AI Platform Pipelines Batch

マシンリソースの最適化 Job 実行時間分だけの課金 Job がなくても node コストが発生 $ gcloud ai-plarform

3 0 Kubeﬂow 側でもログを取得 ML Pipeline AI Platform Pipelines Batch

• インスタンスコストを約 50% も削減 ◦ node コストは最小限 • 学習環境を High-Memory、GPU

ML System Flask Server UI Images Container Registory KARTE System

PR 作成時にテスト Service Account Cloud IAM GCP の IAM と連携

Service Account Cloud IAM Images Container Registory ML Pipeline AI

• デプロイにかかる工数を約 20% 削減 ◦ 管理画面で確認するのみ • 安定的に最新版をデプロイ可能に ◦ チーム開発のさらなる効率化

今後の展望 • ML Platform としての拡充 ◦ リアルタイム基盤 ▪ AI Platform

Thank you.