秒間数十万クエリをさばく機械学習モデルを継続的に再学習し稼働させる | CA BASE CAMP 2021

加藤直長江五月秒間数十万クエリをさばく機械学習モデルを継続的に再学習し稼働させる

1. Dynalystでの機械学習ユースケース 2. 機械学習モデルにまつわる課題 3. 推論サーバーのマイクロサービス化 4. 学習パイプラインのPython移行 5. 機械学習モデルの監視

加藤が発表します

機械学習エンジニア/データサイエンティスト最近はMLOps関連の課題に取り組んでいます。加藤直 2019年度新卒入社 AI事業本部 Dynalyst @nkato

Dynalystでの機械学習ユースケース

アプリなどのリターゲティング広告を配信するDSPと呼ばれるプロダクト一度アプリをインストールしたが離れてしまったユーザーを対象とする広告 Dynalystとは Come back here! I'm bored. 1. Dynalystでの機械学習ユースケース

1. 表示する広告はオークションで決定 2. SSPが枠のオークションを開催 3. DSPが入札 3. 落札者が広告を出す Dynalystはオークション参加者 Web広告の仕組み
1. Dynalystでの機械学習ユースケース

各オークションについて配信価値を予測して、それに基づき価格を決める価値 ... ユーザーが広告をクリックする確率 (CTR) 広告商品をダウンロード/課金/購入する確率 (CVR) 価値の判断を誤ると高値で入札 →
お金の無駄安値で入札 → オークションに負け、配信機会の損失 CTR, CVRを正確に予測することが大事 → 機械学習で予測機械学習をどう活用しているか 1. Dynalystでの機械学習ユースケース

オークション開催回数 ... 月間数千億推論QPS ... 秒間十数万 1入札にかけられる時間 ... 100ms以内 (一例)
オークション開催者によって決められている推論回数・時間に関する必要要件 1. Dynalystでの機械学習ユースケース

機械学習モデルにまつわる課題

元々は、学習処理がBash/SQL/Pythonで、推論処理がScalaで記述されていた推論時 ... いくつかの理由からScalaを採用 Dynalystの各サーバーがScalaで記述されている演算速度が速く、1リクエストにかかる推論時間を短くできる学習時 ... 基本処理をBashで記述し、一部でPythonの機械学習ライブラリを使用元々の推論・学習時の処理
2. 機械学習モデルにまつわる課題

パラメータはRedisで繋ぎこみ推論時 ... Redisからパラメータを取得し Scalaで自前実装した行列演算で計算学習時 ... SQL/Pythonでデータ抽出、学習を実行し、パラメータを
Redisに保存元々のパラメータの繋ぎこみ方法 2. 機械学習モデルにまつわる課題

データサイエンティストがPythonで分析していた機械学習モデルを Scalaに記述しなおす必要があり、実装コストがかかる (そもそもBashやScalaがデータサイエンティストに馴染みがない) 特徴量の変換処理を推論時にはScalaで、学習時にはSQLで記述しているが、ここの変換処理に差異があるとモデルに乖離が生じる学習時・推論時のパラメータが別ファイルに置かれ、多重管理になっているなにが問題だったのか 2. 機械学習モデルにまつわる課題

データサイエンティストがPythonで分析していた機械学習モデルを Scalaに記述しなおす必要があり、実装コストがかかる (そもそもBashやScalaがデータサイエンティストに馴染みがない) 特徴量の変換処理を推論時にはScalaで、学習時にはSQLで記述しているが、ここの変換処理に差異があるとモデルに乖離が生じる学習時・推論時のパラメータが別ファイルに置かれ、多重管理になっているそれらを解決するために、 Pythonによる推論サーバーのマイクロサービス化推論サーバーを利用した学習パイプラインの移行プロジェクトを始動
なにが問題だったのか 2. 機械学習モデルにまつわる課題

推論サーバーのマイクロサービス化

推論処理を既存サーバーから切り離し、データサイエンティストの責務を分離するデータサイエンティストが機械学習モデルを作成するときに Pythonのみで完結できる状態にするモデル実装をそのまま学習時に利用できる形にして多重管理を解消する推論サーバーを実装する目的 3. 推論サーバーのマイクロサービス化

必要要件推論時間・QPS・インフラコストの観点で実運用に耐える目標値推論時間 ... 平均5ms以内、95%tileで10ms以内 QPS ... 推論サーバー1台で9,000QPSくらい全体で300,000QPSほどを安定的に捌ける状態
推論サーバー実装にあたっての目標 3. 推論サーバーのマイクロサービス化

ざっくりと実装前後を比較 3. 推論サーバーのマイクロサービス化

ざっくりと実装前後を比較繋ぎこみ部分をどうするか 3. 推論サーバーのマイクロサービス化

ざっくりと実装前後を比較推論速度が間に合うか 3. 推論サーバーのマイクロサービス化

既存サーバー(Scala)から推論サーバー(Python)にリクエストを投げる構成 → プロトコルとしてgRPCを採用 URLからパラメータをパースするコストを削減することで高速な通信を実現 Protocol BuffersというIDLでインタフェースを定義し、Scala、Pythonを含む多言語で扱える CTR、CVRなど複数モデルに必要な特徴量を全て
投げる → 結果をまとめて取得繋ぎこみ部分をどうするか Introduction to gRPC | gRPC より引用 https://www.grpc.io/docs/what-is-grpc/introduction/ 3. 推論サーバーのマイクロサービス化

ロジスティック回帰(LR)やCatBoostを例に比較 (表記QPSは計算部分のみのQPS) pure-predict ... sklearnをラップして高速化するらしいが、スパース行列に対応しておらず普通に入力すると測定不能実運用に耐えうるのは自前実装のみという結果に (sklearnやCatBoostはバッチ推論前提で単独の推論に対するパフォーマンスは弱い？🤔)
推論速度が間に合うかアルゴリズム QPS sklearnのLR 15,436 pure_predictのLR × 自前実装(numpy)のLR 91,882 CatBoost 22,302 3. 推論サーバーのマイクロサービス化

全体構成 3. 推論サーバーのマイクロサービス化

全体構成特徴量の処理、モデル定義は推論時と学習時で同じファイルを使用 3. 推論サーバーのマイクロサービス化

AI事業本部の横断組織 DSC との協力体制芝田将さん・プロジェクト全体の設計相談・ Cythonによる高速化計算時間
: 90%減少全体のスループット: 1.35倍・並列化した際に機械学習モデルのパラメータを共有化することで、サーバー全体を省メモリ化詳細は [PyData.Tokyo Meetup #23] で検索 3. 推論サーバーのマイクロサービス化

長江が発表します

機械学習エンジニアとしてDynalystのML基盤の開発を行っています。長江五月 2021年度新卒入社 AI事業本部 Dynalyst @nsakki55 @nsakki55

学習パイプラインのPython移行

学習パイプライン設計データ抽出 S3 生データ特徴量生成 S3 特徴量データモデル学習 S3
モデルファイル精度評価 logloss AUC データ評価分布モデル登録 DynamoDB モデルバージョンモデルデプロイ ECS ローリングアップデート 4. 学習パイプラインのPython移行

ECS DS・MLが機能追加 ECS ECR ECR image tag: commit hash
学習ワークフロー学習スケジュール管理 S3 DynamoDB 推論サーバーインフラ管理 update CI / CD : コミットハッシュでバージョン管理改善後: 学習と推論処理のコードを共通化従来 : 学習・推論コードを別実装 4. 学習パイプラインのPython移行

FeatureClass( time=feature.hour or 0, user=feature.user or -1.0, category=feature.category or -1,
media=feature.media_id or "", ) 特徴量生成処理を学習・推論で共通化学習・推論時の生データをClass化 property変数に特徴量処理を実装 @dataclass class FeatureClass: time: datetime user: float category: int media: str @property def hour(self) -> str: return str(self.time.hour) @property def category_media(self) -> str: return f"{self.category}_{self.media}” python サンプルコード 4. 学習パイプラインのPython移行

特徴量処理が想定通りの値かモデルごとの特徴量はあってるか特徴量のデータ型はあってるかワークフローが適切な引数で呼ばれているかサンプルデータでモデル学習が収束するかローカルとCIで共通環境でテスト seed値を固定してテスト × テストを書く文化 4.
学習パイプラインのPython移行

DSC との協力体制芝田将さん C++ の FFMライブラリの Python バインディングを実装
従来 : FFM ライブラリをsubprocess で呼び出す依存関係のインストールの手間モデル開発のボトルネック改善後 : python ライブラリとして import して使用環境構築が容易に・柔軟な開発が可能に subprocess.run("./ffm-train --auto-stop") subprocess.run("./ffm-predict") import ffm ffm.trian(train_data, auto_stop=True) ffm.predict(valid_data) 4. 学習パイプラインのPython移行

機械学習モデルの監視

実際にあった事例 😨 学習データの特定の特徴量が想定通りの値でないまま運用されていた特定のモデルの学習データ量が徐々に減っていたデータ量の変化によるモデル精度への影響に気づくことができなかった導入した監視指標 👀 監視している指標学習時のモデル精度実績ベースのモデル精度
学習データの分布 5. 機械学習モデルの監視

学習時のモデル精度指標モデル学習時のオフライン精度指標を監視急激なモデル性能の変化に気付ける 5. 機械学習モデルの監視

実績ベースのモデル精度指標実績値に基づいたオンライン精度指標を監視実績値・予測値の乖離に気付ける 5. 機械学習モデルの監視

学習データの分布各特徴量の値の時系列変化を監視 5. 機械学習モデルの監視

Future Work 複数のモデル学習の並列化ローカル検証環境の整備 ABテスト実験管理の整備

ご視聴ありがとうございました。

秒間数十万クエリをさばく機械学習モデルを継続的に再学習し稼働させる | CA BASE C...

秒間数十万クエリをさばく機械学習モデルを継続的に再学習し稼働させる | CA BASE CAMP 2021

nkato

More Decks by nkato

Other Decks in Programming

Featured

Transcript

加藤直長江五月秒間数十万クエリをさばく機械学習モデルを継続的に再学習し稼働させる

1. Dynalystでの機械学習ユースケース 2. 機械学習モデルにまつわる課題 3. 推論サーバーのマイクロサービス化 4. 学習パイプラインのPython移行 5. 機械学習モデルの監視

1. Dynalystでの機械学習ユースケース 2. 機械学習モデルにまつわる課題 3. 推論サーバーのマイクロサービス化 4. 学習パイプラインのPython移行 5. 機械学習モデルの監視

機械学習エンジニア/データサイエンティスト最近はMLOps関連の課題に取り組んでいます。加藤直 2019年度新卒入社 AI事業本部 Dynalyst @nkato

Dynalystでの機械学習ユースケース

アプリなどのリターゲティング広告を配信するDSPと呼ばれるプロダクト一度アプリをインストールしたが離れてしまったユーザーを対象とする広告 Dynalystとは Come back here! I'm bored. 1. Dynalystでの機械学習ユースケース

1. 表示する広告はオークションで決定 2. SSPが枠のオークションを開催 3. DSPが入札 3. 落札者が広告を出す Dynalystはオークション参加者 Web広告の仕組み

各オークションについて配信価値を予測して、それに基づき価格を決める価値 ... ユーザーが広告をクリックする確率 (CTR) 広告商品をダウンロード/課金/購入する確率 (CVR) 価値の判断を誤ると高値で入札 →

オークション開催回数 ... 月間数千億推論QPS ... 秒間十数万 1入札にかけられる時間 ... 100ms以内 (一例)

機械学習モデルにまつわる課題

パラメータはRedisで繋ぎこみ推論時 ... Redisからパラメータを取得し Scalaで自前実装した行列演算で計算学習時 ... SQL/Pythonでデータ抽出、学習を実行し、パラメータを

推論サーバーのマイクロサービス化

必要要件推論時間・QPS・インフラコストの観点で実運用に耐える目標値推論時間 ... 平均5ms以内、95%tileで10ms以内 QPS ... 推論サーバー1台で9,000QPSくらい全体で300,000QPSほどを安定的に捌ける状態

ざっくりと実装前後を比較 3. 推論サーバーのマイクロサービス化

ざっくりと実装前後を比較繋ぎこみ部分をどうするか 3. 推論サーバーのマイクロサービス化

ざっくりと実装前後を比較推論速度が間に合うか 3. 推論サーバーのマイクロサービス化

全体構成 3. 推論サーバーのマイクロサービス化

全体構成特徴量の処理、モデル定義は推論時と学習時で同じファイルを使用 3. 推論サーバーのマイクロサービス化

AI事業本部の横断組織 DSC との協力体制芝田将さん・プロジェクト全体の設計相談・ Cythonによる高速化計算時間

1. Dynalystでの機械学習ユースケース 2. 機械学習モデルにまつわる課題 3. 推論サーバーのマイクロサービス化 4. 学習パイプラインのPython移行 5. 機械学習モデルの監視

機械学習エンジニアとしてDynalystのML基盤の開発を行っています。長江五月 2021年度新卒入社 AI事業本部 Dynalyst @nsakki55 @nsakki55

学習パイプラインのPython移行

学習パイプライン設計データ抽出 S3 生データ特徴量生成 S3 特徴量データモデル学習 S3

ECS DS・MLが機能追加 ECS ECR ECR image tag: commit hash

FeatureClass( time=feature.hour or 0, user=feature.user or -1.0, category=feature.category or -1,

DSC との協力体制芝田将さん C++ の FFMライブラリの Python バインディングを実装

機械学習モデルの監視

学習時のモデル精度指標モデル学習時のオフライン精度指標を監視急激なモデル性能の変化に気付ける 5. 機械学習モデルの監視

実績ベースのモデル精度指標実績値に基づいたオンライン精度指標を監視実績値・予測値の乖離に気付ける 5. 機械学習モデルの監視

学習データの分布各特徴量の値の時系列変化を監視 5. 機械学習モデルの監視

Future Work 複数のモデル学習の並列化ローカル検証環境の整備 ABテスト実験管理の整備

ご視聴ありがとうございました。