Machine learning CI/CD with OSS

OSSで作る機械学習のCI/CD 2021/09/03 shibui yusuke

自己紹介 shibui yusuke • 自動運転スタートアップのティアフォー所属 • バックエンドエンジニア & インフラエンジニア &
データエンジニア & 雑用 • Github: @shibuiwilliam • Qiita: @cvusk • FB: yusuke.shibui • 最近やってること: IstioとGoとARとデータ分析 cat : 0.55 dog: 0.45 human : 0.70 gorilla : 0.30 物体検知

今日話すこと • 機械学習システムのCI/CDに必要なことを網羅する ◦ 機械学習のDevOpsと品質 ◦ ちょうどよい規模を考える ◦ 機械学習とシステムのテスト

機械学習のDevOpsと品質

機械学習の実用化の課題 • 機械学習チームのソフトウェア開発の理解不足 • ソフトウェア開発チームの機械学習の理解不足 • 機械学習を0->1だけで終わらせているプロジェクトを散見 →　0->1の次を目指す開発手法が定まっていない

• 機械学習の有用性を試す PoCから次の段階に行くためには機械学習の DevOpsが必要 • 機械学習を含むプロダクトの価値を継続的に引き出すのが MLOps 0->1の次を目指す PoCの数々ようやく成功した
プロダクト成長するにはなにが足りない？ →機械学習の成果を素早く実用化する →実用化の効果を素早く機械学習に取り込む →機械学習とソフトウェアを連携した　フィードバックループを実現する

機械学習を使ったプロダクト例画像処理写真を撮るタイトル入力説明入力登録する自然言語処理違反検知登録情報から違反をフィルタリング
入力情報から入力補助超解像による画質改善ねこ検索協調フィルタリングやランク学習による並べ替えあるコンテンツ登録アプリ画像分類と検索

機械学習を使ったプロダクトの課題例画像処理写真を撮るタイトル入力説明入力登録する自然言語処理違反検知登録情報から違反をフィルタリング
入力情報から入力補助超解像による画質改善ねこ検索協調フィルタリングやランク学習による並べ替えあるコンテンツ登録アプリ画像分類と検索タグどう学習する？ →定期的 →不定期 →評価が悪くなったときいつ推論する？ →検索時 →データ登録時 →1時間ごとにまとめてどう評価する？ →Accuracy, Confusion Matrix →検索数、CTR、いいね数

機械学習を使ったプロダクトのシステム例写真を撮るタイトル入力説明入力登録するねこあるコンテンツ登録アプリログ DB Storage
監視学習モデル proxy 画像 API 推論 API batch BI デプロイ認証認可 ID 検索 API Item API 推薦 API Text API

機械学習のプログラミングの課題 • 機械学習はプログラミングとデータによって開発する。 • つまりプログラミングとデータが正しくないと機械学習のモデルも正しくなくなる。 • しかし機械学習のモデルの正確さを開発中に評価することは難しい。データ分析、取得前処理学習
評価リリース例：リリース後にデータが間違っていることが判明データまで戻る

ちょうどよい規模を考える

開発段階とチームの規模で分類する機械学習導入開始実用化開発自動化リリース自動化機械学習エンジニア一人機械学習
エンジニア複数機械学習エンジニア + バックエンドエンジニアプロダクト別チーム頑張れ！一番自由な時期！阿吽の呼吸でわいわい楽しい♪ 軋轢が生まれ始める運用品質 vs Jupyter 各チームの独自運用他チームは知らないスーパーエンジニアレガシー企業は実はこのステージが多い

開発段階とチームの規模で分類する機械学習導入開始実用化開発自動化リリース自動化機械学習エンジニア一人機械学習
エンジニア複数機械学習エンジニア + バックエンドエンジニアプロダクト別チーム頑張れ！一番自由な時期！阿吽の呼吸でわいわい楽しい♪ 軋轢が生まれ始める運用品質 vs Jupyter 各チームの独自運用他チームは知らないスーパーエンジニアレガシー企業は実はこのステージが多い採用を頑張ろう ♪ - 開発環境: エンジニア次第 - must: GitHub - good to have: DVC, テスト - 開発環境: エンジニア次第 - must: GitHub - good to have: DVC, テスト - 開発環境: エンジニア次第 - must: DVC, レビューと評価 - good to have: レポート - 開発環境: チーム次第 - must: リアルタイム BI連携 - good to have: チーム間コラボレーション - 開発環境: 共通基盤, 開発環境の GitHub管理 - must: レポート基盤 , MLFlow or KubeFlow - good to have: 共通基盤による CI/CD, QA

小規模チームにおける機械学習開発学習コード学習データ学習評価モデル推論コード
テストデータ評価コードシステム負荷試験ログ収集データユニットテスト

チーム開発が進んだ頃の機械学習CI/CD 学習コード学習データ学習評価モデルレポート推論
コード CI テストデータ評価コード CD システム負荷試験ログ収集評価データユニットテストユニットテスト

A/Bテストを見据えた機械学習CI/CD 学習コード学習データ学習評価モデルレポート推論
コード CI テストデータ評価コード CD システム A A/B テストシステム B 負荷試験ログ収集評価データユニットテストユニットテスト

機械学習とシステムのテスト

学習のユニットテスト学習コード学習データ学習評価モデルレポート推論
コード CI テストデータ評価コード CD システム A A/B テストシステム B 負荷試験ログ収集評価データユニットテスト

「学習が正しく動いている」取得したデータが正しい → ←この処理が正しい動くモデルができてる → ←基準以上の評価評価と実用が乖離しない → 止めずに安定して
動かせるデータ分析、取得前処理学習評価リリース ←損失関数が下がる動く→

取得したデータが正しい • Data validation ◦ データの形式が正しい ▪ データ型が正しい： intになる値にfloatやstrが含まれていない ▪
データの範囲が正しい：身長データに 3cmや300cｍのようなありえない値が含まれていない ◦ データの分布が正しい ▪ 単位が正しい：cmで登録している身長データに mやmmによる身長が含まれていない ▪ 分布が偏っていない：平均 170cm, 中央値169cmのデータを分割した結果、平均、中央値が乖離していない

取得したデータが正しい import pandas import pandera schema = pa.DataFrameSchema({ "gender": pa.Column(str,
checks=pa.Check(lambda x: x in _genders , element_wise=True, error=f"gender must be {_genders}"), ), "height_cm": pa.Column(ﬂoat, checks=[ pa.Check(lambda x: 130 <= x <= 210 , element_wise=True, error=f"height must be between [130, 210]", ), pa.Hypothesis.two_sample_ttest( sample1="male", sample2="female", groupby="gender", relationship="greater_than", alpha=0.01, equal_var=True, ), ], ), }) df = pd.DataFrame(data = {"gender": genders, "height_cm": heights}) df = schema(df) • PythonのPandasとPanderaによるdata validation。 • カラムごとにdata schemaを定義し、チェックを挟むことで取得したデータの正しさを検証する。 • Hypothesis testingを活用することで複数カラム間の妥当性をテストすることが可能。

取得したデータが正しい import pytest import math import collections import numpy as
np # 学習ラベルとテストラベルの偏りをテスト def test_labels_distribution(y_train, y_test): tr_counter = collections.Counter(y_train) te_counter = collections.Counter(y_test) for (trk, trv), (tek, tev) in zip(tr_counter.items(), te_counter.items()): assert math.isclose(trv, tev, rel_tol=0.01, abs_tol=0.0) # 画像データの色の偏りをテスト def kl_divergence(a: np.ndarray, b: np.ndarray, bins=10, epsilon=0.00001): a_hist, _ = np.histogram(a, bins=bins) b_hist, _ = np.histogram(b, bins=bins) a_hist = (a_hist+epsilon) / np.sum(a_hist) b_hist = (b_hist+epsilon) / np.sum(b_hist) return np.sum([ai * np.log(ai / bi) for ai, bi in zip(a_hist, b_hist)]) def test_image_bias(train_image: np.ndarray, test_image: np.ndarray): assert kl_divergence(train_image, test_image) < 0.1 • 学習時のデータの偏りをテストする • 学習データとテストデータで傾向が異なる状態を防ぐ目的 • 研究開発時にはTensorBoardやKnow Your Dataが便利 https://knowyourdata.withgoogle.com/ • CI/CDや学習の自動化を進める際は、 Data Validation同様にデータの異常を検知するためのユニットテストを書く

機械学習開発のテスト • ソフトウェア開発ではプログラムを通してロジックをテストする • 機械学習ではコードを通してデータで確率をテストする YES or NO 0 ~
1 ソフトウェア開発のテスト機械学習のテスト入力正解出力 assert 関数指標推論 evaluate モデル関数テスト通過率：95/100 Accuracy：0.99 Precision：0.95 Recall：0.60 23 データ

# 少量データで学習が動く&進むことをテスト @pytest.mark.parametrize( (“model”, "train_path", “test_path” “epochs”), [(model, “/tmp/small_train/”, “/tmp/small_test/”,
10)], ) def test_train( model: nn.Module, train_path: str, test_path: str, epochs: int, ): trainloader = make_dataloader(train_path) testloader = make_dataloader(test_path) init_accuracy = evaluate(model, testloader) losses = train(model, epochs, trainloader) assert losses[0] > losses[-1] trained_accuracy = evaluate(model, testdata) assert init_accuracy < trained_accuracy 機械学習開発のテスト def make_dataloader(data_path: str) -> DataLoader: return dataloader(data_path) def train( model: nn.Module, epochs: int, trainloader: DataLoader, ) -> List[ﬂoat]: losses = [] for epoch in range(epochs): average_loss = train_once(model, trainloader) losses.append(average_loss) model.save() return losses def evaluate( model_path: str, testloader: DataLoader, ) -> List[ﬂoat]: predictor = Model(model_path) evaluations = predictor.evaluate(testloader) return evaluations

モデルの評価学習コード学習データ学習評価モデルレポート推論

オフライン評価 • 機械学習の学習と評価は実験フェーズ。 →変更の影響と再現性が求められる。 • 評価は使用したデータ、学習コード、評価コードに依存する。 ◦ 学習データやテストデータが変われば評価は変わる。 ◦ 学習コードやパラメータが変われば評価は変わる。
◦ 評価コードやパラメータが変われば評価は変わる。 →評価のデータ x 学習コード x 評価コードの組み合わせを記録することが望ましい。 • 手軽にやるならDVCやMLFlowが便利。

DVCの仕組み • Data Version Control • 機械学習で使用するデータをGitと連携してバージョン管理する。 • データはハッシュとともにリモート
ストレージ（S3やGCS等）に保存。 • データの変更を記録してハッシュのみGitで管理する。

DVCの仕組み # dvcを初期化; git initと同様 $ dvc init # リモートストレージを追加
$ dvc remote add -d remote_s3 s3://example/path # データを記録 $ dvc add ./data/train.csv # dvcデータとコードを記録 $ dvc commit && git add . && git commit # リモートストレージにデータを追加 $ dvc push # コードとデータをチェックアウト $ git checkout ${commit} && dvc checkout # git pullと同様 $ dvc pull Git DVC Data Remote dvc init dvc remote add dvc add git add git commit dvc push git checkout dvc checkout dvc pull dvc commit

学習と評価のバージョンコントロール # 学習 $ dvc add ./data/train.csv ./params.json $ python
-m src.train -d ./data/train.csv -p ./params.json saved model to ./model/model.onnx $ dvc add ./model/model.onnx # 評価実施 $ dvc add ./data/test.csv $ python -m src.evaluate -d ./data/test.csv saved evaluation to ./evaluation/evaluations.json # 評価レポート作成 $ python -m src.report -d ./evaluate/evaluations.json Saved report to ./report/report.md $ dvc add ./evaluation/evaluations.json ./report/report.md # 評価およびレポートの記録 $ dvc commit && git add . && git commit -m “evaluated” # push $ git push && dvc push Git DVC Data Remote git add git commit dvc commit dvc add python evaluate python report dvc add dvc push git push dvc add python train

MLFlow • 学習トラッキング • モデルレジストリ • プロジェクト管理 • ML基盤不要でアウトプット管理可能

MLFlowによる学習とアーティファクト管理 import mlflow # 自動ログ mlflow.sklearn.autolog() with mlflow.start_run() as run:
x_train, x_test, y_train, y_test = load_dataset() params = define_params() model = load_model(params) model.fit(x_train, y_train) metrics = model.evaluate(x_test, y_test) model.save_onnx(“/tmp/model.onnx”) # ハイパーパラメータ記録 mlflow.log_params(params) # メトリクス記録 mlflow.log_metrics(metrics) # アーティファクト管理 mlflow.log_artifact(“/tmp/model.onnx”)

機械学習のCI 学習コード学習データ学習評価モデルレポート推論

機械学習のCI • コードの正常性テスト、学習の妥当性テスト、インフラの堅牢性を分ける ◦ コードの正常性テスト ▪ Data Validation • 選択肢1.
汎用的にデータパイプラインで実行する • 選択肢2. 個別に学習のデータ取得時に実行する ▪ コードが正しく動く ◦ 学習の妥当性テスト ▪ 学習したモデルが実用化レベルの品質を持っている ▪ モデルをシステムに組み込むことができる ◦ インフラの堅牢性テスト ▪ 負荷テスト ▪ パフォーマンスに対するコスト評価 • 上記を連続して実行してテスト・評価ともに通過する

機械学習のCI Repo Code DVC CI データ取得前処理学習評価リリース
data validation data to be used test code data to be used model small data evaluating code serving infra model & test dataset model training code

DVCとCML • Data Version Control • データ分析や機械学習で使ったデータをバージョン管理する • Gitみたいに使う
• https://dvc.org/doc • Continuous Machine Learning • GitHub ActionとDVCと組み合わせてデータを管理したCI/CDが可能 • Git+CI+CML • https://github.com/iterative/cml

DVCとCML データ取得前処理学習評価リリースデータコード CI/CD データ
モデルモデル&テストデータモデル

GitHub Actionsでワークフローを書く jobs: run: runs-on: ubuntu-latest steps: - uses: actions/checkout@v2
- uses: iterative/setup-cml@v1 - name: ci env: REPO_TOKEN: ${{ secrets.GITHUB_TOKEN }} run: | dvc pull pytest tests -s -v docker build test:${commit} . docker run test:${commit} \ python -m src.integrate -m model/model.onnx -o report.md cat report/report.md >> report.md cml-publish report/confusion_matrix.png --md >> report.md cml-send-comment report.md Remote DVC CML Git dvc pull pytest docker build docker run cml-publish cml-send- comment

機械学習のCDと負荷テスト学習コード学習データ学習評価モデルレポート推論

サーバサイドにモデルをリリースする • モデルインイメージパターン ◦ 推論器のイメージにモデルを含めてビルドするパターン。 Dockerイメージサイズは大きくなるため、 Docker pullに時間を要する。ベースイメージを共通化することで pull時間を短縮することが可能。
• モデルロードパターン ◦ モデルファイルと推論器イメージを別に管理するパターン。 Dockerイメージを共通かつ軽量に保つことが可能。学習時と推論イメージでソフトウェアのバージョン不一致が発生する可能性が残る。学習環境と推論イメージでバージョニングする必要がある。

サーバサイドのモデルリリース推論用 Dockerイメージランタイムモデル学習 Docker イメージビルダーモデル管理推論器
推論器推論用Docker ベースイメージランタイム Dockerレジストリ保存モデルファイルモデルを含めて Dockerビルドモデルインイメージパターンモデル管理保存モデルファイル推論用Docker ベースイメージランタイムデプロイモデルロードパターンデプロイ時にモデルをロード

モデルインイメージ jobs: run: runs-on: ubuntu-latest steps: - uses: actions/checkout@v2 -
uses: iterative/setup-cml@v1 - name: ci run: | # 学習済みモデルを取得 dvc pull # モデルを指定してビルド docker build \ --build-arg MODEL=/models /model.onnx \ ml_serving:${commit} . # Docker Registryにプッシュ docker push ml_serving:${commit} # デプロイ kubectl -n ml_serving apply -f manifests/ml_serving.yaml Git Remote Docker Reg Server dvc pull docker build docker push kubectl apply

モデルロード jobs: run: runs-on: ubuntu-latest steps: - uses: actions/checkout@v2 -
uses: iterative/setup-cml@v1 - name: ci run: | # 推論サーバをビルド docker build ml_serving:${commit} . # Docker Registryにプッシュ docker push ml_serving:${commit} # デプロイ; init_containerでモデルを取得 kubectl -n ml_serving apply -f manifests/ml_serving.yaml Git Remote Docker Reg Server docker build docker push kubectl set env

負荷テスト Load tester LB Load tester • 推論器を本番同様のリソースで稼働させてレイテンシーを測り、ボトルネックを発見、チューニングする。
• Too bigなモデルでない限り、モデルは変更せずに実行環境で高速化や可用性強化を図る。 • 推論器のボトルネックは推論モデル。 Webサーバに組み込んで計測する前に、モデル単体をサーバ内部で連続して推論させ、推論の平均所要時間を計測する。 • 学習コストの高いディープラーニングモデルを使う場合、学習前にモデルだけで負荷テストを実行して遅延を確認しておく。 Proﬁle 入力前処理推論後処理出力レイテンシー（ ms）計測時間計測時間リクエスト数／秒

負荷テスト • 負荷テスト ◦ 外部から連続してリクエストを送信。入力がサイズ不特定の画像やテキストの場合、ランダムなサイズのデータを用意。 ◦ CPU使用率が上がらず遅延が発生する場合、ワーカー数や通信方法を調整する。
NumpyやSklearnであればIntel MKLを使用することも選択肢。 ◦ メモリリークが発生して根本解決が困難な場合、 Gunicornのmax_requestsパラメータで、一定数のリクエスト後にワーカープロセスを再起動することで緩和可能。 jitterやgraceful-timeoutと組み合わせる。 ◦ TensorﬂowやPytorchであれば前処理含めて計算グラフに組み込むことで遅延短縮可能。 ◦ 推論用GPUはコスト対効果次第。 Load tester LB Load tester 計測時間リクエスト数／秒計測時間リソース RAM CPU

負荷テスト Load tester LB ML ML ML 計測時間リソース RAM
CPU x 画像データで負荷テストするためにクライアント側がボトルネックになる x リソースを使い切らずにパフォーマンス低下計測時間リソース RAM CPU x プロキシが通信量を裁ききれずにOOM 経過時間リクエストレスポンス x リクエストデータよりも推論結果が大きくて遅延リソース CPU 計測時間異なるサイズでテストする

負荷テストツール Locust Python純正の負荷テストツール。 Pythonでテスト方法を定義し実行。 Web画面を用意し、レイテンシーやエラー率の把握やアクセス数の変更が可能。アクセスクライアントやワーカー数を調整可能で、様々な負荷状況を再現可能。それなりに重い。 Vegeta
Attack Golang製の負荷テストツール。コマンドラインで実行可能。軽量に高負荷を掛けることができる。 $ vegeta attack -duration=300s -rate=10000 \ -timeout=10ms -targets=target \ | vegeta report -type='hist[0,2ms,4ms,6ms]' Bucket # % Histogram [0s, 2ms] 2964541 98.82% ##################### [2ms, 4ms] 31232 1.04% # [4ms, 6ms] 2266 0.08% [6ms, +Inf] 1961 0.07%

推論のA/Bテスト学習コード学習データ学習評価モデルレポート推論

• 推論が許容範囲内で正しい • ソフトウェアのエラー率 • レイテンシーと耐障害性 • リソース利用量と利用料「推論が正しく動いている」 Client
LB LB 時間 RAM CPU group A CTR group B 時間 req/sec 時間 nodes 時間 error rate レイテンシー（ms）時間

サーバサイド機械学習のA/Bテスト商品A キャンペーン商品B 商品A キャンペーン商品B 商品A キャンペーン商品B
商品D キャンペーン商品C 新モデル現モデル UIのA/Bテスト機械学習のA/Bテスト UIの違い→CTRを比較ロジックの違い→CTRを比較

• 手法1 推論するデータを分ける O　コスト O　全ユーザから新モデルの評価を得る X　同じデータの比較ができない • 手法2 アクセスするユーザを分ける O　同じデータで比較できる
O　新モデルへの移行が比較的簡単 X　コスト A/Bテストを作る新モデル現モデル新モデル現モデル

IstioによるランダムA/Bテスト新モデル現モデル apiVersion: networking.istio.io/v1alpha3 kind: DestinationRule metadata: name: iris
namespace: online-ab spec: host: iris trafﬁcPolicy: loadBalancer: simple: ROUND_ROBIN subsets: - name: svc labels: version: svc - name: rf labels: version: rf apiVersion: networking.istio.io/v1alpha3 kind: VirtualService metadata: name: iris namespace: online-ab spec: hosts: - iris http: - route: - destination: host: iris subset: svc weight: 60 - destination: host: iris subset: rf weight: 40

headerで分割するA/Bテスト新モデル現モデル apiVersion: networking.istio.io/v1alpha3 kind: DestinationRule metadata: name: iris
namespace: online-ab spec: host: iris trafﬁcPolicy: loadBalancer: simple: ROUND_ROBIN subsets: - name: svc labels: version: svc - name: rf labels: version: rf apiVersion: networking.istio.io/v1alpha3 kind: VirtualService metadata: name: iris namespace: online-ab spec: hosts: - iris http: - match: - headers: - cookie: test_group route: - destination: host: iris subset: svc - route: - destination: host: iris subset: rf header

まとめ

0->1の次を目指すために自動化する • 機械学習はインタラクティブな開発が主要だが、プログラムで自動化を目指すことは可能 • データ、モデル、プログラムの依存関係を分割して考える • 正しく動くことを定義し、一般的な CI/CDの手法を取り入れる

本を出版しました！ • AIエンジニアのための機械学習システムデザインパターン • 2021年5月17日発売 • https://www.amazon.co.jp/dp/4798169447/ • 機械学習と銘打ってるのに
KubernetesとIstioに詳しくなれる一冊です！ • Amazon.co.jp 情報学・情報科学部門　 1位！人工知能部門　1位！ • 増刷決定！ • 韓国語版と中国語版（台湾）も出るらしい！

Machine learning CI/CD with OSS

Machine learning CI/CD with OSS

More Decks by shibuiwilliam

Other Decks in Technology

Featured

Transcript