Machine learning system design pattern

機械学習システムデザインパターン 2021/06/04 shibui yusuke

自己紹介 shibui yusuke • 自動運転スタートアップのティアフォー所属 • 前職メルカリでAIとかKubernetesとか • 文学部の大学院卒（イギリス史） •
もともとクラウド基盤の開発、運用。 • ここ5年くらいMLOpsで仕事。 • Github: @shibuiwilliam • Qiita: @cvusk • FB: yusuke.shibui • 最近やってること: UnityとFlutterとIstio cat : 0.55 dog: 0.45 human : 0.70 gorilla : 0.30 物体検知

今日話すこと 1. 少年時代からの夢が叶った！ 2. 『機械学習システムデザインパターン』が生まれた背景 3. 課題、プロセス、運用

少年時代からの夢が叶った！

私の半生（反省）文学部イギリス史文学部大学院イギリス史 SIer クラウド作るメルカリ MLOpsとかティアフォー
データ？いろいろ少年時代本ばかり読む ~2003年 ~2007年 ~2009年 ~2015年 2017年頃 2018年 2020年本を書くのが夢挫折クラウドデザインパターンに出会う機械学習を始める本を書く本の元ネタ

機械学習システムデザインパターン • 2020年5月に機械学習システムの作り方をパターン化して公開。「デザインパターン」と呼ぶには偉大な先人に畏れ多い。。。 ◦ https://github.com/mercari/ml-system-design-pattern • その内容をメルカリ卒業直前の 2020年8月のPyConJP 2020で公演。
◦ https://pycon.jp/2020/timetable/?id=203111 • 翔泳社様にお声がけいただいて本を執筆。ついでに独自実装を公開。 ◦ https://github.com/shibuiwilliam/ml-system-in-actions

本を出版しました！ • AIエンジニアのための機械学習システムデザインパターン • 2021年5月17日発売 • https://www.amazon.co.jp/dp/4798169447/ • 機械学習と銘打ってるのに
KubernetesとIstioに詳しくなれる一冊です！

Amazon.co.jp 情報学・情報科学部門　1位！人工知能部門　1位！増刷決定！韓国語訳も出るらしい！

みんなありがとう！ • 翔泳社編集の宮腰さん、高橋さん、村上さん • レビュアーのメルカリ上野さんと木村さん、ティアフォー関谷さん • いろいろな機械学習プロジェクトでご一緒した皆様 • ウィリアム（真ん中）、マルグレーテ（右）

『機械学習システムデザインパターン』が生まれた背景

機械学習の実用化の課題 • 機械学習チームのソフトウェア開発の理解不足 • ソフトウェア開発チームの機械学習の理解不足 • 機械学習を0->1だけで終わらせているプロジェクトを散見 →　機械学習を実用化し運用する方法をパターン化して共通理解を作る

最近の機械学習界隈の状況 • 研究から利用へデータ機械学習デプロイ利用課題ユーザシステム
解決開発

機械学習とビジネスの間を埋める • 仕組みを作るシステムを作るビジネスのもととなるユーザ課題を分析する機械学習で課題を解決するデータを知るデータ機械学習課題
ユーザシステム

0->1の次を目指す • 解決策を洗練させるデータ機械学習課題ユーザシステム 0->1 機械学習で課題を解決する
データから課題解決を評価するデータで理解する 1->10 プロダクトの成長を実現する

機械学習でビジネスをレベルアップする • 開発と運用のサイクルを作るデータ機械学習課題ユーザシステム機械学習で課題を解決する機械学習を含めたUI/UXに反応する
データ、機械学習、システムでユーザ体験をレベルアップするデータを使う

ユーザ価値を改善することでチームを育成する • 技術利用から課題解決へデータ機械学習課題ユーザシステム機械学習で課題を解決する機械学習を含めたUI/UXに反応する
データ、機械学習、システムでユーザ体験をレベルアップするデータを使うサイクルを繰り返しスケールすることで課題解決の速度と質を向上させる主体的な開発と運用を繰り返すことでチームのレベルアップを実現する →　DevOps、MLOps データ ML SWE SRE PdM LevelUP !!

ユーザに使ってもらえる機械学習へ固定化されたデザイン画像処理写真を撮るタイトル入力説明入力登録する自然言語処理違反検知
あるコンテンツ登録アプリ

機械学習を使ったプロダクト例画像処理写真を撮るタイトル入力説明入力登録する自然言語処理違反検知登録情報から違反をフィルタリング
入力情報から入力補助超解像による画質改善ねこ検索協調フィルタリングやランク学習による並べ替えあるコンテンツ登録アプリ画像分類と検索

機械学習を使ったプロダクトの課題例画像処理写真を撮るタイトル入力説明入力登録する自然言語処理違反検知登録情報から違反をフィルタリング
入力情報から入力補助超解像による画質改善ねこ検索協調フィルタリングやランク学習による並べ替えあるコンテンツ登録アプリ画像分類と検索タグどう学習する？ →定期的 →不定期 →評価が悪くなったときいつ推論する？ →検索時 →データ登録時 →1時間ごとにまとめてどう評価する？ →Accuracy, Confusion Matrix →検索数、CTR、いいね数

機械学習を使ったプロダクトのシステム例写真を撮るタイトル入力説明入力登録するねこあるコンテンツ登録アプリログ DB Storage
監視学習モデル proxy 画像 API 推論 API batch BI デプロイ認証認可 ID 検索 API Item API 推薦 API Text API

課題、プロセス、運用

WFH with Catパターン • ネコとともに在宅勤務するパターン。 • 仕事中、食事中、睡眠中、あらゆる状況で障害が発生する。 • 作業を中断してネコが満足するまで撫でる
必要がある。 • 撫でずに無視すると以下の障害を招く。 ◦ キーボード歩き。 ◦ 椅子爪研ぎ。 ◦ ゴミ箱倒し。 • 多頭飼いでは他ネコも平等に撫でないと上記の障害を招く。 →安定稼働しているシステムでも不意に　アラートが発生する。 →ひとつ対策を立ててもまた別の課題が生じる。

課題

Good • プロダクトの課題からはじめる • リリースからはじめる • ユーザへの価値からはじめる Bad • 機械学習からはじめる
• 汎用基盤からはじめる • 技術的な課題からはじめる Issueからはじめる

プロダクトを考えるネコネコイヌ・・・ネコ個数位置明るさ場所
容易さ便利さ画像をアップロード用途次第カテゴリを選択テキスト検索フリーテキスト入力自然言語処理フリーテキストと属性画像分類＋物体検知＋自然言語処理画像から類似画像を検索特徴量抽出＋ANN 3 暗外上

プロダクトを設計する • 課題：被写体が検索可能になるまでの時間が長すぎる • 条件： ◦ 被写体を検索できる必要がある ◦
コンテンツは違反検知を通して問題ないと判定されている必要がある • 成功の定義：コンテンツが登録され検索可能になるまでの時間をxx分以内に短縮する写真を撮るタイトル入力説明入力登録するねこ XX分

モデル開発

学習の課題 • 実用可能なモデルを開発するために実験しながら各プロセスを行き来する • 各プロセスのアウトプットの管理 • 機械学習だけでなくモデルのシステム面でのパフォーマンスや可用性（重すぎない、壊れない） •
学習を運用するためのコードのリファクタリングと学習の障害対応データ分析、取得前処理学習評価ビルドモデル選定パラメータ整理システム評価

アンチパターン：Only meパターン • コード、データ、モデルが管理されず、開発者の環境でしか再現できない。（開発者の環境でも再現できないこともある） • DVCやML Metadataでステップごとにアウトプットを記録することを推奨。
• Data validation：推論のサンプルデータとインターフェイス（入力データの型と shape、出力データの型とshape、意味）を定義する。 import load local data evaluate retrain deﬁne ml train save model git no training data 99.99% ???

学習のシステムと運用データ取得前処理学習評価ビルド • データパイプラインやMLパイプラインは有向非巡回グラフとして定義。 •
取得したデータを各フローで処理し、結果をモデルレポジトリに記録。 • ビルドのアウトプットは実行環境含めてDocker イメージとしてビルドすることもあれば、モデルのみをビルドし、実行環境はメタデータとして定義することもある。 • メタデータにはモデルの学習、評価に使った再現可能なデータ、パラメータ、評価値を登録。 DWH ストレージテストデータセットメタデータモデルレポジトリ Image builder Docker registry Docker registry モデル選定パラメータ整理システム評価

モデルリリース

モデルリリースの課題インフラ、OS ライブラリモデル入力前処理推論出力データ取得前処理
学習評価ビルドインフラ、OS ライブラリ学習環境のみ - Jupyter Notebook - バッチ学習用のライブラリ　（例：PyTorch、TensorFlow、Keras） - バッチ学習用のインフラ（ GPUとか） - データ・モデルバージョニングツール - モデルビルダー両環境に共通 - モデルファイル - 前処理で使うライブラリ　（例：Sklearn、PIL、Mecab） - 入出力のデータ型と形推論環境のみ - 推論用のライブラリ　（例：ONNX Runtime, TF Serving） - ランタイムと外部インターフェイス - ロガーとモニタリングツール

サーバサイドにモデルをリリースする 1. モデルインイメージパターン推論器のイメージにモデルを含めてビルドするパターン。 Dockerイメージサイズは大きくなるため、 Docker pullに時間を要する。ベースイメージを共通化することで pull時間を短縮することが可能。 2.
モデルロードパターンモデルファイルと推論器イメージを別に管理するパターン。 Dockerイメージを共通かつ軽量に保つことが可能。学習時と推論イメージでソフトウェアのバージョン不一致が発生する可能性が残る。学習環境と推論イメージでバージョニングする必要がある。

サーバサイドのモデルリリース推論用 Dockerイメージランタイムモデル学習 Docker イメージビルダーモデル管理推論器
推論器推論用Docker ベースイメージランタイム Dockerレジストリ保存モデルファイルモデルを含めて Dockerビルドモデルインイメージパターンモデル管理保存モデルファイル推論用Docker ベースイメージランタイムデプロイモデルロードパターンデプロイ時にモデルをロード

推論システム

課題　推論のタイミングユーザの行動に対する推論のタイミング • リアルタイム：行動とほぼ同時に推論用途例：自動運転、AR、ゲーム • 同期：行動ごとに推論を返す用途例：検索、Web、手続き的な業務 • 非同期：行動と切り離して推論
用途例：画面遷移等タイムラグのある用途 • バッチ：データを溜めて推論用途例：需要予測等、一括処理の用途リアルタイム同期非同期バッチ返さない

課題2 推論器のインターフェイス Docker image Runtime Model 入力前処理推論出力
一度は経験する間違い： float32で学習したモデルをfloat16で推論して結果がおかしい。 REST API + Json • Webではポピュラーな実装。 • サーバ側でJsonを定義するが、型が曖昧になるため、入力値の検査が必要。 GRPC + Protocol Buffers • TF ServingやONNX Runtime Serverで標準提供。（両者ともREST API + Jsonも標準提供） • .protoファイルで入出力の型含めて定義可能。クライアント、サーバで共通化できるが、Webに弱い。値の範囲や形式 • 正常に推論可能なデータの範囲。 • 自然言語の言語。 • 画像のフォーマット、 RGB、その他。 {input_data: []} ((1,3,224,224)) float32 {prediction: []} (1000,) float32 Node pool Node LB

Edge AIパターンクラウドで学習 Python クライアントで推論 Kotlin/Swift/C++ 後処理前処理学習前処理
推論モデルモデル変換

同期推論パターンロードバランサー REST API Docker Python image Gunicorn Uvicorns FastAPI
Model • 最もシンプルな構成の推論器。 • すぐリリースしたいときに有効。 • GunicornやUvicornをベースに FlaskやFastAPIで稼働。 Gunicorn(WSGI) Uvicorn (ASGI) Uvicorn (ASGI) Gunicorn(WSGI) Flask Flask

非同期推論パターンメッセージ推論器 • 推論結果を同期的に得る必要がない場合に有効なパターン。 • クライアントと推論器の中間にKafkaやRedisを配置することで実現。 •
非同期の方式はリクエスト非同期型、 Publish/Subscribe型、Notiﬁcation型等がある。ワークフローに応じて選択。 • ただしディープラーニングでは、ユーザを待たせないために非同期とし、許容時間内のみポーリングすることも可能。 Docker Python image multiprocessing Model Runtime Client クライアント

時間差推論パターン • 複数の推論器でレイテンシーに差がある場合、速い推論器は同期的に返し、遅い推論器のレスポンスを非同期にする。 • クライアントと推論器の中間にProxyを置き、Proxyで各推論器へのリクエストを制御する構成。 •
推論器は同期、非同期両方のエンドポイントを公開しておくことで、より柔軟な対応が可能。この構成の場合、メッセージングではなく CeleryやBackgroundTasksで実装。 Client LB Sklearn SyncA Deep learning AsyncB Proxy キャッシュ Environment Variable - SVC_A: SyncA - SVC_B: AsyncB - SVC_A_EP: predict - SVC_B_EP: async

バッチ推論パターン • データを収集して定期的に一括処理する • 周辺システムのデータ処理によって推論に使えるデータに差異が生まれる • 学習の段階で推論時に使えるタイミングのデータを想定して開発する必要がある •
スケジューリングが肝 DB バッチ処理 Docker Batch Model 木金木水火月土日月火水木金土金この1週間の需要を予測するデッドラインバッチ推論完了失敗時はリトライ需要予測バッチ起動水火月土日土日テストデータ学習データ日

機械学習の品質と運用

アンチパターン：Nobody knowsパターン • 稼働中の推論器がなぜ動いているのか誰も知らないパターン。歴史的にシステムが複雑になっていくと頻繁に発生する。 • MLプロジェクトの初期にプロトタイプで作ったモデルや、緊急対応で稼働させた
推論器を残しておくと「Nobody knows」になる。 • 学習データが残っていない状態は珍しくない。学習コードもJupyter Notebookのみという場合、モデルの評価や再現が困難。 LB API API API ML? API ML? このモデルを作ったのは誰だあっ!! ぴえん(T_T)

アンチパターン • 推論器が遅すぎてユーザを待たせてる。 • 性能劣化した推論器でも継続してすべてのリクエストに推論を返す。 test data accuracy: 99.99%
5秒/req 2015年の accuracy: 99.99% ネコ！イヌ！ 2015年 2020年 5秒で離脱

機械学習システムの品質機械学習システムの品質には 3カテゴリある。 1. 機械学習の推論モデル a. 推論モデルのパフォーマンス b. 本番データの変化による劣化とエラー c.
問題定義とソリューション 2. 推論モデルを稼働させるシステム a. 入出力のデータやデータ型 b. 推論スピードと可用性 c. 例外処理 3. 運用と体制 a. モデルの再現および再学習 b. 推論器の再現およびロールバック c. 維持可能な運用体制 Client LB LB int ﬂoat test data accuracy: 99.99% 何のML だっけ？ 1sec/req モデル作った VM消したよ dockerimg:latest 上書き error率 0.01% アサイン変わった me too 転職商品カテゴリ追加削除そして誰もいなくなった

機械学習の推論スピード • 推論器のボトルネックは推論。 Deep learningの場合、9割Deep learningなこともある • 学習コストの高いDeep learningは学習後に測定するのではなく、学習前に測っておく入力
前処理推論後処理出力通信前処理推論後処理出力通信入力所要時間通信

可用性 • サーキットブレーカー ◦ 急激な負荷増で処理能力やスケールアウトが間に合わない場合、一部のリクエストを遮断して全断を防ぐ。 ◦ NginxやEnvoy proxyで標準装備。
• 推論のバックアッププランと例外処理 ◦ デフォルトの推論結果や挙動を決めておいて、エラー発生時はデフォルトの挙動を発動。 ◦ 障害発生時や遅延時に有効。 ◦ 本番データの傾向が変わって推論器が性能劣化している場合も環境変数でデフォルトの推論を返すようにすることもできる。 Client LB Nginx 推論器 circuit break over 300rps Client LB LB <= 300rps: 推論 > 300rps: default 0

• 推論するデータを分ける O　コスト O　全ユーザから新モデルの評価を得る X　同じデータの比較ができない • アクセスするユーザを分ける O　同じデータで比較できる O　新モデルへの移行が比較的簡単 X　コスト
A/Bテストを作る新モデル現モデル新モデル現モデル

機械学習システムの監視 Client LB LB 時間 RAM CPU group A CTR
group B 時間 req/sec レイテンシー（ms）時間 nodes 時間 error rate • ユーザ価値は機械学習だけではない →各コンポーネントの稼働がユーザ価値を支える。時間

本に書きたかったけど書ききれなかったこと

本に書きたかったけど書ききれなかったこと • 各パターンを組み合わせたシステム • 機械学習の実務的評価とデータドリフトやコンセプトドリフトの対処 • Edge AIにおけるモデル評価と配布。あと MediaPipeやUnity Barracuda
• Data Validationと機械学習システムに特化したコーディング規約とユニットテスト • あと本書の英語版と中国語版を出版したいです。

ご清聴ありがとうございました。

Machine learning system design pattern

Machine learning system design pattern

More Decks by shibuiwilliam

Other Decks in Technology

Featured

Transcript