Quality of machine learning system

機械学習システムと品質 2020/09/12 Shibui Yusuke

自己紹介 shibui yusuke • いろいろ → メルカリ → TierIV（いまここ） •
MLOpsエンジニア & SRE & ARエンジニア • もともとクラウド基盤の開発、運用。 • ここ4年くらいMLOpsで仕事。 • Github: @shibuiwilliam • Qiita: @cvusk • FB: yusuke.shibui • 最近の趣味：Edge AIとARと3Dマッピング cat : 0.55 dog: 0.45 human : 0.70 gorilla : 0.30 物体検知

CatOps in work from home 放置しているとネコに椅子を奪われる。ネコ障害対応（餌、遊ぶ）。「遊ぶ」を自動化する。椅子に座っていても
ハンズフリーで遊べる。 day 奪われ回数ハンズフリー導入飽き始める Dev Data-driven

Agenda 1. MLOps 2. システムとして考える機械学習 3. 機械学習システムの品質 4. 機械学習のスピード 5.
機械学習と可用性 6. まとめ

機械学習のシステム • ユーザから見たAI • MLエンジニアから見たML • ソフトウェアエンジニアから見た MLシステム猫！犬！
猫！ https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf Accuracy 99.99%

MLOps • 機械学習をDevOpsに則って開発、運用する手法と文化。 • 機械学習はモデルを作るだけでなく、モデルを本番環境に導入してビジネスインパクトを創出することが重要。 • 本番環境で機械学習モデルを稼働させ、継続的に改善していく（CI、CD、CT）ことで価値を最大化。 •
機械学習のワークフローをシステムとして開発、運用することが望ましい。

システムとして考える機械学習推論器インターフェイスログ学習評価モデル管理コード
管理運用監視イメージ管理ストレージ CI 前処理推論後処理 BI → 機械学習で DevOpsを回すために必要 ↓最低限必要

機械学習システムの品質機械学習システムの品質を3カテゴリに分類してみる。 1. 機械学習の推論モデル a. 推論モデルのパフォーマンス b. 本番データの変化による劣化とエラー c. 問題定義とソリューション
2. 推論モデルを稼働させるシステム a. 入出力のデータやデータ型 b. 推論スピードと可用性 c. 例外処理 3. 運用と体制 a. モデルの再現および再学習 b. 推論器の再現およびロールバック c. 維持可能な運用体制 Client RT LB int ﬂoat test data accuracy: 99.99% 何のML だっけ？ 1sec/req モデル作った VM消したよ dockerimg:latest 上書き error率 0.1% アサイン変わった me too 転職商品カテゴリ追加削除そして誰もいなくなった

アンチパターン • 推論器が遅すぎてユーザを待たせてる。 • 性能劣化した推論器でも継続してすべてのリクエストに推論を返す。 test data accuracy: 99.99%
5sec/req 2015年の test accuracy: 99.99% ネコ！イヌ！ 2015年 2020年 5秒で離脱

機械学習のスピード • 学習のスピード：モデル改善の効率。 TensorboardでProfiling可能。 https://www.tensorflow.org/tensorboard/tensorboard_profiling_keras • 推論のスピード：ユーザ向けサービスのサービスレベル。 ◦ レスポンススピード：リクエストに対する推論結果の返信所要時間。 ◦
負荷耐性：レスポンススピードの安定度。負荷テストで計測。 ◦ 誰も長く待ちたくない！入力前処理推論後処理出力通信前処理推論後処理出力通信入力所要時間通信

機械学習の推論スピード • 推論器のボトルネックは推論。 Deep learningの場合、9割以上がDeep learningだったりする。 • 学習コストの高いDeep learningは学習後に測定するのではなく、学習前に測っておく。 •
Too bigなモデルでない限り、学習後はモデルは変更せず、実行環境やプログラムで高速化、可用性向上を図るほうが効率的なことがある。 ◦ モデルをチューニングする費用対効果　＜　基盤でチューニングする費用対効果入力前処理推論後処理出力通信前処理推論後処理出力通信入力所要時間通信

機械学習と負荷テスト • 推論器に対して負荷テストを実施。 • 入力が画像やテキストの場合、ランダムなサイズのデータを用意して所要時間や負荷耐性を測る。 • 推論はCPUバウンドのため、高負荷になると CPU使用率が上がるはず。 Load tester
LB 計測時間 req/sec 計測時間 RAM CPU 負荷に対して CPU使用率が上がるはず。計測時間 RAM CPU CPU使用率が低い場合は以下のいずれか 1. 効率的なモデル 2. サーバの設定漏れ負荷負荷テストの構成リソース利用

可用性 • サーキットブレーカー ◦ 急激な負荷増で処理能力やスケールアウトが間に合わない場合、一部のリクエストを遮断して全断を防ぐ。 ◦ NginxやEnvoy proxyで標準装備。
• 推論のバックアッププランと例外処理 ◦ デフォルトの推論結果や挙動を決めておいて、エラー発生時はデフォルトの挙動を発動。 ◦ 障害発生時や遅延時に有効。 ◦ 本番データの傾向が変わって推論器が性能劣化している場合も環境変数でデフォルトの推論を返すようにすることもできる。 Client LB Nginx 推論器 circuit break over 300rps Client LB LB <= 300rps: 推論 > 300rps: default 0

まとめ • 推論結果を返却するまでが機械学習。 • 確率的 & 重い計算処理が含まれる機械学習を本番環境で動かすためには、正常に動かなかった場合のバックアッププランが必要。 • 機械学習を本番導入するときの転ばぬ先の杖になれば幸いです。
• もっと詳しく https://www.slideshare.net/yusukeshibui/ml-system-inpython

Quality of machine learning system

Quality of machine learning system

shibuiwilliam

More Decks by shibuiwilliam

Other Decks in Technology

Featured

Transcript

機械学習システムと品質 2020/09/12 Shibui Yusuke

自己紹介 shibui yusuke • いろいろ → メルカリ → TierIV（いまここ） •

CatOps in work from home 放置しているとネコに椅子を奪われる。ネコ障害対応（餌、遊ぶ）。「遊ぶ」を自動化する。椅子に座っていても

Agenda 1. MLOps 2. システムとして考える機械学習 3. 機械学習システムの品質 4. 機械学習のスピード 5.

機械学習のシステム • ユーザから見たAI • MLエンジニアから見たML • ソフトウェアエンジニアから見た MLシステム猫！犬！

システムとして考える機械学習推論器インターフェイスログ学習評価モデル管理コード

機械学習システムの品質機械学習システムの品質を3カテゴリに分類してみる。 1. 機械学習の推論モデル a. 推論モデルのパフォーマンス b. 本番データの変化による劣化とエラー c. 問題定義とソリューション

アンチパターン • 推論器が遅すぎてユーザを待たせてる。 • 性能劣化した推論器でも継続してすべてのリクエストに推論を返す。 test data accuracy: 99.99%

機械学習の推論スピード • 推論器のボトルネックは推論。 Deep learningの場合、9割以上がDeep learningだったりする。 • 学習コストの高いDeep learningは学習後に測定するのではなく、学習前に測っておく。 •

可用性 • サーキットブレーカー ◦ 急激な負荷増で処理能力やスケールアウトが間に合わない場合、一部のリクエストを遮断して全断を防ぐ。 ◦ NginxやEnvoy proxyで標準装備。