Machine learning and system design

1 機械学習とシステムデザイン 2020/03/02 Mercari AI & Search Engineering Team shibui
yusuke

2 自己紹介 cat : 0.55 dog: 0.45 human : 0.70
gorilla : 0.30 Object Detection Shibui Yusuke • 写真検索 & Edge AI Team 基盤エンジニア MLエンジニアアノテーター（NEW!） • Github: @shibuiwilliam • Qiita: @cvusk • Facebook: @shibui yusuke • 最近やってること：Android、AR

3 最近やってること

4 • メルカリのMLシステム事例のうち、汎用的に使えそうな構成を共有します。今日話すこと Easy Safe 違反出品検知価格推定感動出品配送推定
(US) Kaggle (US) 感動出品 (US) 感動出品 v2 バーコード出品違反出品検知 v2 KYC 違反出品検知 v3 不正検知写真検索価格推定 v2 配送推定感動トレカ推定 AIカタログマッピング Edge AI listing dispatcher 2017  2018  2019 

5 メルカリのワークフロー売れるかな？出品する探す買う配送する • ユーザの売る・買うをつなぐC2Cマーケットプレイス・プラットフォーム。出品者
購入者

6 • 目的：出品の配送サイズを推定しレコメンド。　　　（いろいろな配送方法・サイズを出品時に選択） • モデル：既存の類似商品の配送サイズを元にした近傍法。 • タイミング：出品前。配送推定システム出品する
配送する ML推論基盤商品情報（説明文等）配送サイズ

7 • 解決したい課題： ◦ 1リクエストに1推論を返すサービスを作りたい。 • 解決策： ◦ GET/POSTを受け付けるREST APIに推論モデルを組み込
む。 • 利点： ◦ シンプルな構成のため、開発、運用が簡単。 ◦ スケールアウトや障害箇所の特定が容易。 • 注意点： ◦ 推論モデルのサイズ次第でレスポンス速度が上下する。 ◦ レスポンス内容： ▪ 分類の場合、全確率値を返すか、 top-kを返すか。 ▪ 確率に応じたクライアントの動作。シンプルなWeb API クライアント推論REST API

8 • 解決したい課題： ◦ 推論に既存データの一部を利用する場合、 DWHにアクセスするのは負荷・遅延が発生する。 • 解決策： ◦
利用するデータを前処理してキャッシュや DBに入れておく。 • 利点： ◦ 推論速度向上。 ◦ DWHへの負荷削減。 • 注意点： ◦ 推論用キャッシュやDBが必要。 ◦ データの鮮度が必要な場合、キャッシュや DBにTTL を設定しないと古いデータで推論される。データ・キャッシュクライアント推論REST API DB DWH 前処理

9 違反検知システム出品する買う • 目的：違反出品を検知する。 • モデル：違反カテゴリごとに専用モデルを用意。 • タイミング：出品後。
ML推論基盤商品情報違反有無

10 並列的なマイクロサービス • 解決したい課題： ◦ 1イベントをトリガーにして複数のモデルで並列に推論する。モデルを増減することがある。 • 解決策： ◦
推論器をマイクロサービス化し、各推論へのリクエストを集約するプロキシを設置、集約した推論結果をレスポンスする。 ◦ ターゲットの推論器はプロキシに環境変数で設定する。 • 利点： ◦ 推論器ごとにリソース調整や更新が可能。 ◦ 推論器のメンテナンス、障害局所化。 ◦ 推論器の追加・削除が容易。 • 注意点： ◦ コスト増。 ◦ 推論の一つが失敗した場合のリトライ方針やタイムアウトを設定しないと、1推論器のエラーが全推論器の負荷につながる。クライアントプロキシ A違反モデル B違反モデル・・・

11 非同期推論 • 解決したい課題： ◦ 推論の呼び出し元と出力先が違う場合、同期的に処理すると遅延・障害の原因になる。 • 解決策： ◦
呼び出し元と推論器の間にキューやメッセージングを置き、疎結合にする。 • 利点： ◦ 各コンポーネントを分離可能。 ◦ 推論器で障害が発生してもリトライ可能。 • 注意点： ◦ 推論の順番は保証されないため、入力やデータに対する推論順が必要なワークフローでは注意が必要。 ◦ 推論エラー時のリトライポリシー。 A違反モデル B違反モデル・・・プロキシメッセージング出力先

12 写真検索システム売れるかな？探す • 目的：似た画像の商品を探す。 • モデル：画像に対する物体検出、特徴抽出、類似ベクトル検索の組み合わせ。 •
タイミング：出品検討中、検索中。 ML推論基盤学習パイプライン入力画像類似商品

13 連続的な推論システム • 解決したい課題： ◦ 結果を出すまでに複数の推論モデルを経由する。 • 解決策： ◦ 各モデルをマイクロサービスとして配置、各推論器
へのリクエストをプロキシで集約する。 • 利点： ◦ 複数のモデルを通して複雑な推論を処理可能。 ◦ 各推論器を分離し、それぞれに負荷分散やリソース調整が可能。 • 注意点： ◦ モデル間で依存した学習や開発が必要。 ◦ 途中の推論でエラーが発生すると後続の処理が実行できないため、可用性の検討が必要。 ◦ コスト増。プロキシ物体検出特徴抽出類似検索入力画像から物体検出被写体から特徴抽出抽出した特徴ベクトルから類似ベクトル検索

14 継続的なモデル追加 • 解決したい課題： ◦ 使用するデータが更新される場合、モデルを定期的に更新する必要がある。 • 解決策： ◦
更新されたデータと推論器を自動で追加する学習パイプラインと、追加された推論器を検出するサービスディスカバリを組み合わせる。 ◦ 不要な推論器は停止するだけで検索対象から除外可能。 • 利点： ◦ 更新されたデータやモデルを推論対象に組み込むことが可能。 • 注意点： ◦ 学習パイプラインの安定性。 ◦ 推論器の追加・削除処理。削除追加プロキシサービスディスカバリ特徴抽出出品データ出品画像インデクシング ML推論基盤 ML学習基盤

15 • MLシステムの難しさまとめ！　出力が確率的！　スピードが遅い！　データの変化！　モデルの更新閾値による出力判定、上位 x件を見せて人間の判断に委ねる
リソース調整、タイムアウト、キャッシュ、シンプルなモデルキャッシュ、定期的なデータ更新カナリアリリース、ABテスト、サービスディスカバリービジネスロジックやUI/UXとの整合性

16 コロナウィルスに負けずにイベントを開催した運営に称賛と感謝！この登壇者紹介を本人の確認なく掲載した大胆さにも称賛申し上げます。 https://techplay.jp/event/768641

Machine learning and system design

Machine learning and system design

shibuiwilliam

More Decks by shibuiwilliam

Other Decks in Technology

Featured

Transcript

1 機械学習とシステムデザイン 2020/03/02 Mercari AI & Search Engineering Team shibui

2 自己紹介 cat : 0.55 dog: 0.45 human : 0.70

3 最近やってること

4 • メルカリのMLシステム事例のうち、汎用的に使えそうな構成を共有します。今日話すこと Easy Safe 違反出品検知価格推定感動出品配送推定

5 メルカリのワークフロー売れるかな？出品する探す買う配送する • ユーザの売る・買うをつなぐC2Cマーケットプレイス・プラットフォーム。出品者

6 • 目的：出品の配送サイズを推定しレコメンド。　　　（いろいろな配送方法・サイズを出品時に選択） • モデル：既存の類似商品の配送サイズを元にした近傍法。 • タイミング：出品前。配送推定システム出品する

7 • 解決したい課題： ◦ 1リクエストに1推論を返すサービスを作りたい。 • 解決策： ◦ GET/POSTを受け付けるREST APIに推論モデルを組み込

8 • 解決したい課題： ◦ 推論に既存データの一部を利用する場合、 DWHにアクセスするのは負荷・遅延が発生する。 • 解決策： ◦

9 違反検知システム出品する買う • 目的：違反出品を検知する。 • モデル：違反カテゴリごとに専用モデルを用意。 • タイミング：出品後。

10 並列的なマイクロサービス • 解決したい課題： ◦ 1イベントをトリガーにして複数のモデルで並列に推論する。モデルを増減することがある。 • 解決策： ◦

11 非同期推論 • 解決したい課題： ◦ 推論の呼び出し元と出力先が違う場合、同期的に処理すると遅延・障害の原因になる。 • 解決策： ◦

12 写真検索システム売れるかな？探す • 目的：似た画像の商品を探す。 • モデル：画像に対する物体検出、特徴抽出、類似ベクトル検索の組み合わせ。 •

13 連続的な推論システム • 解決したい課題： ◦ 結果を出すまでに複数の推論モデルを経由する。 • 解決策： ◦ 各モデルをマイクロサービスとして配置、各推論器

14 継続的なモデル追加 • 解決したい課題： ◦ 使用するデータが更新される場合、モデルを定期的に更新する必要がある。 • 解決策： ◦

15 • MLシステムの難しさまとめ！　出力が確率的！　スピードが遅い！　データの変化！　モデルの更新閾値による出力判定、上位 x件を見せて人間の判断に委ねる

16 コロナウィルスに負けずにイベントを開催した運営に称賛と感謝！この登壇者紹介を本人の確認なく掲載した大胆さにも称賛申し上げます。 https://techplay.jp/event/768641