到着予想時間（ETA）サービスの特徴量のニアリアルタイム化

Slide 1

Slide 1 text

到着予想時間（ETA）サービスの特徴量のニアリアルタイム化 - Feature Storeの技術選定 - 2023.05.31 鈴木隆史 GO株式会社

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

© GO Inc. アルゴリズム側の改善 ● 経路探索 + MLモデルのハイブリッド構成へ変更（参考： DeNA TechCon 2022 - あと何分？タクシーアプリ『GO』到着予測AIの社会実装まで -） ● 通り過ぎ問題への対策（参考：GO Tech Blog - ETA(到着予想時間)の重要性と「通り過ぎ問題」への対策 -）システム側の改善 ● リアルタイムな需要供給・道路状況の反映 ○ 降雪などの突発的なイベントでの精度低下の改善 6 到着予想時間（ETA）の精度向上に向けた取り組み本日話すテーマ課題ニアリアルタイム（30分ごと）に更新されるデータを用いて機械学習モデルを更新する仕組みがない

Slide 7

Slide 7 text

© GO Inc. 従来ETA APIのコンポーネント 7 ユーザー時刻・地理情報・乗務員情報などの入力値お客様・ドライバー位置情報の入力値経路探索エンジン経路探索結果の特徴量 ETA 推論モデル Amazon EKS 特徴量変換時刻・乗務員などの様々な特徴量地図データ S3 地理統計値乗務員情報などの特徴量数ヶ月ごとの更新ワークフローエンジン Cloud Composer 1日ごとの更新処理リクエストパラメータデータ凡例

Slide 8

Slide 8 text

© GO Inc. 従来ETA APIのシステム構成 8 地図データ地理統計値乗務員情報などの特徴量数ヶ月ごとの更新 1日ごとの更新ワーカープロセス A グローバル変数ワーカープロセス B グローバル変数ワーカープロセス C グローバル変数 … … ワークフローエンジン Cloud Composer Amazon EKS S3 ● REST APIのPodが起動する際に、各プロセスのグローバル変数にデータをロードしているワーカープロセス A ワーカープロセス B ワーカープロセス C …

Slide 9

Slide 9 text

© GO Inc. 従来APIシステム構成に30分更新の天気情報を追加しようとすると 9 地図データ地理統計値乗務員情報などの特徴量天気情報などの特徴量数ヶ月ごとの更新 1日ごとの更新ワーカープロセス A グローバル変数ワーカープロセス B グローバル変数ワーカープロセス C グローバル変数 … 30分ごとの更新ワークフローエンジン Cloud Composer S3 ● 30分ごとに新しい特徴量データをロードするには、再デプロイが必要なため現実的でない 30分単位でデータ更新したいが、 Podを再デプロイしないとグローバル変数が再読込されないワーカープロセス A ワーカープロセス B ワーカープロセス C … 各プロセスごとにメモリが割り当てられるため、あるプロセスのグローバル変数を更新しても他プロセスには反映されない … Amazon EKS

Slide 10

Slide 10 text

Slide 11

Slide 11 text

© GO Inc. 11 解決案の候補実装方式サービング方式メリットデメリット Vertex AI Feature Store の利用オンラインサービング (少量の最新データを取得 ) * 低レイテンシ/低メモリ * 複数データソース (BigQuery/GCS)に対して統一したI/Fで取得可能 * コンピュートコスト大 * バッチ処理と比較して高いバッチサービング (大量の定期更新データを取得 ) * 統一I/F * サーバーキャッシュに乗せることで低レイテンシ * 高メモリ * リアルタイムデータの参照ができない独自実装オンラインサービング (少量の最新データを取得 ) (Redis開発想定) * 低レイテンシ/低メモリ * コンピュートコスト大バッチサービング (大量の定期更新データを取得 ) (データ取得プロセス開発想定 ) * サーバーキャッシュに乗せることで低レイテンシ * 使用メモリ次第で低コスト * 現状の実装ベース * リアルタイムデータの参照ができない * 高メモリ

Slide 12

Slide 12 text

© GO Inc. 12 解決案の実験結果実装方式サービング方式レイテンシ使用メモリコンピュートコスト Vertex AI Feature Store の利用オンラインサービング (少量の最新データを取得 ) 100-200 msec 数KB 1ノードあたり$700/month バッチサービング (大量の定期更新データを取得 ) 1-3 msec (サーバーキャッシュ利用時 ) 数1000 msec (通常参照時) 数10MB 軽微なストレージ料金独自実装オンラインサービング (少量の最新データを取得 ) (Redis開発想定) 5-10 msec 数KB M1(4GB) Standardの場合 $200/month バッチサービング (大量の定期更新データを取得 ) (データ取得プロセス開発想定 ) 1-3 msec (サーバーキャッシュ利用時 ) 100-200 msec (通常参照時) 数10MB Podに割り当てられたリソースの余剰部分で賄える

Slide 13

Slide 13 text

© GO Inc. 今回は下記の理由でバッチサービングの独自実装を採用した ● 既に特徴量はBigQueryで集約管理しているため、I/F共通化の恩恵が小さいこと ● 特徴量データサイズが小さく、サーバーキャッシュに乗り切ること ○ サーバーキャッシュに乗れば、通信オーバーヘッドがない分オンラインサービングよりも高速に動作すること ● 利用する特徴量は30分単位で更新できればよく、バッチサービングで要件を満たせること ● 現在の実装ベースのまま開発できること 13 バッチサービング独自実装の選定理由

Slide 14

Slide 14 text

Slide 15

Slide 15 text

© GO Inc. サービングプロセスの新構成 15 地図データ地理統計値乗務員情報などの特徴量天気情報などの特徴量数ヶ月ごとの更新 1日ごとの更新ワーカープロセスA ワーカープロセスB ワーカープロセスC … … … 30分ごとの更新ワークフローエンジン Cloud Composer サービングプロセスグローバル変数データ参照スレッドユーザー S3 ワーカープロセスA ワーカープロセスB ワーカープロセスC サービングプロセスグローバル変数データ参照スレッド Amazon EKS …

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

© GO Inc. 特徴量のバージョン管理 ● データの後方互換性がなくなるタイミングでデータファイルのバージョンを変更し、モデルではデータバージョンを指定して処理することで、新旧両方のデータを扱える ○ 例）features/1.1.0/realtime.csv.gz -> features/1.2.0/realtime.csv.gz ○ モデルによって違うバージョンの特徴量を利用することが可能 ○ 後方互換性がない更新が入っても、既存のパイプラインはエラーにならない ● バージョン更新時のデプロイ順番には注意 ○ 1. Cloud Composerで新しい特徴量データのデプロイ ○ 2. APIで利用する特徴量バージョンの更新 ○ この手順を踏むことでデータフォーマット変更時のエラーを回避 18 運用上の考慮点

Slide 19

Slide 19 text

© GO Inc. 今回のニアリアルタイム特徴量の提供には、バッチサービング独自実装を採用 ● オンラインサービングやFeature Storeを利用するメリットが小さかったため見送り ● オンラインサービングと比較して低レイテンシで特徴量を提供可能 ● 複数プロセスを起動するAPIでは、サービングプロセスを利用して各プロセスでデータを共有 ● 定期的なデータ更新スレッドを利用して、データの再読み込み特徴量管理の工夫 ● バージョン管理を導入することで、モデルごとに違うバージョンの特徴量を利用可能 19 まとめ