到着予想時間サービスの特徴量のニアリアルタイム化

© GO Inc. 2 タクシー配車アプリ『GO』乗る位置を指定到着まで待つ乗る！支払い
キャッシュレスで素早く降車 ※アプリ上で決済他、　車内で現金決済にも対応

© GO Inc. 主要な『GO』分析データ基盤 3 GO動態ログ GOイベントログ（ユーザアプリ） GCP
DBログ（Cloud SQL） AWS DBログ（Aurora）外部データ (地図・天気など) データソースデータパイプライン BigQuery RAWデータデータマートデータ活用 BI・プロダクト分析バッチ同期ストリーミング (CDC) バッチ同期 (S3 -> GCS) バッチ同期 (BQ federated query) ストリーミング挿入 (Pub/Sub, Dataflow) ストリーミング挿入 (Pub/Sub, Dataflow) 加工パイプライン (Dataform) タクシー会社向け GOヘルプデスク GO施策運用・・緑枠が主なチーム担当領域加工パイプライン (Dataform) データウェアハウス AIサービス

© GO Inc. 主要な『GO』分析データ基盤 4 今回話すコンテンツ GO動態ログ GOイベントログ（ユーザアプリ）
GCP DBログ（Cloud SQL） AWS DBログ（Aurora）外部データ (地図・天気など) データソースデータパイプライン BigQuery RAWデータデータマートデータ活用 BI・プロダクト分析バッチ同期ストリーミング (CDC) バッチ同期 (S3 -> GCS) バッチ同期 (BQ federated query) ストリーミング挿入 (Pub/Sub, Dataflow) ストリーミング挿入 (Pub/Sub, Dataflow) 加工パイプライン (Dataform) タクシー会社向け GOヘルプデスク GO施策運用加工パイプライン (Dataform) データウェアハウス AIサービス・・車両位置情報データ圧縮による Cloud Pub/Sub コスト削減（牧瀬） AWS Aurora S3 Export を利用した負荷をかけない GCP BigQuery へデータ連携 (伊田) 到着予想時間（ ETA）サービス特徴量ニアリアルタイム化（鈴木）

© GO Inc. 到着予想時間（ETA）サービス特徴量ニアリアルタイム化 5 2023.05.31 鈴木隆史
GO株式会社

© GO Inc. 7 ETA精度事業影響度が大きい • 『GO』アプリコア機能（配車依頼、予約機能など）として利用している •
アプリで表示している到着時間よりも遅着・早着場合 ◦ UX 悪化、キャンセル率増加 ◦ 特に大幅な遅着時ネガティブ体験 • 遠方車両を向かわせてしまった場合 ◦ 迎車時間が長くなることによる機会損失到着予想時間（ETA）精度重要性

© GO Inc. アルゴリズム側改善 • 経路探索 + MLモデルハイブリッド構成へ変更（参考：
DeNA TechCon 2022 - あと何分？タクシーアプリ『GO』到着予測AI 社会実装まで -） • 通り過ぎ問題へ対策（参考：GO Tech Blog - ETA(到着予想時間) 重要性と「通り過ぎ問題」へ対策 -）システム側改善 • リアルタイムな需要供給・道路状況反映 ◦ 降雪など突発的なイベントで精度低下改善 9 到着予想時間（ETA）精度向上に向けた取り組み本日話すテーマ課題ニアリアルタイム（30分ごと）に更新されるデータを用いて機械学習モデルを更新する仕組みがない

© GO Inc. 従来ETA API コンポーネント 10 ユーザー時刻・地理情報・
乗務員情報など入力値お客様・ドライバー位置情報入力値経路探索エンジン経路探索結果特徴量 ETA 推論モデル Amazon EKS 特徴量変換時刻・乗務員など様々な特徴量地図データ S3 地理統計値乗務員情報など特徴量数ヶ月ごと更新ワークフローエンジン Cloud Composer 1日ごと更新処理リクエストパラメータデータ凡例

© GO Inc. 従来ETA API システム構成 11 地図データ地理統計値乗務員情報
など特徴量数ヶ月ごと更新 1日ごと更新ワーカープロセス A グローバル変数ワーカープロセス B グローバル変数ワーカープロセス C グローバル変数 … … ワークフローエンジン Cloud Composer Amazon EKS S3 • REST API Podが起動する際に、各プロセスグローバル変数にデータをロードしているワーカープロセス A ワーカープロセス B ワーカープロセス C …

© GO Inc. 従来APIシステム構成に30分更新天気情報を追加しようとすると 12 地図データ地理統計値乗務員情報など
特徴量天気情報など特徴量数ヶ月ごと更新 1日ごと更新ワーカープロセス A グローバル変数ワーカープロセス B グローバル変数ワーカープロセス C グローバル変数 … 30分ごと更新ワークフローエンジン Cloud Composer S3 • 30分ごとに新しい特徴量データをロードするに、再デプロイが必要なため現実的でない 30分単位でデータ更新したいが、 Podを再デプロイしないとグローバル変数が再読込されないワーカープロセス A ワーカープロセス B ワーカープロセス C … 各プロセスごとにメモリが割り当てられるため、あるプロセスのグローバル変数を更新しても他プロセスには反映されない … Amazon EKS

© GO Inc. 14 解決案候補実装方式サービング方式メリットデメリット
Vertex AI Feature Store 利用オンラインサービング (少量最新データを取得 ) * 低レイテンシ/低メモリ * 複数データソース (BigQuery/GCS)に対して統一したI/Fで取得可能 * コンピュートコスト大 * バッチ処理と比較して高いバッチサービング (大量定期更新データを取得 ) * 統一I/F * サーバーキャッシュに乗せることで低レイテンシ * 高メモリ * リアルタイムデータ参照ができない独自実装オンラインサービング (少量最新データを取得 ) (Redis開発想定) * 低レイテンシ/低メモリ * コンピュートコスト大バッチサービング (大量定期更新データを取得 ) (データ取得プロセス開発想定 ) * サーバーキャッシュに乗せることで低レイテンシ * 使用メモリ次第で低コスト * 現状実装ベース * リアルタイムデータ参照ができない * 高メモリ

© GO Inc. 15 解決案実験結果実装方式サービング方式レイテンシ使用メモリ
コンピュートコスト Vertex AI Feature Store 利用オンラインサービング (少量最新データを取得 ) 100-200 msec 数KB 1ノードあたり$700/month バッチサービング (大量定期更新データを取得 ) 1-3 msec (サーバーキャッシュ利用時 ) 数1000 msec (通常参照時) 数10MB 軽微なストレージ料金独自実装オンラインサービング (少量最新データを取得 ) (Redis開発想定) 5-10 msec 数KB M1(4GB) Standard 場合 $200/month バッチサービング (大量定期更新データを取得 ) (データ取得プロセス開発想定 ) 1-3 msec (サーバーキャッシュ利用時 ) 100-200 msec (通常参照時) 数10MB Podに割り当てられたリソース余剰部分で賄える

© GO Inc. 今回下記理由でバッチサービング独自実装を採用した • 既に特徴量 BigQueryで集約管理しているため、I/F共通化
恩恵が小さいこと • 特徴量データサイズが小さく、サーバーキャッシュに乗り切ること ◦ サーバーキャッシュに乗れ、通信オーバーヘッドがない分オンラインサービングよりも高に動作すること • 利用する特徴量 30分単位で更新できれよく、バッチサービングで要件を満たせること • 現在実装ベースまま開発できること 16 バッチサービング独自実装選定理由

© GO Inc. サービングプロセス新構成 18 地図データ地理統計値乗務員情報など
特徴量天気情報など特徴量数ヶ月ごと更新 1日ごと更新ワーカープロセスA ワーカープロセスB ワーカープロセスC … … … 30分ごと更新ワークフローエンジン Cloud Composer サービングプロセスグローバル変数データ参照スレッドユーザー S3 ワーカープロセスA ワーカープロセスB ワーカープロセスC サービングプロセスグローバル変数データ参照スレッド Amazon EKS …

© GO Inc. 特徴量バージョン管理 • データ後方互換性がなくなるタイミングでデータファイルバージョンを変更し、モデルでデー
タバージョンを指定して処理することで、新旧両方データを扱える ◦ 例）features/1.1.0/realtime.csv.gz -> features/1.2.0/realtime.csv.gz ◦ モデルによって違うバージョン特徴量を利用することが可能 ◦ 後方互換性がない更新が入っても、既存パイプラインエラーにならない • バージョン更新時デプロイ順番に注意 ◦ 1. Cloud Composerで新しい特徴量データデプロイ ◦ 2. APIで利用する特徴量バージョン更新 ◦ こ手順を踏むことでデータフォーマット変更時エラーを回避 21 運用上考慮点

© GO Inc. 今回ニアリアルタイム特徴量提供に、バッチサービング独自実装を採用 • オンラインサービングやFeature Storeを利用するメリットが小さかったため見送り
• オンラインサービングと比較して低レイテンシで特徴量を提供可能 • 複数プロセスを起動するAPIで、サービングプロセスを利用して各プロセスでデータを共有 • 定期的なデータ更新スレッドを利用して、データ再読み込み特徴量管理工夫 • バージョン管理を導入することで、モデルごとに違うバージョン特徴量を利用可能 22 まとめ

到着予想時間サービスの特徴量のニアリアルタイム化

到着予想時間サービスの特徴量のニアリアルタイム化

Takashi Suzuki

More Decks by Takashi Suzuki

Other Decks in Technology

Featured

Transcript

© GO Inc. タクシーアプリ『GO』データ基盤全体像 1 2023.05.31 GO株式会社

© GO Inc. 2 タクシー配車アプリ『GO』乗る位置を指定到着まで待つ乗る！支払い

© GO Inc. 主要な『GO』分析データ基盤 3 GO動態ログ GOイベントログ（ユーザアプリ） GCP

© GO Inc. 主要な『GO』分析データ基盤 4 今回話すコンテンツ GO動態ログ GOイベントログ（ユーザアプリ）

© GO Inc. 到着予想時間（ETA）サービス特徴量ニアリアルタイム化 5 2023.05.31 鈴木隆史

© GO Inc. 到着予想時間（Estimated Time of Arrival）到着予想時間（ETA）と 6

© GO Inc. 7 ETA精度事業影響度が大きい • 『GO』アプリコア機能（配車依頼、予約機能など）として利用している •

© GO Inc. 8 現状と課題

© GO Inc. アルゴリズム側改善 • 経路探索 + MLモデルハイブリッド構成へ変更（参考：

© GO Inc. 従来ETA API コンポーネント 10 ユーザー時刻・地理情報・

© GO Inc. 従来ETA API システム構成 11 地図データ地理統計値乗務員情報

© GO Inc. 従来APIシステム構成に30分更新天気情報を追加しようとすると 12 地図データ地理統計値乗務員情報など

© GO Inc. 13 解決策検討

© GO Inc. 14 解決案候補実装方式サービング方式メリットデメリット

© GO Inc. 15 解決案実験結果実装方式サービング方式レイテンシ使用メモリ

© GO Inc. 今回下記理由でバッチサービング独自実装を採用した • 既に特徴量 BigQueryで集約管理しているため、I/F共通化

© GO Inc. 17 解決策実現

© GO Inc. サービングプロセス新構成 18 地図データ地理統計値乗務員情報など

© GO Inc. 19 サービングプロセス実装例 multiprocessing.Managerを利用すると複数プロセス間でデータを共有できる

© GO Inc. 20 データ更新スレッド実装例定期的なデータ再読込バックグラウンドスレッド追加 5分ごとにVolumeを再読込

© GO Inc. 特徴量バージョン管理 • データ後方互換性がなくなるタイミングでデータファイルバージョンを変更し、モデルでデー

© GO Inc. 今回ニアリアルタイム特徴量提供に、バッチサービング独自実装を採用 • オンラインサービングやFeature Storeを利用するメリットが小さかったため見送り

文章・画像等内容無断転載及び複製等行為ご遠慮ください。 © GO Inc.