車両情報のリアルタイム特徴量基盤の構築

© GO Inc. 鈴木隆史 | Takashi Suzuki 開発本部 AI技術開発部
データプラットフォームグループ • 前職ではデータ基盤、ML基盤の開発に従事 • 現在は複数の機械学習サービスの基盤やなパイプラインの設計開発を担当 2 自己紹介

© GO Inc. 3 タクシーアプリ『GO』乗車位置を指定到着まで待つタクシーに乗るユーザの位置とタクシーの位置を把握し
それらをマッチングさせる技術で成り立っている料金を支払う

© GO Inc. 4 アルゴリズムの活用例配車マッチング ETA(到着時間予測) マップマッチング需給予測経路最適化
強化学習、逆強化学習隠れマルコフモデルカルマンフィルタ時系列予測統計モデリング分位点回帰, 最短経路探索最小重みマッチング本日話すテーマ

© GO Inc. 7 2 5 配車マッチング処理の仕組み各リクエストの配⾞候補⾞両を都度決定するのではなく、⼀定周期毎に複数のリクエストに対して配⾞候補⾞両を⼀括して決定することで、マッチングの全体最適を実現している
リクエストA リクエストB X Y Z 2 一番近い 4 10 A B X Y Z 8 4 10 3 リクエストごとの単純なマッチング配車時間合計＝9分一括での配車マッチング配車時間合計＝7分リクエストB Y Z 8 7 一番近いリクエストA X 決定済み

© GO Inc. 7 課題 A B X W A
B X W Z 現状は、処理が動いた時点のユーザ要求と空車をマッチングさせている空車が増えることが統計的に分かっている状況であれば、少し待ってから近い車両とユーザをマッチングさせたい Y 数秒後

© GO Inc. これまでの配車マッチング処理フロー 8 マッチングエンジン処理凡例 A
B X W ユーザーリクエスト周辺の車両データ A B X W キュー t=1 t=2 Y Z A X B W Z Y ユーザーリクエスト周辺の車両データ遠い距離でマッチングしてしまうマッチングエンジンリクエストがないためマッチングしない車両Y・Zが現れるもすでにマッチング済み

© GO Inc. 特徴量ストアを導入することで課題を解決 9 マッチングエンジン処理凡例 A
B X W ユーザーリクエスト周辺の車両データ A B X W キュー t=1 t=2 Y Z X W ユーザーリクエスト周辺の車両データ今回のマッチングはスキップしようマッチングエンジン特徴量ストア数秒後に車両が増えそう A B X W A B Z Y 特徴量ストア A Y B Z 近い距離でマッチング

© GO Inc. 11 『GO』のインフラ前提 • GCP管理：主にBigQueryに格納された分析データ、特徴量 • AWS管理：マッチングバッチ、直近の車両・リクエストなどの分析データ以外のリソース AWS
Google Cloud 分析データ統計値特徴量マッチングエンジンユーザーリクエスト周辺の車両データ特徴量ストアこれを作りたい

© GO Inc. 実装方式メリットデメリットレイテンシコンピュートコスト GCP Vertex
AI Feature Store * 『GO』の特徴量はBigQueryで保存しているため互換性が高い * 複数データソース (BigQuery/GCS)に対して統一したI/Fで処理可能 * クラウドを跨ぐためネットワークレイテンシ大 * コンピュートコスト大 100-200 msec 1ノードあたり $700/month AWS SageMaker Feature Store * AWSで特徴量を統合的に管理可能 * コンピュートコスト大 * Redisと比較するとレイテンシ大 50 - 100 msec 広範囲エリアでの読み書きのため $2000/month AWS Aurora * レイテンシ低め * keyでデータ取得するだけで要件を満たせるため、SQLは必要ない 10-50 msec db.r6g.largeの場合 $550/month ElastiCache for Redis * 低レイテンシ * Feature Storeのメリットが受けられない（主にデータマネジメント・一貫性） 5-10 msec cache.m6g.large(6 GB)の場合 $140/month 12 解決案の候補と実験結果採用

© GO Inc. 特徴量ストアの構築 14 マッチング結果・配車確定結果を特徴量ストアに保存するパイプラインを新規構築リアルタイム性の高いものはストリーミング挿入した特徴量を利用し、過去の統計値を利用したい場合は定期的にバッチ挿入した特徴量を利用マッチングエンジン
A B Y X ユーザーリクエスト周辺の車両データ特徴量ストア Elasticache for Redis 分析データ統計値特徴量ストリーミング挿入バッチ挿入

© GO Inc. 工夫点1：メモリ使用チューニング 15 大量のデータを扱っているためメモリ使用量を減らす対策を実施 • 元々は地域メッシュ（最大33000エリア）x 2秒おきのマッチング
x 20分間のデータを保持するため、単純に実装すると2000万規模のキーが必要となる対策として下記を検討し、サイズ削減効果の大きかったキー統合を実施 • キーの統合 ◦ 1分ごとにキーを統合し、データを加算保存する ◦ 直近N分の統計値を求める際は、過去データを集計して計算 ◦ 96%の削減効果 • encodingをjsonからmessage pack (※1) に変更 ◦ json置き換えと相性がよく、サイズも小さく高速 ◦ 40%の削減効果 ※1：message packについて https://msgpack.org/ja.html

© GO Inc. 1回のマッチングで大量のエリアの読み書きが発生する • キーが地域エリア毎に分かれているため、1回のマッチング処理ごとに最大1000エリア x 20分間の読み込みと、1000エリアの書き込みが発生する •
redisとはいえ、大量のネットワーク往復が発生するとネットワークボトルネックが発生 ◦ 書き込みはmsetを利用するとexpireを設定できないので、Redis pipeline (※1) を利用して複数書き込みを実装工夫点2：ネットワークレイテンシチューニング 16 ※1：redis pipelineについて https://redis.io/docs/manual/pipelining/

© GO Inc. 今後の展望 17 交通情報や天気情報をもとにしたより高度な車両供給量予測を、特徴量ストアに格納しマッチングに利用していきたいマッチングエンジン A
B Y X ユーザーリクエスト周辺の車両データ特徴量ストア分析データストリーミング挿入バッチ挿入 MLモデル統計値特徴量推論値交通情報や天気情報の特徴量を利用して推論

© GO Inc. 直ぐにユーザと車両をマッチングするのではなく、あえて少し待つことでより最適なマッチングができる • そのためにはリクエストや車両の統計値を格納する特徴量ストアが必要だったので、作ることにした今回の特徴量ストアの構築には、ElastiCache for
Redisを採用 • 既存のFeature Storeと比較して、低レイテンシで特徴量を提供ができ、かつコストも 80-90%程度の削減ができている特徴量ストアでRedisを利用する際の工夫 • メモリ使用量を減らす対策としてキー統合を実施 • 大量のエリアの読み書きが発生するため、Redis pipelineを利用 18 まとめ

車両情報のリアルタイム特徴量基盤の構築

車両情報のリアルタイム特徴量基盤の構築

GO Inc. dev

More Decks by GO Inc. dev

Other Decks in Programming

Featured

Transcript

© GO Inc. 車両情報のリアルタイム特徴量基盤の構築 1 2023.12.05 鈴木隆史 GO株式会社

© GO Inc. 鈴木隆史 | Takashi Suzuki 開発本部 AI技術開発部

© GO Inc. 3 タクシーアプリ『GO』乗車位置を指定到着まで待つタクシーに乗るユーザの位置とタクシーの位置を把握し

© GO Inc. 4 アルゴリズムの活用例配車マッチング ETA(到着時間予測) マップマッチング需給予測経路最適化

© GO Inc. 7 2 5 配車マッチング処理の仕組み各リクエストの配⾞候補⾞両を都度決定するのではなく、⼀定周期毎に複数のリクエストに対して配⾞候補⾞両を⼀括して決定することで、マッチングの全体最適を実現している

© GO Inc. 6 課題と改善策

© GO Inc. 7 課題 A B X W A

© GO Inc. これまでの配車マッチング処理フロー 8 マッチングエンジン処理凡例 A

© GO Inc. 特徴量ストアを導入することで課題を解決 9 マッチングエンジン処理凡例 A

© GO Inc. 10 解決策の技術選定

© GO Inc. 11 『GO』のインフラ前提 • GCP管理：主にBigQueryに格納された分析データ、特徴量 • AWS管理：マッチングバッチ、直近の車両・リクエストなどの分析データ以外のリソース AWS

© GO Inc. 実装方式メリットデメリットレイテンシコンピュートコスト GCP Vertex

© GO Inc. 13 解決策の実現

© GO Inc. 工夫点1：メモリ使用チューニング 15 大量のデータを扱っているためメモリ使用量を減らす対策を実施 • 元々は地域メッシュ（最大33000エリア）x 2秒おきのマッチング

© GO Inc. 1回のマッチングで大量のエリアの読み書きが発生する • キーが地域エリア毎に分かれているため、1回のマッチング処理ごとに最大1000エリア x 20分間の読み込みと、1000エリアの書き込みが発生する •

© GO Inc. 今後の展望 17 交通情報や天気情報をもとにしたより高度な車両供給量予測を、特徴量ストアに格納しマッチングに利用していきたいマッチングエンジン A

文章・画像等の内容の無断転載及び複製等の行為はご遠慮ください。 © GO Inc.