GO TechTalk #19 タクシーアプリ『GO』事業成長を支えるデータ分析基盤の継続的改善！

by GO Inc. dev

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

タクシーアプリ『GO』のデータ基盤の全体像 2023.05.31 GO株式会社

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

© GO Inc. 主要な『GO』分析データ基盤 6 GO動態ログ GOイベントログ（ユーザアプリ） GCP DBログ（Cloud SQL） AWS DBログ（Aurora）外部データ (地図・天気など) データソースデータパイプライン BigQuery RAWデータデータマートデータ活用 BI・プロダクト分析バッチ同期ストリーミング (CDC) バッチ同期 (S3 -> GCS) バッチ同期 (BQ federated query) ストリーミング挿入 (Pub/Sub, Dataflow) ストリーミング挿入 (Pub/Sub, Dataflow) 加工パイプライン (Dataform) タクシー会社向け GOヘルプデスク GO施策運用・・緑の枠が主なチームの担当領域加工パイプライン (Dataform) データウェアハウス AIサービス

Slide 7

Slide 7 text

© GO Inc. 主要な『GO』分析データ基盤 7 今回話すコンテンツ GO動態ログ GOイベントログ（ユーザアプリ） GCP DBログ（Cloud SQL） AWS DBログ（Aurora）外部データ (地図・天気など) データソースデータパイプライン BigQuery RAWデータデータマートデータ活用 BI・プロダクト分析バッチ同期ストリーミング (CDC) バッチ同期 (S3 -> GCS) バッチ同期 (BQ federated query) ストリーミング挿入 (Pub/Sub, Dataflow) ストリーミング挿入 (Pub/Sub, Dataflow) 加工パイプライン (Dataform) タクシー会社向け GOヘルプデスク GO施策運用加工パイプライン (Dataform) データウェアハウス AIサービス・・車両位置情報データの圧縮による Cloud Pub/Subのコスト削減（牧瀬） AWS Aurora S3 Export を利用した負荷をかけない GCP BigQuery へのデータ連携 (伊田) 到着予想時間（ETA）サービスの特徴量のニアリアルタイム化（鈴木）

Slide 8

Slide 8 text

車両位置情報データの圧縮による Cloud Pub/Subのコスト削減 2023.05.31 牧瀬芳太郎 GO株式会社

Slide 9

Slide 9 text

Slide 10

Slide 10 text

© GO Inc. 10 車両位置情報の収集 ▪ アクティブ車両台数: 数万台 ▪ 車両から送られる情報: GPS位置、方角、速度、メーター情報、etc. ＝動態(車両動態) ▪ 約9億レコード/日何に使われる？ ▪ 配車 ▪ 機械学習を使ったサービス ▪ 到着時間予測 (DeNA TechCon 2022 にて紹介) ▪ お客様探索ナビ (MoT TechTalk #10 にて紹介) ▪ AI予約 ▪ etc. ▪ サービス改善のための分析

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

© GO Inc. 15 新構成 Protobuf スキーマ ※実際より簡略化 // 車両動態 message AnalyticalThing { uint32 car_id = 1; // 車両ID double raw_lat = 2; // GPS緯度 double raw_lon = 3; // GPS経度 double speed = 4; // 速度 Status.MeterStatus meter_status = 5; // メーター状態 google.protobuf.Timestamp sampled_at = 6; // 取得日時 ..... }

Slide 16

Slide 16 text

© GO Inc. 16 技術選定理由　データ形式 Protocol Buﬀersを採用 ▪ Google社製のシリアライゼーションフォーマット ▪ 動態配信システムから来るデータが元々 Protobuf 形式なので、そのまま流せば処理コストが少ない ▪ 後段で圧縮するとしても、JSON より Protobuf を圧縮する方が最終的なサイズが小さくなる他に検討に上がった選択肢 ▪ Parquet, Avro 等 → 動態配信システムから来るデータが元々 Protobuf 形式なので、わざわざ変換するのは余計な処理が増えるだけなので不採用仮に動態配信システムから来るデータが Parquet や Avro 形式であったなら採用していた

Slide 17

Slide 17 text

© GO Inc. 17 技術選定理由　圧縮アルゴリズム Zstandardを採用 ▪ Meta(Facebook)社製の可逆圧縮アルゴリズム ▪ リアルタイム処理性能を重視しており、GZIP と同程度の圧縮率で、より高速 ▪ JSON を Protobuf にするだけだとデータサイズ削減量が少ないため利用 ▪ 複数レコードをまとめて圧縮する。1台の車両からの動態データをある程度まとめて送ってもらっているため、似たようなレコードが多く効率的に圧縮できる他に検討に上がった選択肢 ▪ GZIP → やや古いアルゴリズム。最近は同程度の圧縮率で、より高速なものがある

Slide 18

Slide 18 text

Slide 19

Slide 19 text

© GO Inc. 19 実装 Pub/Sub に投げる側: Go言語で書かれた内製ワーカー ▪ 今までは Protobuf を JSON に変換していたが、Protobuf のまま複数レコードまとめて圧縮し publish するように変更 ▪ 圧縮処理は並列動作するように実装 Pub/Sub から読み出す側: Dataﬂow ▪ Mercari Dataﬂow Template を参考に独自にフレームワークの実装を行い、 YAML 記述により様々な Beam API を呼び出せるようにし、柔軟にパイプライン定義ができるようにしている ▪ 今回追加: Protobufデコード処理、ZStandard展開処理 ▪ フレームワークさえ修正すれば、各ジョブ定義自体はYAMLの書き換えだけで済む。YAMLの修正例は次ページにて説明

Slide 20

Slide 20 text

© GO Inc. 20 実装: ジョブ定義YAMLの修正例 --- laplace-vehicle-analytics-log-collector.yaml 2023-05-11 17:08:20 +++ laplace-vehicle-analytics-v2-log-collector.yaml 2023-03-13 12:13:31 @@ -2,10 +2,13 @@ - name: pubsub module: pubsub parameters: - subscription: "projects/my-project/subscriptions/laplace-vehicle-analytics-subscription" - format: string + subscription: "projects/my-project/subscriptions/laplace-vehicle-analytics-v2-subscription" + format: pbpack + compression: ZSTD transforms: - - name: parsejson - module: parsejson + - name: parseprotobuf + module: parseprotobuf input: pubsub parameters: + descriptorFile: ../proto/laplace/common.pb + messageName: laplace.AnalyticalThing .....

Slide 21

Slide 21 text

© GO Inc. 21 成果 ▪ 高いデータ圧縮率 ▪ 約1/15 (JSON→Protobuf で 1/3、ZStandard でさらに 1/5) ▪ コスト削減 ▪ 動態の Pub/Sub, Dataﬂow 流量コスト: 93% 削減 ▪ データ基盤全体のコスト: 10% 削減 ▪ エンコード/デコードの処理が高速化 ▪ 2,000 レコードの処理が 43ms → 18ms (エンコード側) ▪ CPU負荷が低い＝マシンスペックが低く抑えられる

Slide 22

Slide 22 text

© GO Inc. 22 まとめと所感まとめ ▪ 車両動態を Pub/Sub に流すフォーマットを JSON → Protobuf+Zstandard に変更することによりデータ量を 1/15 にし、大幅なコスト削減を達成所感 ▪ Pub/Sub は流量が多いとコストがかさみやすい ▪ (最近は BigQuery Subscriptions もあるが) あえて Dataﬂow を利用しデータ圧縮を行うことで流量を削減し、コストを抑えられるケースがある

Slide 23

Slide 23 text

AWS Aurora S3 Export を利用した、負荷をかけない GCP BigQuery へのデータ連携 2023.05.31 伊田正寿 GO株式会社

Slide 24

Slide 24 text

Slide 25

Slide 25 text

© GO Inc. AWS Aurora から GCP BigQuery へのデータ連携のシステム構成 ● 試しに CDC (Change Data Capture) を試しに導入した ● プライベートサブネットにある DB に穴を開けられない制約があるため内部からプッシュする方式とした ● 詳細は Tech Talk Vol.12 参照 25 背景復元したテーブル復元したテーブル更新ログ (JSON) CDC ツール更新ログ格納サービスDB テーブルN テーブルN テーブルテーブル復元処理 GCP 分析環境 AWS サービスDB BigQuery BigQuery Aurora MySQL BIN ログワークフローエンジン Cloud Pub/Sub 分散キュー Cloud Dataflow GKE Cloud Composer

Slide 26

Slide 26 text

Slide 27

Slide 27 text

© GO Inc. ● 方針 ○ 要件は下記に限定する ■ 更新頻度は日次 ○ ゴール ■ CDC 方式より運用負荷が下がること ○ 撤退条件 ■ CDC 方式より運用負荷が下がらない時 ○ 運用負荷が下がるとは ■ 障害復旧がシンプルにできること ■ スキーマ変更に対して簡単に追従できること ■ 他の運用との兼ね合いで GCP Cloud Composer 起点でジョブ実行やエラー対応ができること ■ GCP と AWS にまたがる開発となるが、作り込みは GCP 側に寄せられること 27 方式の検討

Slide 28

Slide 28 text

© GO Inc. 28 方式の検討 (1/2) パイプラインサービスDB テーブルN テーブルN テーブル各種変換処理 GCP 分析環境 AWS サービスDB 日次 BigQuery Aurora MySQL / Postgresql ワークフローエンジン GKE Cloud Composer データ S3 データ GCS 復元したテーブルレプリカテーブル復元したテーブルレプリカテーブル BigQuery ??? 抽出処理 S3 にデータを抽出できれば後工程の構築は知見があるため、プライベートサブネットにある DB からどうやってデータを S3 に抽出するか検討した

Slide 29

Slide 29 text

© GO Inc. 案処理方法メリットデメリット 1. Aurora S3 Export Aurora S3 Export 機能(※)を用いて、DB の全データを S3 に抽出する DB に負荷をかけない前処理を挟めない。データ量に対してコストが掛かる。 2. Redshift 経由 (Athena 経由でも可) Redshift を用意し、Redshift から Aurora に Federated Query で問い合わせて S3 に抽出する (Redshift Data API で SQL を発行) SQLで前処理を挟める構成が複雑で、トラブルシュートが大変。 Redshift はクラスタ or サーバーレスなどの選定も必要 3. スクラッチ実装 EC2 / ECS / Fargate / EKS / Glue などを用いてスクラッチ開発して、 Aurora から S3 に抽出する自由度が高い開発コストが掛かる 29 方式の検討 (2/2) プライベートサブネットにある DB に外から穴を開けずに S3 に出力する方法 ※)2022年10月に直接S3に出力できるようになった採用

Slide 30

Slide 30 text

© GO Inc. 30 実験 ● 実験対象の方式 ○ Aurora S3 Export ● 観点 ○ 日次処理を2時間程度に収められるか ■ 0〜1時に処理起動、5〜6時にレポート配信。1回のリトライを考慮して1回の処理時間を2時間程度に収めたい ○ 2時間の処理時間に収まるデータ量はいくらが限界か ○ コストが許容範囲内か ● 実験対象のDB ○ Large DB ■ Aurora スナップショットのサイズ約500GB ○ Medium DB ■ Aurora スナップショットのサイズ約100GB

Slide 31

Slide 31 text

© GO Inc. 31 実験 ● 実験結果 Large DB (約500GB) Medium DB (約100GB) 合計 31分 21分20秒データ抽出 Aurora to S3 25分 (500GB → 74GB) ※ gz.parquet に圧縮 20分 (100GB → 12GB) (内訳) DB Clone 17分 16分 (内訳) S3 Export 8分 4分データ転送 S3(Tokyo) to GCS(US) 3分 40秒データ取込 GCS to BigQuery 3分 40秒

Slide 32

Slide 32 text

© GO Inc. ● 考察 ○ Large DB の全体の処理時間約30分のうち、8割がデータ抽出、1割がデータ転送、1割がデータ取込となっている (Medium DB に至ってはデータ抽出に9割を占める) ○ Medium DB に対してサイズが約5倍の Large DB になっても、処理時間が単純に5倍になるわけではない ○ その理由は、データ抽出はサイズによって処理時間が変動するが、DB クローンはサイズに関わらず一定の時間であるため (変動時間+固定時間で構成されているから) ■ DB クローンについては次のページで詳細を説明 32 実験の考察

Slide 33

Slide 33 text

© GO Inc. ● Aurora S3 Exportにおいて、DB のクローンはデータ量に関わらず一定時間で完了する理由の考察 33 実験の考察 ● Aurora はコンピューティングとストレージが分離している。 ● DB のクローンはコンピューティング部分のコピーであり、データの移動は発生しない。 ● 以上のことから DB のクローンはサイズに関わらず、どの DB でも一定時間掛かると考えられる AWS の資料から引用 (https://pages.awscloud.com/rs/112-TZM-766/images/01_Amazon%20A urora%20%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82% AF%E3%83%81%E3%83%A3%E6%A6%82%E8%A6%81.pdf)

Slide 34

Slide 34 text

Slide 35

Slide 35 text

© GO Inc. Aurora S3 Export 方式について以下の理由から Aurora S3 Export 方式を採用した ● 制約を満たしているか？ ○ Aurora S3 Export はプライベートサブネットにある DB に外から穴を開けずに実行可能 ○ 実験の結果、処理時間、コストともに許容範囲内であることが確認できた ■ 変動部分の処理時間が500GBでも10分程度で完了していることから、単純計算で6TBで処理時間が2時間程度となり、十分に余裕があると判断 ■ コストはDBのサイズが500GBでも月数万のコストのため許容範囲内と判断 ● 課題を解決しているか？＝運用負荷が高くないか ○ 障害発生時も全件抽出方式のため頭からリトライするだけ済む ○ スキーマ変更時も全件抽出による洗い替えができるので特別な考慮をしなくて済む ○ GCP 側から API を実行できるため、実装を GCP 側に寄せることができ、保守の範囲が広がらないで済む 35 実験の結果から

Slide 36

Slide 36 text

© GO Inc. ● コンポーネント一覧 ○ ワークフローエンジン ■ Cloud Composer (Airﬂow) (マネージドサービス) ○ コンテナ実行環境 ■ GKE (マネージドサービス) Aurora 36 変更後のアーキテクチャパイプラインサービスDB テーブルN テーブルN テーブルコンテナ実行環境 GCP 分析環境 AWS サービスDB BigQuery GKE ワークフローエンジン Cloud Composer データ S3 データ GCS 復元したテーブルレプリカテーブル復元したテーブルレプリカテーブル BigQuery クローンクローンDB テーブルN テーブルN テーブルエクスポート Aurora S3 Export 抽出リクエスト (アウトバウンド通信のIP固定) 転送リクエスト取込リクエスト ○ データ抽出 ■ Aurora S3 Export (マネージドサービス) ○ データ転送 ■ GCS Storage Transfer Service (マネージドサービス) ○ データ取込 ■ BigQuery Load Job (マネージドサービス) 変換リクエスト

Slide 37

Slide 37 text

© GO Inc. 37 本番運用した結果 ● 同期対象のDB数 ○ 11個のDB (2023年5月現在) ■ 本番環境 5個 ■ QA環境 5個 ■ 開発環境 1個 ● 障害発生件数 ○ 期間: 2023年1月〜2023年5月現在 ○ 件数: 0 ○ 考察: CDC より仕組みがシンプルであるため障害になりにくいと推察している ■ 全件抽出方式というシンプルなパイプラインのため ■ 大半がマネージドサービスで構成されており障害になりづらいため ■ 経験上、DB に負荷が掛かる時にデータ連携は失敗しやすいが、この方式はDBに負荷を掛けないため ● 問題点 ○ S3 Export の並列実行数の上限が5となっており、同期対象の DB が増えた時に実行順序の考慮が必要になる

Slide 38

Slide 38 text

© GO Inc. ● 背景 ○ 試しに CDC (Change Data Capture) を試験導入した ○ プライベートサブネットにある DB に穴を開けられない制約があるため内部からプッシュする方式だった ● 課題 ○ 障害復旧の手順が複雑 ○ テーブルやカラムがリネームされると破綻する ○ GCP だけでなく AWS 側での構築、運用も発生する ● 検討および実験 ○ プライベートサブネットにある DB に穴を開けず、CDC方式より運用が楽なものに置き換える ■ 案1 Aurora S3 Export ■ 案2 Redshift (Federated Query & Redshift Data API) ■ 案3 スクラッチ実装 (EC2/ ECS / Fargate / EKS / Glue など) ○ 机上では案1が有力だったため課題がないかどうか実験した ○ 実験により問題がないことを確認し、コストも許容範囲内のため本実装を進めた ● 本番運用した結果 ○ CDC 方式より安定し、運用負荷が下がった 38 まとめ

Slide 39

Slide 39 text

到着予想時間（ETA）サービスの特徴量のニアリアルタイム化 - Feature Storeの技術選定 - 2023.05.31 鈴木隆史 GO株式会社

Slide 40

Slide 40 text

Slide 41

Slide 41 text

Slide 42

Slide 42 text

Slide 43

Slide 43 text

Slide 44

Slide 44 text

© GO Inc. アルゴリズム側の改善 ● 経路探索 + MLモデルのハイブリッド構成へ変更（参考： DeNA TechCon 2022 - あと何分？タクシーアプリ『GO』到着予測AIの社会実装まで -） ● 通り過ぎ問題への対策（参考：GO Tech Blog - ETA(到着予想時間)の重要性と「通り過ぎ問題」への対策 -）システム側の改善 ● リアルタイムな需要供給・道路状況の反映 ○ 降雪などの突発的なイベントでの精度低下の改善 44 到着予想時間（ETA）の精度向上に向けた取り組み本日話すテーマ課題ニアリアルタイム（30分ごと）に更新されるデータを用いて機械学習モデルを更新する仕組みがない

Slide 45

Slide 45 text

© GO Inc. 従来ETA APIのコンポーネント 45 ユーザー時刻・地理情報・乗務員情報などの入力値お客様・ドライバー位置情報の入力値経路探索エンジン経路探索結果の特徴量 ETA 推論モデル Amazon EKS 特徴量変換時刻・乗務員などの様々な特徴量地図データ S3 地理統計値乗務員情報などの特徴量数ヶ月ごとの更新ワークフローエンジン Cloud Composer 1日ごとの更新処理リクエストパラメータデータ凡例

Slide 46

Slide 46 text

© GO Inc. 従来ETA APIのシステム構成 46 地図データ地理統計値乗務員情報などの特徴量数ヶ月ごとの更新 1日ごとの更新ワーカープロセス A グローバル変数ワーカープロセス B グローバル変数ワーカープロセス C グローバル変数 … … ワークフローエンジン Cloud Composer Amazon EKS S3 ● REST APIのPodが起動する際に、各プロセスのグローバル変数にデータをロードしているワーカープロセス A ワーカープロセス B ワーカープロセス C …

Slide 47

Slide 47 text

© GO Inc. 従来APIシステム構成に30分更新の天気情報を追加しようとすると 47 地図データ地理統計値乗務員情報などの特徴量天気情報などの特徴量数ヶ月ごとの更新 1日ごとの更新ワーカープロセス A グローバル変数ワーカープロセス B グローバル変数ワーカープロセス C グローバル変数 … 30分ごとの更新ワークフローエンジン Cloud Composer S3 ● 30分ごとに新しい特徴量データをロードするには、再デプロイが必要なため現実的でない 30分単位でデータ更新したいが、 Podを再デプロイしないとグローバル変数が再読込されないワーカープロセス A ワーカープロセス B ワーカープロセス C … 各プロセスごとにメモリが割り当てられるため、あるプロセスのグローバル変数を更新しても他プロセスには反映されない … Amazon EKS

Slide 48

Slide 48 text

Slide 49

Slide 49 text

© GO Inc. 49 解決案の候補実装方式サービング方式メリットデメリット Vertex AI Feature Store の利用オンラインサービング (少量の最新データを取得 ) * 低レイテンシ/低メモリ * 複数データソース (BigQuery/GCS)に対して統一したI/Fで取得可能 * コンピュートコスト大 * バッチ処理と比較して高いバッチサービング (大量の定期更新データを取得 ) * 統一I/F * サーバーキャッシュに乗せることで低レイテンシ * 高メモリ * リアルタイムデータの参照ができない独自実装オンラインサービング (少量の最新データを取得 ) (Redis開発想定) * 低レイテンシ/低メモリ * コンピュートコスト大バッチサービング (大量の定期更新データを取得 ) (データ取得プロセス開発想定 ) * サーバーキャッシュに乗せることで低レイテンシ * 使用メモリ次第で低コスト * 現状の実装ベース * リアルタイムデータの参照ができない * 高メモリ

Slide 50

Slide 50 text

© GO Inc. 50 解決案の実験結果実装方式サービング方式レイテンシ使用メモリコンピュートコスト Vertex AI Feature Store の利用オンラインサービング (少量の最新データを取得 ) 100-200 msec 数KB 1ノードあたり$700/month バッチサービング (大量の定期更新データを取得 ) 1-3 msec (サーバーキャッシュ利用時 ) 数1000 msec (通常参照時) 数10MB 軽微なストレージ料金独自実装オンラインサービング (少量の最新データを取得 ) (Redis開発想定) 5-10 msec 数KB M1(4GB) Standardの場合 $200/month バッチサービング (大量の定期更新データを取得 ) (データ取得プロセス開発想定 ) 1-3 msec (サーバーキャッシュ利用時 ) 100-200 msec (通常参照時) 数10MB Podに割り当てられたリソースの余剰部分で賄える

Slide 51

Slide 51 text

© GO Inc. 今回は下記の理由でバッチサービングの独自実装を採用した ● 既に特徴量はBigQueryで集約管理しているため、I/F共通化の恩恵が小さいこと ● 特徴量データサイズが小さく、サーバーキャッシュに乗り切ること ○ サーバーキャッシュに乗れば、通信オーバーヘッドがない分オンラインサービングよりも高速に動作すること ● 利用する特徴量は30分単位で更新できればよく、バッチサービングで要件を満たせること ● 現在の実装ベースのまま開発できること 51 バッチサービング独自実装の選定理由

Slide 52

Slide 52 text

Slide 53

Slide 53 text

© GO Inc. サービングプロセスの新構成 53 地図データ地理統計値乗務員情報などの特徴量天気情報などの特徴量数ヶ月ごとの更新 1日ごとの更新ワーカープロセスA ワーカープロセスB ワーカープロセスC … … … 30分ごとの更新ワークフローエンジン Cloud Composer サービングプロセスグローバル変数データ参照スレッドユーザー S3 ワーカープロセスA ワーカープロセスB ワーカープロセスC サービングプロセスグローバル変数データ参照スレッド Amazon EKS …

Slide 54

Slide 54 text

Slide 55

Slide 55 text

Slide 56

Slide 56 text

© GO Inc. 特徴量のバージョン管理 ● データの後方互換性がなくなるタイミングでデータファイルのバージョンを変更し、モデルではデータバージョンを指定して処理することで、新旧両方のデータを扱える ○ 例）features/1.1.0/realtime.csv.gz -> features/1.2.0/realtime.csv.gz ○ モデルによって違うバージョンの特徴量を利用することが可能 ○ 後方互換性がない更新が入っても、既存のパイプラインはエラーにならない ● バージョン更新時のデプロイ順番には注意 ○ 1. Cloud Composerで新しい特徴量データのデプロイ ○ 2. APIで利用する特徴量バージョンの更新 ○ この手順を踏むことでデータフォーマット変更時のエラーを回避 56 運用上の考慮点

Slide 57

Slide 57 text

© GO Inc. 今回のニアリアルタイム特徴量の提供には、バッチサービング独自実装を採用 ● オンラインサービングやFeature Storeを利用するメリットが小さかったため見送り ● オンラインサービングと比較して低レイテンシで特徴量を提供可能 ● 複数プロセスを起動するAPIでは、サービングプロセスを利用して各プロセスでデータを共有 ● 定期的なデータ更新スレッドを利用して、データの再読み込み特徴量管理の工夫 ● バージョン管理を導入することで、モデルごとに違うバージョンの特徴量を利用可能 57 まとめ