スタディサプリのデータ基盤を支えるETLとパイプラインの技術 / meetup_tanda

#Rtech スタディサプリのデータ基盤を支えるデータパイプラインの技術と運用丹田尋スタディサプリのデータ基盤を支える技術 2022 ーRECRUIT TECH MEET
UP #3ー

#Rtech 2020年リクルート新卒入社。データ基盤の開発・運用、移管プロジェクトなどに携わり、現在は MLOps 周りも担当。 MLを用いた顧客スコア算出・活用のプロジェクトにも参画。丹田
尋

#Rtech Agenda | 01 02 03 04 データ基盤を支えるデータパイプラインの概要パフォーマンス面での4つの工夫データ基盤運用面での4つの工夫
まとめと今後の展望

#Rtech データ基盤を支えるデータパイプラインの概要 01

#Rtech スタディサプリのデータ基盤アーキテクチャ（簡略版） Kinesis + lambda + (S3) Serverside Log firebase
Analytics Client Log (Web / App) Cloud Storage BigQuery AWS GCP PostgreSQL / mongoDB / MySQL CRM SecureDB

#Rtech 全体の処理を Cloud Composer で制御 ➔ GCPが提供している Apache Airﬂow で構築された、フルマネージドのワークフ
ローオーケストレーションサービス ➔ DAG（有向非巡回グラフ）形式のパイプラインを Python で記述可能 ➔ Airﬂow のスケジューラーやワーカーが、 GKE 上で動作可能 ➔ 豊富なメトリクス画面がビルドイン Cloud Composer とは実際の定常処理のDAG

#Rtech BigQuery導入で集計が高速化するも、効果は限定的 BigQuery 導入での効果 ➔ DWH を BigQuery へ移行することで、集計処理時間は飛躍的に高速化された
◆ 例）「課金ログを元に学習者の会員ステータスを管理するテーブル」の集計時間が 60min(hive) → 1min(BQ) に短縮実際の状況 ➔ しかし、日次処理全体の処理時間や労力が激減はしなかった BigQuery導入後の実際の状況

#Rtech データ転送処理がボトルネックになっている ➔ 日次処理時間の大半が BashOperator で占めており、BigQueryOperator は短い ➔ BashOperator
は、データ転送のタスクがほとんどデータ転送処理のパフォーマンスが改善できれば、全体の高速化が見込める BashOperator(27.3h) BigQueryOperator(2.8h) Composer での日次処理時間の内訳パフォーマンス面での課題

#Rtech データ定常処理を支える運用の負担が大きい運用面での課題運用面での課題実際に直面した苦労・失敗 ① 利用者との期待値調整ができておらず、運用者も努力目標が不明確 • 集計が遅延した時、どのレベルで誰に周知していいか悩んだ
② リソース管理や CI/CD が不十分で、障害発生のリスクがあった • オペミスにより本番環境に不要なファイルがデプロイされ定常処理が止まる • 新たなインスタンスを立てたらモジュールがインストールされておらず処理が止まった ③ 障害の検知に遅れることがあった • 定常処理のステータスが瞬時に把握できない • ディスク不足やネットワークのポートの枯渇などの把握に遅れ、障害が発生 ④ 障害対応がスムーズに行かない • 障害復旧が職人芸化され、属人化している部分があった

#Rtech データの定常処理を効率化するパフォーマンス面・運用面での Tips を紹介します今回のテーマ

#Rtech パフォーマンス面での4つの工夫 02

#Rtech 日次処理における処理の平準化合計実行時間時間帯ログ取り込みマスター取り込み外部データ
取り込み BQ集計外部データ提供ログ取り込みログ取り込み外部データ取り込みピークタイムをずらし、マシンへの負荷の平準化パフォーマンスチューニングの工夫① Composer で使われている GKE ノードへの負荷を抑えるため、リソースが空いている時間を有効活用

#Rtech 合計実行時間時間帯ログ取り込みマスター取り込み外部データ取り込み
BQ集計外部データ提供ログ取り込み peak_time normal_time idle_time 時間帯ごとにGKEノード数を設定（1日3段階）パフォーマンスチューニングの工夫② 1日の中で、Composer への負荷は濃淡があるためノード数を時間帯ごとに設定 Composer の GKE ノード数を負荷に合わせて調整 ※BashOperator から上記のコマンドを実行

#Rtech タスクの並列数を調整可能にパフォーマンスチューニングの工夫③ 個別のタスクの処理時間を測定しタスク並列数を調整 ↓このように、Airflow の Variablesで 4並列から直列に変更も可能サーバーサイドログ取り込み処理の
Graph View

#Rtech Embulk を Cloud Run で実行パフォーマンスチューニングの工夫④ ➔ 複数処理による同一リソースの食い合いをサーバーレス化で解決 ◆
処理の高速化 ➔ 必要な時に必要な分だけリソースを確保してくれる ◆ コスト面での大幅削減 ◆ スケーラビリティの拡充 Cloud Run

#Rtech 急激な負荷に迅速に対応した2つの事例 ➔ COVID-19 で一斉休校になり、データ量が増大 ◆ 処理の平準化、リソースを負荷に合わせて調整することで対応
➔ 季節要因でログが急増 ◆ 並列数を減らして最大負荷を下げる冬休み最終日 GW 最終日ログ取り込み時間の推移

#Rtech データ基盤運用面での4つの工夫 03

#Rtech データ定常処理を支える運用の負担が大きい（再掲）運用面での課題運用面での課題実際に直面した苦労・失敗 ① 利用者との期待値調整ができておらず、運用者も努力目標が不明確 • 集計が遅延した時、どのレベルで誰に周知していいか悩んだ
② リソース管理や CI/CD が不十分で、障害発生のリスクがあった • オペミスにより本番環境に不要なファイルがデプロイされ定常処理が止まる • 新たなインスタンスを立てたらモジュールがインストールされておらず処理が止まった ③ 障害の検知に遅れることがあった • 定常処理のステータスが瞬時に把握できない • ディスク不足やネットワークのポートの枯渇などの把握に遅れ、障害が発生 ④ 障害対応がスムーズに行かない • 障害復旧が職人芸化され、属人化している部分があった

#Rtech SLAを定め、モニタリングするデータ基盤運用面の工夫① ➔ データのステークホルダーと協議し主要データを何時までに提供するか合意し期待値調整をする ➔ 障害の条件を定義し、半年間のSLA をチームで決める
➔ 週次定例でチームメンバー全員で SLAの実績を確認 SLA (1) 10時時点で、Table Aが作成されていること (2) 12時時点で、spreadsheet吐き出しタスクが完了していること (3) 13時時点で、集計データの外部連携まで完了していること

#Rtech CI/CDとインフラコード化を徹底し、障害を予防 ➔ CI/CDツールとして Cloud Build を導入 ◆ クエリチェック、パイプラインチェック、構文チェックを行う •
過去のしくじり：Python ファイルのエラーでDAGが壊れ定常処理が走らない ◆ Composer , Cloud Run へのデプロイを自動で行う • 過去のしくじり：デプロイ先がファイルの変更箇所に応じて2箇所あり、デプロイ忘れが発生 ➔ Terraform でのGCPコンポーネント管理 ◆ 構成の再現性を担保データ基盤運用面の工夫②

#Rtech 監視項目を整理し、アラート設定をして障害を迅速に検知データ基盤運用面の工夫③ ➔ Airﬂow の Operator の成功/失敗コールバックに Slack のPOST処理をか
ませる ➔ 重要なテーブルデータの整合性を検証するタスクを設け Slack 通知 ◆ 過去のしくじり • Operator は成功しているが、中身のデータが不整合だった ➔ DAGの重複依存関係や Composer でのエラーアラートを設定

#Rtech 障害対応をスムーズにデータ基盤運用面の工夫④ ➔ ドキュメント化の徹底 ◆ エスカレ対応の条件 ◆ 対応方法・コツ ◆
対応の心構え ◆ 対応時のログを残す誰でも同じ品質の対応ができる

#Rtech スケジュールを集約しワンタッチで障害対応が可能に　データ基盤運用面の工夫④ AM3:00 AM6:00 AM9:00 旧方式新方式タスク的な依存関係はあるが、データ提供の時間にズレがあるた
め、十分時間をあけて個別にスケジュールさせていた。上流のタスクに障害があると、全てのタスクを時間を置いてそれぞれ実行する必要があった。特定の時間まで後続のタスクを進ませない wait タスクを挟みスケジュールを1つに集約。 1つのタスクを再実行すれば自動で後続も順次実行され障害対応コストが下がった。 task A task A wait B wait C task B task C task B task C 新旧方式のDAG構成のイメージ図

#Rtech 4つのポイントを仕組み化しPDCAをまわし属人化を解消データ基盤運用面の工夫のまとめ ① SLA定義 & モニタリング整備 ② 障害の予防 ③
障害の検知 ④ 障害対応

#Rtech まとめと今後の展望 04

#Rtech データ処理のパフォーマンス面・運用面での改善を行ったパフォーマンス面運用面 ➔ 日次処理における処理の平準化 ➔ Composer のGKEノード数を負荷に合わせて調整
➔ タスクの並列数を調整可能に ➔ Embulk を Cloud Run で実行 ➔ SLAを定め、モニタリングする ➔ CI/CDとインフラコード化を徹底し、障害を予防 ➔ 監視項目を整理し、アラート設定をして障害を迅速に通知 ➔ 障害をワンタッチで対応可能にまとめ

#Rtech 今後の展望 ➔ Composer の更なるロバスト化 ◆ 2系で導入された Autopilot によるオートスケーリングの実現 ➔
新データ基盤と MLOps 基盤の連携強化 ◆ データプロダクトごとに乱立している MLOps のシステム・運用を共通化し、今回紹介したデータ基盤と連携強化 ◆ Vertex AI の活用を強化し、手軽にML開発できる仕組みを整備

#Rtech ご清聴ありがとうございました

スタディサプリのデータ基盤を支えるETLとパイプラインの技術 / meetup_tanda

スタディサプリのデータ基盤を支えるETLとパイプラインの技術 / meetup_tanda

Recruit PRO

More Decks by Recruit

Other Decks in Technology

Featured

Transcript

#Rtech スタディサプリのデータ基盤を支えるデータパイプラインの技術と運用丹田尋スタディサプリのデータ基盤を支える技術 2022 ーRECRUIT TECH MEET

#Rtech 2020年リクルート新卒入社。データ基盤の開発・運用、移管プロジェクトなどに携わり、現在は MLOps 周りも担当。 MLを用いた顧客スコア算出・活用のプロジェクトにも参画。丹田

#Rtech Agenda | 01 02 03 04 データ基盤を支えるデータパイプラインの概要パフォーマンス面での4つの工夫データ基盤運用面での4つの工夫

#Rtech データ基盤を支えるデータパイプラインの概要 01

#Rtech スタディサプリのデータ基盤アーキテクチャ（簡略版） Kinesis + lambda + (S3) Serverside Log firebase

#Rtech 全体の処理を Cloud Composer で制御 ➔ GCPが提供している Apache Airﬂow で構築された、フルマネージドのワークフ

#Rtech BigQuery導入で集計が高速化するも、効果は限定的 BigQuery 導入での効果 ➔ DWH を BigQuery へ移行することで、集計処理時間は飛躍的に高速化された

#Rtech データ転送処理がボトルネックになっている ➔ 日次処理時間の大半が BashOperator で占めており、BigQueryOperator は短い ➔ BashOperator

#Rtech データの定常処理を効率化するパフォーマンス面・運用面での Tips を紹介します今回のテーマ

#Rtech パフォーマンス面での4つの工夫 02

#Rtech 日次処理における処理の平準化合計実行時間時間帯ログ取り込みマスター取り込み外部データ

#Rtech 合計実行時間時間帯ログ取り込みマスター取り込み外部データ取り込み

#Rtech Embulk を Cloud Run で実行パフォーマンスチューニングの工夫④ ➔ 複数処理による同一リソースの食い合いをサーバーレス化で解決 ◆

#Rtech 急激な負荷に迅速に対応した2つの事例 ➔ COVID-19 で一斉休校になり、データ量が増大 ◆ 処理の平準化、リソースを負荷に合わせて調整することで対応

#Rtech データ基盤運用面での4つの工夫 03

#Rtech SLAを定め、モニタリングするデータ基盤運用面の工夫① ➔ データのステークホルダーと協議し主要データを何時までに提供するか合意し期待値調整をする ➔ 障害の条件を定義し、半年間のSLA をチームで決める

#Rtech CI/CDとインフラコード化を徹底し、障害を予防 ➔ CI/CDツールとして Cloud Build を導入 ◆ クエリチェック、パイプラインチェック、構文チェックを行う •

#Rtech 監視項目を整理し、アラート設定をして障害を迅速に検知データ基盤運用面の工夫③ ➔ Airﬂow の Operator の成功/失敗コールバックに Slack のPOST処理をか

#Rtech 障害対応をスムーズにデータ基盤運用面の工夫④ ➔ ドキュメント化の徹底 ◆ エスカレ対応の条件 ◆ 対応方法・コツ ◆

#Rtech スケジュールを集約しワンタッチで障害対応が可能に　データ基盤運用面の工夫④ AM3:00 AM6:00 AM9:00 旧方式新方式タスク的な依存関係はあるが、データ提供の時間にズレがあるた

#Rtech 4つのポイントを仕組み化しPDCAをまわし属人化を解消データ基盤運用面の工夫のまとめ ① SLA定義 & モニタリング整備 ② 障害の予防 ③

#Rtech まとめと今後の展望 04

#Rtech データ処理のパフォーマンス面・運用面での改善を行ったパフォーマンス面運用面 ➔ 日次処理における処理の平準化 ➔ Composer のGKEノード数を負荷に合わせて調整

#Rtech 今後の展望 ➔ Composer の更なるロバスト化 ◆ 2系で導入された Autopilot によるオートスケーリングの実現 ➔

#Rtech ご清聴ありがとうございました