リアルタイムログ分析基盤のAWS-_GCP移行話

 リアルタイムログ分析基盤のAWS-_GCP移行話

6/26 【オンライン】ログ分析勉強会 vol.2 での登壇資料です
https://loganalytics.connpass.com/event/176044/
#logben

A84b3c763c9c543069b7c02551e2720e?s=128

yu-yamada

June 26, 2020
Tweet

Transcript

  1. リアルタイムログ分析基盤の AWS->GCP移行話 2020/06/26 ログ分析勉強会 vol.2 #logben 株式会社リクルートライフスタイル 山田 雄

  2. 山田 雄(Yamada Yu) @nii_yan データエンジニア (データ基盤の開発・運用) AWS/GCP/BigData/Mail/Beer/Yakisoba... Photo Speaker

  3. ログ分析と言えば・・・ SoftwareDesign 7月号! ログ分析特集 レビュアーとして参加 本や記事のレビュアー 分析基盤構築のお手伝い など実施しています

  4. 何を分析している基盤か? 商品を見ている 人数をリアルタイ ムに集計してい る基盤

  5. 2016年に作った基盤に 色々課題が出てきて いいサービスも出てきて 2019年にリプレース した話です

  6. また、AWSが良くないから 移行した! って話ではないです AWS好きです

  7. リアルタイム分析基盤を 作ったきっかけ (2016年当時)

  8. データ分析における普遍的なテーマ

  9. データ分析における普遍的なテーマ

  10. cold path hot path 参考にしたアーキテクチャ Data Speed Layer Batch Layer

    Serving Layer SQL Lambda Architecture
  11. 当時検討したもの(クラウド or オンプレミス)

  12. 当時検討したもの(データハブ基盤)

  13. 当時検討したもの(ストリーム処理基盤)

  14. GrandDesign

  15. しばらくして出てきた課題 • 運用負荷の高騰 ◦ EC2のメンテナンス ◦ HDFSの容量逼迫 ◦ zookeeper(kafka)の不具合 →

    kafka,Hadoop(spark)を知っている人員ではないと対処出来ない • インフラコストが高い
  16. しばらくして出てきた課題 • 運用負荷の高騰 ◦ EC2のメンテナンス ◦ HDFSの容量逼迫 ◦ zookeeper(kafka)の不具合 →

    kafka,Hadoop(spark)を知っている人員ではないと対処出来ない • インフラコストが高い 開発完了から3年(2016->2019)がたち 基盤の移行を決断
  17. リプレースのゴール • 仕様の明確化 • インフラコストを下げる • チームメンバーなら誰でも運用出来るように • 運用が出来る限り起きない設計 ◦

    障害の自動復旧 ◦ オートスケールなど
  18. 運用負荷・インフラコストを下げるために考えたこと • マネージド・サービスの利用 ◦ ロックインされても、運用負荷低減の方がメリットがあると判断 • メンテナンスタイムが無いものを選択 ◦ ライブマイグレーション対応 ◦

    待機系を無くせる
  19. 運用負荷・インフラコストを下げるために考えたこと • マネージド・サービスの利用 ◦ ロックインされても、運用負荷低減の方がメリットがあると判断 • メンテナンスタイムが無いものを選択 ◦ ライブマイグレーション対応 ◦

    待機系を無くせる データ基盤周りではGCPをメインに使っていたこともあり、 GCPを第一候補として技術選定を開始
  20. リプレース後の構成 オンプレ Cloud Pub/Sub Cloud Dataflow Cloud Datastore App Engine

    REST API Stackdriver 通知 Logging
  21. データハブ基盤 オンプレ Cloud Pub/Sub Cloud Dataflow Cloud Datastore App Engine

    REST API Stackdriver 通知 Logging
  22. データ集計基盤 オンプレ Cloud Pub/Sub Cloud Dataflow Cloud Datastore App Engine

    REST API Stackdriver 通知 Logging
  23. データ提供基盤 オンプレ Cloud Pub/Sub Cloud Dataflow Cloud Datastore App Engine

    REST API Stackdriver 通知 Logging
  24. リプレースの効果 • インフラコストが 1/6 • 運用発生せず ◦ スケールも問題なく対応

  25. 今後の課題 • dataflowのSDKアップデート対応 ◦ 1年ほどでEOSLを迎える SDK versions Status Details 2.22.0

    Supported This version will be deprecated on June 8, 2021. 2.21.0 Supported This version will be deprecated on May 27, 2021. 2.20.0 Supported This version will be deprecated on April 15, 2021. 2.19.0 Supported This version will be deprecated on February 4, 2021. 〜 〜 〜 2.13.0 Deprecated Deprecated on June 6, 2020.
  26. • 長年動いている基盤は見直しをするといいことあるかも? ◦ 知識の掘り起こしが出来た • リプレースは楽しい • ストリームも楽しい • 塩漬けすると同じ課題が出てきそう

    ◦ カオスモンキーとか出来るといいのかも? まとめ