Upgrade to Pro — share decks privately, control downloads, hide ads and more …

リアルタイムログ分析基盤のAWS-_GCP移行話

 リアルタイムログ分析基盤のAWS-_GCP移行話

6/26 【オンライン】ログ分析勉強会 vol.2 での登壇資料です
https://loganalytics.connpass.com/event/176044/
#logben

yu-yamada

June 26, 2020
Tweet

More Decks by yu-yamada

Other Decks in Technology

Transcript

  1. リアルタイムログ分析基盤の
    AWS->GCP移行話
    2020/06/26 ログ分析勉強会 vol.2 #logben
    株式会社リクルートライフスタイル
    山田 雄

    View Slide

  2. 山田 雄(Yamada Yu)
    @nii_yan
    データエンジニア
    (データ基盤の開発・運用)
    AWS/GCP/BigData/Mail/Beer/Yakisoba...
    Photo
    Speaker

    View Slide

  3. ログ分析と言えば・・・
    SoftwareDesign 7月号!
    ログ分析特集
    レビュアーとして参加
    本や記事のレビュアー
    分析基盤構築のお手伝い
    など実施しています

    View Slide

  4. 何を分析している基盤か?
    商品を見ている
    人数をリアルタイ
    ムに集計してい
    る基盤

    View Slide

  5. 2016年に作った基盤に
    色々課題が出てきて
    いいサービスも出てきて
    2019年にリプレース
    した話です

    View Slide

  6. また、AWSが良くないから
    移行した!
    って話ではないです
    AWS好きです

    View Slide

  7. リアルタイム分析基盤を
    作ったきっかけ
    (2016年当時)

    View Slide

  8. データ分析における普遍的なテーマ

    View Slide

  9. データ分析における普遍的なテーマ

    View Slide

  10. cold path
    hot path
    参考にしたアーキテクチャ
    Data
    Speed
    Layer
    Batch
    Layer
    Serving
    Layer
    SQL
    Lambda Architecture

    View Slide

  11. 当時検討したもの(クラウド or オンプレミス)

    View Slide

  12. 当時検討したもの(データハブ基盤)

    View Slide

  13. 当時検討したもの(ストリーム処理基盤)

    View Slide

  14. GrandDesign

    View Slide

  15. しばらくして出てきた課題
    ● 運用負荷の高騰
    ○ EC2のメンテナンス
    ○ HDFSの容量逼迫
    ○ zookeeper(kafka)の不具合
    → kafka,Hadoop(spark)を知っている人員ではないと対処出来ない
    ● インフラコストが高い

    View Slide

  16. しばらくして出てきた課題
    ● 運用負荷の高騰
    ○ EC2のメンテナンス
    ○ HDFSの容量逼迫
    ○ zookeeper(kafka)の不具合
    → kafka,Hadoop(spark)を知っている人員ではないと対処出来ない
    ● インフラコストが高い
    開発完了から3年(2016->2019)がたち
    基盤の移行を決断

    View Slide

  17. リプレースのゴール
    ● 仕様の明確化
    ● インフラコストを下げる
    ● チームメンバーなら誰でも運用出来るように
    ● 運用が出来る限り起きない設計
    ○ 障害の自動復旧
    ○ オートスケールなど

    View Slide

  18. 運用負荷・インフラコストを下げるために考えたこと
    ● マネージド・サービスの利用
    ○ ロックインされても、運用負荷低減の方がメリットがあると判断
    ● メンテナンスタイムが無いものを選択
    ○ ライブマイグレーション対応
    ○ 待機系を無くせる

    View Slide

  19. 運用負荷・インフラコストを下げるために考えたこと
    ● マネージド・サービスの利用
    ○ ロックインされても、運用負荷低減の方がメリットがあると判断
    ● メンテナンスタイムが無いものを選択
    ○ ライブマイグレーション対応
    ○ 待機系を無くせる
    データ基盤周りではGCPをメインに使っていたこともあり、
    GCPを第一候補として技術選定を開始

    View Slide

  20. リプレース後の構成
    オンプレ
    Cloud
    Pub/Sub
    Cloud
    Dataflow
    Cloud
    Datastore
    App
    Engine
    REST API
    Stackdriver
    通知
    Logging

    View Slide

  21. データハブ基盤
    オンプレ
    Cloud
    Pub/Sub
    Cloud
    Dataflow
    Cloud
    Datastore
    App
    Engine
    REST API
    Stackdriver
    通知
    Logging

    View Slide

  22. データ集計基盤
    オンプレ
    Cloud
    Pub/Sub
    Cloud
    Dataflow
    Cloud
    Datastore
    App
    Engine
    REST API
    Stackdriver
    通知
    Logging

    View Slide

  23. データ提供基盤
    オンプレ
    Cloud
    Pub/Sub
    Cloud
    Dataflow
    Cloud
    Datastore
    App
    Engine
    REST API
    Stackdriver
    通知
    Logging

    View Slide

  24. リプレースの効果
    ● インフラコストが 1/6
    ● 運用発生せず
    ○ スケールも問題なく対応

    View Slide

  25. 今後の課題
    ● dataflowのSDKアップデート対応
    ○ 1年ほどでEOSLを迎える
    SDK versions Status Details
    2.22.0 Supported This version will be deprecated on June 8, 2021.
    2.21.0 Supported This version will be deprecated on May 27, 2021.
    2.20.0 Supported This version will be deprecated on April 15, 2021.
    2.19.0 Supported This version will be deprecated on February 4, 2021.
    〜 〜 〜
    2.13.0 Deprecated Deprecated on June 6, 2020.

    View Slide

  26. ● 長年動いている基盤は見直しをするといいことあるかも?
    ○ 知識の掘り起こしが出来た
    ● リプレースは楽しい
    ● ストリームも楽しい
    ● 塩漬けすると同じ課題が出てきそう
    ○ カオスモンキーとか出来るといいのかも?
    まとめ

    View Slide