Slide 1

Slide 1 text

リアルタイムログ分析基盤の AWS->GCP移行話 2020/06/26 ログ分析勉強会 vol.2 #logben 株式会社リクルートライフスタイル 山田 雄

Slide 2

Slide 2 text

山田 雄(Yamada Yu) @nii_yan データエンジニア (データ基盤の開発・運用) AWS/GCP/BigData/Mail/Beer/Yakisoba... Photo Speaker

Slide 3

Slide 3 text

ログ分析と言えば・・・ SoftwareDesign 7月号! ログ分析特集 レビュアーとして参加 本や記事のレビュアー 分析基盤構築のお手伝い など実施しています

Slide 4

Slide 4 text

何を分析している基盤か? 商品を見ている 人数をリアルタイ ムに集計してい る基盤

Slide 5

Slide 5 text

2016年に作った基盤に 色々課題が出てきて いいサービスも出てきて 2019年にリプレース した話です

Slide 6

Slide 6 text

また、AWSが良くないから 移行した! って話ではないです AWS好きです

Slide 7

Slide 7 text

リアルタイム分析基盤を 作ったきっかけ (2016年当時)

Slide 8

Slide 8 text

データ分析における普遍的なテーマ

Slide 9

Slide 9 text

データ分析における普遍的なテーマ

Slide 10

Slide 10 text

cold path hot path 参考にしたアーキテクチャ Data Speed Layer Batch Layer Serving Layer SQL Lambda Architecture

Slide 11

Slide 11 text

当時検討したもの(クラウド or オンプレミス)

Slide 12

Slide 12 text

当時検討したもの(データハブ基盤)

Slide 13

Slide 13 text

当時検討したもの(ストリーム処理基盤)

Slide 14

Slide 14 text

GrandDesign

Slide 15

Slide 15 text

しばらくして出てきた課題 ● 運用負荷の高騰 ○ EC2のメンテナンス ○ HDFSの容量逼迫 ○ zookeeper(kafka)の不具合 → kafka,Hadoop(spark)を知っている人員ではないと対処出来ない ● インフラコストが高い

Slide 16

Slide 16 text

しばらくして出てきた課題 ● 運用負荷の高騰 ○ EC2のメンテナンス ○ HDFSの容量逼迫 ○ zookeeper(kafka)の不具合 → kafka,Hadoop(spark)を知っている人員ではないと対処出来ない ● インフラコストが高い 開発完了から3年(2016->2019)がたち 基盤の移行を決断

Slide 17

Slide 17 text

リプレースのゴール ● 仕様の明確化 ● インフラコストを下げる ● チームメンバーなら誰でも運用出来るように ● 運用が出来る限り起きない設計 ○ 障害の自動復旧 ○ オートスケールなど

Slide 18

Slide 18 text

運用負荷・インフラコストを下げるために考えたこと ● マネージド・サービスの利用 ○ ロックインされても、運用負荷低減の方がメリットがあると判断 ● メンテナンスタイムが無いものを選択 ○ ライブマイグレーション対応 ○ 待機系を無くせる

Slide 19

Slide 19 text

運用負荷・インフラコストを下げるために考えたこと ● マネージド・サービスの利用 ○ ロックインされても、運用負荷低減の方がメリットがあると判断 ● メンテナンスタイムが無いものを選択 ○ ライブマイグレーション対応 ○ 待機系を無くせる データ基盤周りではGCPをメインに使っていたこともあり、 GCPを第一候補として技術選定を開始

Slide 20

Slide 20 text

リプレース後の構成 オンプレ Cloud Pub/Sub Cloud Dataflow Cloud Datastore App Engine REST API Stackdriver 通知 Logging

Slide 21

Slide 21 text

データハブ基盤 オンプレ Cloud Pub/Sub Cloud Dataflow Cloud Datastore App Engine REST API Stackdriver 通知 Logging

Slide 22

Slide 22 text

データ集計基盤 オンプレ Cloud Pub/Sub Cloud Dataflow Cloud Datastore App Engine REST API Stackdriver 通知 Logging

Slide 23

Slide 23 text

データ提供基盤 オンプレ Cloud Pub/Sub Cloud Dataflow Cloud Datastore App Engine REST API Stackdriver 通知 Logging

Slide 24

Slide 24 text

リプレースの効果 ● インフラコストが 1/6 ● 運用発生せず ○ スケールも問題なく対応

Slide 25

Slide 25 text

今後の課題 ● dataflowのSDKアップデート対応 ○ 1年ほどでEOSLを迎える SDK versions Status Details 2.22.0 Supported This version will be deprecated on June 8, 2021. 2.21.0 Supported This version will be deprecated on May 27, 2021. 2.20.0 Supported This version will be deprecated on April 15, 2021. 2.19.0 Supported This version will be deprecated on February 4, 2021. 〜 〜 〜 2.13.0 Deprecated Deprecated on June 6, 2020.

Slide 26

Slide 26 text

● 長年動いている基盤は見直しをするといいことあるかも? ○ 知識の掘り起こしが出来た ● リプレースは楽しい ● ストリームも楽しい ● 塩漬けすると同じ課題が出てきそう ○ カオスモンキーとか出来るといいのかも? まとめ