Slide 1

Slide 1 text

©2024 Metaps Holdings, Inc. ゆるSRE勉強会 #6 プロダクト横断で可視化する ダッシュボードの開発 株式会社メタップスホールディングス プロダクトオーナー 兼 SREチーフエンジニア ⼭北 尚道 1

Slide 2

Slide 2 text

©2024 Metaps Holdings, Inc. ⾃⼰紹介 ⼭北 尚道 株式会社メタップスホールディングス srestプロダクトオーナー 兼 SREチーフエンジニア Yamakita Naomichi @sre_yamakita ベトナム‧ハノイでのオフショア事業⽴ち上げからキャリアをスタートし、ア プリケーション開発からマネジメントまでを経験 2015年に当社参画。徐々にクラウドインフラにも携わり、現在は横断的なテッ クリードやSREチーフエンジニアとして従事 「AWS DevDay Tokyo」登壇、「Amazon Web Services ブログ」、 「builders.flash」寄稿 昨年よりSREのためのダッシュボード「srest」プロダクトオーナーを兼任

Slide 3

Slide 3 text

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. SREチーム⽴ち上げ前の開発体制 (〜2018年)

Slide 4

Slide 4 text

©2024 Metaps Holdings, Inc. SREチーム発⾜後の体制 (2019年〜)

Slide 5

Slide 5 text

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. インフラ基盤の共通化とサービスへの展開 (2020年〜)

Slide 6

Slide 6 text

©2024 Metaps Holdings, Inc. トイルの削減によりサービス運⽤が効率化 (2021年〜)

Slide 7

Slide 7 text

©2024 Metaps Holdings, Inc. その結果

Slide 8

Slide 8 text

©2024 Metaps Holdings, Inc. ダッシュボードにログを集約する形に

Slide 9

Slide 9 text

©2024 Metaps Holdings, Inc. 9

Slide 10

Slide 10 text

©2024 Metaps Holdings, Inc. 10

Slide 11

Slide 11 text

©2024 Metaps Holdings, Inc. 11

Slide 12

Slide 12 text

©2024 Metaps Holdings, Inc. 12

Slide 13

Slide 13 text

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. ● クラウドベンダーから送信されるイベントログを集約 ○ AWSやNew RelicであればEventBridge ○ DatadogやPagerDutyはWebhook ● ダッシュボードの構築が不要 ○ 異常ログの早期検知を元にタスク化可能 監視ツールとsrestの違い

Slide 14

Slide 14 text

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. 朝会 定例ミーティング 障害発⽣時 srestのユースケース

Slide 15

Slide 15 text

©2024 Metaps Holdings, Inc. 15 15 インフラ基盤 アプリケーションが 動いてる環境 アプリケーションのエラーを トラッキングするツール オンコール担当 (SRE) に障害を エスカレーションするサービス インフラ基盤の監視 エラートラッキング オンコール通知 srestは各種インフラサービスのインテグレーション先となり、 各サービスのイベントログを集積‧可視化する基盤に イベントログの集積‧可視化 システムメトリクス 監視ツール 15 15 無料トライアル実施中 >