モニタリングダッシュボードに表示しておきたい情報 / NIFTY Tech Talk #21

Slide 1

Slide 1 text

モニタリングダッシュボードに表示しておきたい情報 Tech Talk#21

Slide 2

Slide 2 text

浅見則彦 / Asami Norihiko ● Work ○ 会員システムグループ / SREチーム - Tech Lead ○ SREギルドマスター ○ NIFTY Tech Talk 運営 ● Communiy ○ AWS community builder | Cloud Operations rubihiko @rubihiko

Slide 3

Slide 3 text

モニタリング: モニタリングは信頼性の基礎 Figure III-1. Service Reliability Hierarchy https://sre.google/sre-book/part-III-practices/

Slide 4

Slide 4 text

モニタリングは信頼性の基礎モニタリングが出来ていないと・・・ ● インシデントレスポンス（障害・インシデント対応） ○ モニタリングが出来ていないと気づくことも調査することもできない・・・ ● ポストモーテム ○ 振り返り・根本原因分析できない・・・ ● テスト ○ テストをパスしているかどうやって把握しますか・・・？ ● キャパシティプランニング ○ パフォーマンスが見えない状態でキャパシティを予測して計画できますか・・・？ ● 開発・本番環境へ

Slide 5

Slide 5 text

ダッシュボードに表示する情報について ● SLI/SLO ● ゴールデンシグナル ● RED/USEメソッド ● ビジネス指標

Slide 6

Slide 6 text

SLI/SLO/SLA SLO(Service Level Object) サービスレベルの目指すべき目標のことで、SLIの目標値になります。 SLA(Service Level Agreement) サービスレベルを保証するユーザーとの合意のことで、契約です。例) 対象サービスの30日間の稼働率が99%以上を保証する。下回った場合は全額返金する例) 対象サービス(機能)の30日間のリクエストの成功率(SLI)の目標値は99.9%とする SLI(Service Level Indicator) サービスレベルの指標のことで、可用性やレイテンシーなどがよく使われます。例) 対象サービス(機能)のリクエストの成功率を指標とする

Slide 7

Slide 7 text

定量化のための計算式良いイベント有効なイベント × 100 [%] The Art of SLOs https://sre.google/intl/ja_jp/resources/practices-and-processes/art-of-slos/

Slide 8

Slide 8 text

4つのゴールデンシグナル ● レイテンシ ○ サービスがリクエストの処理にかける時間 ● トラフィック ○ サービスに対する要求の量 ● エラー ○ サービスが失敗する割合 ● 飽和 ○ サービスのリソースがフル使用にどれだけ近いかを示す尺度 The Four Golden Signal https://sre.google/sre-book/monitoring-distributed-systems/#xref_monitoring_golden-signals

Slide 9

Slide 9 text

REDメソッド REDメソッドは、サービスの健全性とパフォーマンスを把握するのに優れているサービスを観測するためのメソッドでリクエスト、エラー、時間を観測する ● (Request) Rate: リクエスト数 ● (Request) Errors: エラー数 ● (Request) Duration: 実行にかかった時間

Slide 10

Slide 10 text

USEメソッド内部のリソース状況を観測するのに優れている、ホワイトボックス的な観測方法 ● Utilization: 使用率 ● Saturation: 飽和 ● Errors: エラー The USE Method https://www.brendangregg.com/usemethod.html

Slide 11

Slide 11 text

USEとREDの関係 USE RED 対象リソースサービス観点ホワイトボックスブラックボックス観察内部の状態外部の振る舞い Microservices時代の監視設計 https://blog.song.mu/entry/microservices-monitoring-design

Slide 12

Slide 12 text

ビジネス指標 ● 売上 ● 購入数 ● 登録ユーザー数 ● 利用者数 ● などなど

Slide 13

Slide 13 text

ダッシュボードを活用モニタリングするうえでダッシュボードはすごく重要 Example Grafana dashboard https://grafana.com/docs/grafana/latest/fundamentals/dashboards-overview/

Slide 14

Slide 14 text

ダッシュボードの工夫 ● レイアウト ● 表示するもの ● 分けたほうがいいもの

Slide 15

Slide 15 text

レイアウトと表示するもの SLI/SLO Error Budgets リクエストレイテンシビジネス指標エラーレイテンシ指標メトリクスサービス毎にグルーピング使用率|飽和 (Utilization|Saturation)

Slide 16

Slide 16 text

リソース詳細、目的別のダッシュボードに分けるメインのダッシュボードに全てを詰め込むのではなく目的別に分ける飽和はここで見れるようにしておく、調査ができるよう情報を集めるメトリクス ● ロードバランサー ● サーバー ● データベース ● ストレージログ ● アプリケーション ● インサイトトレース ● トランザクション ● サービスマップ

Slide 17

Slide 17 text

まとめ ● モニタリングは信頼性の階層において一番下にある信頼性を支えるための重要な役割を持っている ● ダッシュボードに表示する情報は整理しよう ○ SLI/SLO ○ ゴールデンシグナル ○ RED/USE ○ ビジネス指標 ● 細かい情報は別ダッシュボードやインサイトを活用