Slide 1

Slide 1 text

モニタリングダッシュボード に表示しておきたい情報 Tech Talk#21

Slide 2

Slide 2 text

浅見 則彦 / Asami Norihiko ● Work ○ 会員システムグループ / SREチーム - Tech Lead ○ SREギルドマスター ○ NIFTY Tech Talk 運営 ● Communiy ○ AWS community builder | Cloud Operations rubihiko @rubihiko

Slide 3

Slide 3 text

モニタリング: モニタリングは信頼性の基礎 Figure III-1. Service Reliability Hierarchy https://sre.google/sre-book/part-III-practices/

Slide 4

Slide 4 text

モニタリングは信頼性の基礎 モニタリングが出来ていないと・・・ ● インシデントレスポンス(障害・インシデント対応) ○ モニタリングが出来ていないと気づくことも調査することもできない・・・ ● ポストモーテム ○ 振り返り・根本原因分析できない・・・ ● テスト ○ テストをパスしているかどうやって把握しますか・・・? ● キャパシティプランニング ○ パフォーマンスが見えない状態でキャパシティを予測して計画できますか・・・? ● 開発・本番環境へ

Slide 5

Slide 5 text

ダッシュボードに表示する情報について ● SLI/SLO ● ゴールデンシグナル ● RED/USEメソッド ● ビジネス指標

Slide 6

Slide 6 text

SLI/SLO/SLA SLO(Service Level Object) サービスレベルの目指す べき目標のことで、SLIの 目標値になります。 SLA(Service Level Agreement) サービスレベルを保証す るユーザーとの合意のこ とで、契約です。 例) 対象サービスの30日間の稼 働率が99%以上を保証する。下 回った場合は全額返金する 例) 対象サービス(機能)の30日 間のリクエストの成功率(SLI)の目 標値は99.9%とする SLI(Service Level Indicator) サービスレベルの指標のこ とで、可用性やレイテンシー などがよく使われます。 例) 対象サービス(機能)のリクエ ストの成功率を指標とする

Slide 7

Slide 7 text

定量化のための計算式 良いイベント 有効なイベント × 100 [%] The Art of SLOs https://sre.google/intl/ja_jp/resources/practices-and-processes/art-of-slos/

Slide 8

Slide 8 text

4つのゴールデンシグナル ● レイテンシ ○ サービスがリクエストの処理にかける時間 ● トラフィック ○ サービスに対する要求の量 ● エラー ○ サービスが失敗する割合 ● 飽和 ○ サービスのリソースがフル使用にどれだけ近いかを示す尺度 The Four Golden Signal https://sre.google/sre-book/monitoring-distributed-systems/#xref_monitoring_golden-signals

Slide 9

Slide 9 text

REDメソッド REDメソッドは、サービスの健全性とパフォーマンスを把握するのに優れている サービスを観測するためのメソッドでリクエスト、エラー、時間を観測する ● (Request) Rate: リクエスト数 ● (Request) Errors: エラー数 ● (Request) Duration: 実行にかかった時間

Slide 10

Slide 10 text

USEメソッド 内部のリソース状況を観測するのに優れている、ホワイトボックス的な観測方法 ● Utilization: 使用率 ● Saturation: 飽和 ● Errors: エラー The USE Method https://www.brendangregg.com/usemethod.html

Slide 11

Slide 11 text

USEとREDの関係 USE RED 対象 リソース サービス 観点 ホワイトボックス ブラックボックス 観察 内部の状態 外部の振る舞い Microservices時代の監視設計 https://blog.song.mu/entry/microservices-monitoring-design

Slide 12

Slide 12 text

ビジネス指標 ● 売上 ● 購入数 ● 登録ユーザー数 ● 利用者数 ● などなど

Slide 13

Slide 13 text

ダッシュボードを活用 モニタリングするうえでダッシュボードはすごく重要 Example Grafana dashboard https://grafana.com/docs/grafana/latest/fundamentals/dashboards-overview/

Slide 14

Slide 14 text

ダッシュボードの工夫 ● レイアウト ● 表示するもの ● 分けたほうがいいもの

Slide 15

Slide 15 text

レイアウトと表示するもの SLI/SLO Error Budgets リクエスト レイテンシ ビジネス指標 エラー レイテンシ 指標 メトリクス サービス毎にグルーピング 使用率|飽和 (Utilization|Saturation)

Slide 16

Slide 16 text

リソース詳細、目的別のダッシュボードに分ける メインのダッシュボードに全てを詰め込むのではなく目的別に分ける 飽和はここで見れるようにしておく、調査ができるよう情報を集める メトリクス ● ロードバランサー ● サーバー ● データベース ● ストレージ ログ ● アプリケーション ● インサイト トレース ● トランザクション ● サービスマップ

Slide 17

Slide 17 text

まとめ ● モニタリングは信頼性の階層において一番下にある信頼性を支えるための重要 な役割を持っている ● ダッシュボードに表示する情報は整理しよう ○ SLI/SLO ○ ゴールデンシグナル ○ RED/USE ○ ビジネス指標 ● 細かい情報は別ダッシュボードやインサイトを活用