Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2. クラウドネイティブにおけるObservabilityの作り方

F6df8bd336f1ff47494a43c68a562bfa?s=47 satokota
October 28, 2021
200

2. クラウドネイティブにおけるObservabilityの作り方

F6df8bd336f1ff47494a43c68a562bfa?s=128

satokota

October 28, 2021
Tweet

Transcript

  1. None
  2. None
  3. None
  4. • • •

  5. None
  6. • • • • • • • • • •

    • • • •
  7. None
  8. ◆ ◼ ◆ ◼ ◆ ◼

  9. None
  10. ◆ ◆ ◼ ◼ ◆ ◼

  11. None
  12. None
  13. None
  14. ◆ ◼ ◆ ◼ ◆

  15. サービス異常検知 問題の特定&対策実行 振り返り オペレーター エンジニア1 開発者 主任開発者 コール数 エラー率 レスポンスタイム

    サービス 1. サービス異常発生 2. インシデントと してサービスを担当 するチームにオン コール 3. オンコールを 受けた最初の担 当者で切り分け 4. トレースで影響箇所を 絞り、ログとメトリック から原因を分析 5. 担当者間で原因がわか るまでエスカレーション 、問題解決を行う 6. 障害の原因振り返りと 再発防止を検討 インシデント管理プロセス テレメトリーツール SLO On-Callツール
  16. ◆ ◆ ◆

  17. None