Slide 12
Slide 12 text
12
© Metaps Holdings, Inc.
ポストモーテム文化
When an incident occurs, we fix the underlying issue,
and services return to their normal operating conditions.
Unless we have some formalized process of learning
from these incidents in place, they may recur ad
infinitum. Left unchecked, incidents can multiply in
complexity or even cascade, overwhelming a system
and its operators and ultimately impacting our users.
Therefore, postmortems are an essential tool for SRE.
インシデントが発生すると、根本的な問題が解決され、サー
ビスは通常の動作状態に戻ります。 これらの事件から学ぶ
ための何らかの正式なプロセスを整備しない限り、事件は
無限に繰り返される可能性があります。 チェックを怠ると、
インシデントが複雑化したり連鎖的に発生したりして、シス
テムとそのオペレーターに負担をかけ、最終的にはユー
ザーに影響を与える可能性があります。 したがって、事後
分析は SRE にとって不可欠なツールです。
https://sre.google/workbook/monitoring/