Slide 26
Slide 26 text
26
クラスタは常にどこかが壊れている
分散システムは、完全な意味で「アップ(up)」になることはない。*
● 障害の発生しうる要素
○ ハードウェア
■ CPU, GPU, Memory, Disk, Network (NIC, Cable, ...), FAN, 電源,…
○ ソフトウェア
■ OS, ドライバ, システムプロセス (k8s 含む), Pod (ユーザーのワー
クロード) , …
● 各要素で障害となりうる故障・不具合の種類も複数存在
● クラスタの規模に比例して、どこかが壊れているのが定常的な状態
● 繰り返される定型的な障害の検知と復旧の自動化が必須
* Ops: It's everyone's job now | Opensource.com