Slide 6
Slide 6 text
6
クラスタは常にどこかが壊れている
分散システムは、完全な意味で「アップ(up)」になることはない。*
● 障害の発生しうる要素
○ ハードウェア
■ CPU, GPU, Memory, Disk, Network (NIC, Cable, ...), FAN, 電源,…
○ ソフトウェア
■ OS, ドライバ, システムプロセス (k8s 含む), Pod (ユーザーのワー
クロード) , …
● 各要素で障害となりうる故障・不具合の種類も複数存在
● クラスタの規模に比例して、どこかが壊れているのが定常的な状態
* Ops: It's everyone's job now | Opensource.com