実装した⽅法
▌クラスタ管理ツール (CKE) に再起動待ちキューを実装する
▌「再起動待ちキューに全てのノードを追加するコマンド」を作る
▌トラブル発⽣時はアラートを発⽕させる
l ⼈⼿で進捗を確認しなくてよい
l コマンド⼊⼒後、⼈間が即座に解放される
Kubernetes クラスタ
Slide 9
Slide 9 text
その他注意点
▌サービスを壊さないよう PodDisruptionBudget と Eviction API を
活⽤する
l Pod が Eviction できない場合は時間をおいてリトライする
l ⼀定時間経つとアラートも鳴る
▌多少再起動に失敗したサーバーがあっても動作を続ける
l アラートは鳴る
▌⼀時停⽌ボタンを付けておく
Slide 10
Slide 10 text
そもそもどうして⼀台ずつ再起動するのか
▌適当に複数台選ぶと運悪く特定
サービスの Pod が集中することが
ある
Slide 11
Slide 11 text
そもそもどうして⼀台ずつ再起動するのか
▌適当に複数台選ぶと運悪く特定
サービスの Pod が集中することが
ある
▌ノードをグループ分けしておき、
Pod に anti-affinity を付けて
分散させる
▌ノード数が超多い時はこういった
対策をする必要がある