SRE NEXT 2022
https://sre-next.dev/2022/
[Speaker]
ヤフー株式会社: 中村 昭太
[Description]
現在ヤフーのKubernetes as a Service(以下KaaS)では1000を超えるKubenetesクラスタを取り扱っており、Kubernetesクラスタの利用者が円滑に開発を行えるように、LoadBalancerの機能や社内の他プラットフォームとの連携機能といったクラスタのコアとなる機能をたった25名ほどのメンバーが管理と運用をしています。
少数のメンバーであろうと、Kubernetes上で障害が起きた時にプラットフォームを運用する側としては、何が?いつから?どの影響範囲で?を即座に判断できなければなりません。
この度、我々KaaS運用チームは、この膨大なクラスタが全部正常稼働しているかを即座に判断できる監視システムを作りました。SREの重要な概念であるSLI/SLOを武器に用いれば、43万ものコンテナを動かす1000を超えるKubernetesクラスタの軍勢に、たった25名で立ち向えるということを紹介いたします。