Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Kubernetes のスケーラビリティを左右するデータストアの話

Avatar for Honahuku Honahuku
September 28, 2025
43

Kubernetes のスケーラビリティを左右するデータストアの話

https://distributed.connpass.com/event/370279/ で LT として発表した内容です

参考資料(スライド記載のものに追加)
・詳解: Amazon EKS 超大規模クラスター | Amazon Web Services ブログ https://aws.amazon.com/jp/blogs/news/under-the-hood-amazon-eks-ultra-scale-clusters/
・65K node Kubernetes AI Platform - A Reality - YouTube https://youtu.be/eRU5XSCHSC4?si=qXWjYwE5KEvbEJwY

Avatar for Honahuku

Honahuku

September 28, 2025
Tweet

Transcript

  1. 主要なマネージドKubernetesの ノード数上限 • GKE (Google Cloud) • 5,000ノード (デフォルト) /

    65,000ノード (最大) • EKS (AWS) • 10万ノード • AKS (Azure) • 5,000ノード • 割り当てと上限 | Google Kubernetes Engine (GKE) | Google Cloud • 詳解: Amazon EKS 超大規模クラスター | Amazon Web Services ブログ • Azure Kubernetes Service (AKS) のリソース、SKU、リージョンの制限 - Azure Kubernetes Service | Microsoft Learn
  2. Amazon EKS はどのように 1 クラスタ 10 万ノードに対応したのか / Under the

    Hood EKS Ultra Scale Cluster - Speaker Deck AWS / Ryota Yamada -san
  3. EKS の選択 / ストレージ層の刷新 • EKSはetcdコアを強化した • 分散合意をRaftからAWS内で利用される Journalへ移行 •

    BoltDBの保存先をEBSからインメモリストレージ (tmpfs)へ変更 • 耐久性はJournalが保証するためインメモリでも 問題ない
  4. EKS の選択 / リソースごとの シャーディング • リソースタイプごとに etcdクラスタを分割 (シャーディング) した

    • オブジェクト数が多いNodeやPodといった「ホット な」リソースを分離し、負荷を分散させる
  5. まとめ • GKEはSpannerによる無限のスケールを追求し ている • EKSはetcdの抜本的な再構築 (Journal / In-memory /

    シャーディング) によって10万ノード を実現した • これらの進化により、トリリオンパラメータモデル の訓練やAGI(汎用人工知能)の実現に必要な 計算基盤の利用も加速する(らしい)