Upgrade to Pro — share decks privately, control downloads, hide ads and more …

サポートエンジニアから見たRancher運用の現場

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

 サポートエンジニアから見たRancher運用の現場

Avatar for Masashi Honma

Masashi Honma

August 28, 2025
Tweet

Other Decks in Technology

Transcript

  1. Rancher サポートケースの 10% が etcd 関連 • Kubernetesコンポーネントに絞ると70% が etcd

    関連 3 ※ 2021 年 1 月から現在まででSubject または Description に etcd を含むもの。
  2. etcd のよくある問題 (ディスクが遅い) • etcd のディスクが遅い → クラスタが不安定に ◦ 公式ドキュメントにも明記

    “A slow disk will increase etcd request latency and potentially hurt cluster stability.” https://etcd.io/docs/v3.6/op-guide/hardware/ • チケット登録が多めのお客様 ◦ etcd ログに took too long が出ているのでディスク交換を提 案 → クラスタが安定しチケット登録も減少。 https://etcd.io/docs/v3.6/faq/#what-does-the-etcd-warn ing-apply-entries-took-too-long-mean • 「遅い」ってどれくらい? ◦ took too long の最大値: 15 秒 = OK, 5 分 = NG。 4
  3. アップグレード時の問題 • アップグレード時の処理 ◦ 次バージョンのイメージをダウンロードする → ディスクアクセス増加 → etcd が遅延

    → クラス タが不安定に。 • 対処 ◦ イメージを事前にダウンロードしておく。 ◦ ディスクの高速化。 • ちなみに ◦ デフォルトでは 1 イメージずつダウンロードするので問題になるケースは多くない。 ◦ アップグレードを早くするために複数イメージダウンロードをしたりすると問題が起こる可能性 があがる。kubelet の serialize-image-pulls で変更可能 (非推奨)。 5
  4. etcd 代替 (Amazon RDS) • 弊社内プロジェクトにてetcd の代替を検討 ◦ 担当者「etcd はチケットが多いので避けたい」

    • 結果 ◦ etcd の替わりに k3s + Amazon RDS で構築し問題な く動作中。 ◦ Kubernetesアップグレード時のディスクアクセス増加 の影響を受けない。 ◦ Amazon RDS 自体のアップグレードは随時必要。 6
  5. その他の etcd 代替 • Google spanner ◦ Kubernetes 公式では 1

    クラスタに 5000 ノードが上限 [1] だが etcd の替わりに Spanner を 使い GKE で 65000 ノードをサポート [2]。 • カスタム etcd ◦ etcd の替わりにカスタム etcd を使用して EKS で 100,000 ノードをサポート [3]。 7 [1] https://kubernetes.io/docs/setup/best-practices/cluster-large/ [2] https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-65k-nodes-and-counting?hl=ja [3] https://aws.amazon.com/jp/blogs/containers/under-the-hood-amazon-eks-ultra-scale-clusters/
  6. Supportability Review とは • 本来: クラスタをスキャンし、サポート対象であるか確認 ◦ 適切な Kubernetes バージョンや

    OS を使用しているか等。 ◦ かつては弊社 Premium Support Engineer が 4 週間掛けていた作業を自動化。 • クラスタ内の様々な問題を見つけるツールに発展 ◦ セキュリティ面の問題を確認。 ▪ コンテナイメージ → Trivy。 ▪ Kubernetes 設定 → kube-bench。 ▪ Rancher 設定 → Supportability Review。 https://github.com/rancher/rancher/security/advisories/GHSA-64jq-m7rq-768h • コミュニティ版もご提供予定 9