OpenShiftクラスターのアップグレード自動化への挑戦！ / OpenShift Cluster Upgrade Automation

OpenShiftクラスターのアップグレード自動化への挑戦！ Red Hat K.K. Solution Architect / Sales

Copyright © 2023 Red Hat K.K. All Rights Reserved. 2
自己紹介北村慎太郎 Red Hat - Specialist Solution Architect - OpenShiftを中心としたプリセールス過去にSREチーム立ち上げ経験あり #Kubernetes #OpenShift #AWS #GCP #Terraform

なぜ OpenShiftアップグレードが必要なのか？ 3

コンテナ導入に期待する価値開発アジリティの向上 Agility トータルコストの削減 Optimize 安定したサービス維持 Steady コンテナではアプリケーション開発者の判断で、リソースを調達できるので、新規開発や変更が迅
速に行える。自律的な運用により、障害が起きても人の手を借りずにすぐに復旧が行われ、安定的に動作するように設計されている。インフラリソースは抽象化されており、必要なリソースを定義すると、動的にアプリケーションに適したリソースが払い出される。開発・運用を支援する多数の機能豊富なセキュリティ機能と迅速なパッチ提供 Red Hatのスペシャリストによるサポート 4

5 クラスターアップグレードの必要性新機能の追加バグのFIX セキュリティ対策サポート • OpenShiftは日々開発が行われ、開発・運用の効率化を促進するための新機能が追加されていく •
OpenShift導入の目的を継続的に達成するためには、新機能をうまく活用していくことが必要 • OpenShiftではKubernetesのリリースサイクルに従いながらセキュリティパッチを提供する • 利用者は定期的にセキュリティパッチを適用することで脆弱性を突いた攻撃を防御する • Kuberntes/OpenShiftはソフトウェアのため、バグが混入している可能性がある • バグの対応は基本的にパッチリリースを適用（アップグレード）する形になる • 性能向上や安定化もパッチリリースに含まれる • OpenShiftはKubernetesのリリースサイクルに準拠した形で新バージョンがリリースされる • Kubernetesのサポート期間が1年間のため、OpenShiftもある程度その期間に縛られた形でサポート期間を設定されているコンテナ導入効果の最大化には、 OpenShiftの継続的なアップグレードが必要

OpenShift アップグレード戦略 6

OpenShiftのアップグレード Master Node Kubernetes API (etcd/api) ホストOS(CoreOS) クラスタ管理サービス (クラスタOperator) Worker
Node ホストOS(CoreOS) Kubernetesコンポーネント (kubelet, CRI-O) Master Nodeのアップグレード Kubernetes API: etcd/apiなどのコアコンポーネントクラスタ管理サービス : PrometheusやCNIなどのCluster Operator ホストOS: CoreOSのライブアップグレード Worker Nodeのアップグレード Kubernetesコンポーネント: CNI, kubeletなどの管理対象コンポーネント One-click Upgrade 運用者 OTAアップグレード対象外のコンポーネント・ユーザーでインストールした Operator ・ユーザーがデプロイした Kubernetes Manifest ワンクリックでOpenShiftクラスタをアップグレードする「 Over-the-Air (OTA) Upgrade」機能を提供しており、コンポーネントごとの管理が不要です。 7

8 アップグレード戦略アプリへの影響アプリのSLO/SLAは？人的コストアップグレードにかけられる稼働は？インフラコストアップグレードにかけられるリソースは？
リスクアップグレード失敗時の影響は？様々な要素をもとに最適なアップグレード方式を検討 ①In-placeアップグレード ②Blue/Greenアップグレード Cluster 01 OpenShift 4.9→4.10 Cluster 01 OpenShift 4.9→4.10 Load Balancer 1st upgrade Cluster 02 OpenShift 4.9→4.10 2nd upgrade アクセス制御単一クラスターでアップグレードを実行複数クラスターで順番にアップグレードアップグレード前に対象のクラスターをサービスアウト OpenShiftのアップグレードには、単一クラスターのみで実施する In-placeアップグレードと、複数クラスターを活用する Blue/Greenアップグレード戦略があります。アプリケーションの SLOやアップグレードに許容できるコストを鑑みて適切な戦略を採用します。

In-placeアップグレード In-place方式では、搭載しているワークロードの可用性を維持しながらアップグレードを完了する必要があります。 Blue/Green方式に比べてアプリへの影響が発生しやすいため、アプリケーションの構成やマニフェストの設定における考慮が必要です。 NodeA OCP 4.9→4.10 NodeB OCP4.9 NodeA OCP
4.10 NodeB OCP 4.9→4.10 Stateful Data Stateful Data In-placeアップグレード In-place Blue/Green 1ノード分のPodが起動できる余剰が必要クラスター内の別のノードからもアクセス可能な構成を取っておくノードの再起動に備え静的データをクラスター外部に切り出しておく 9

Blue/Greenアップグレードマルチクラスター構成を取り Blue/Greenアップグレードを実施することで、ノード停止を意識せずに安全にアップグレードを実現できます。各クラスターのアップグレードは OpenShiftのOTAアップグレードにて対応します。 In-place Blue/Green Load Balancer
Cluster A Cluster B OpenShift 4.9 OpenShift 4.9 Service Out Load Balancer Cluster A Cluster B OpenShift 4.9 OpenShift 4.9→4.10 Upgrade Load Balancer Cluster A Cluster B OpenShift 4.9 OpenShift 4.10 ①サービスアウト ②バージョンアップ ③サービスイン Blue/Greenアップグレード Service Out User User User Stateful Data Stateful Data Stateful Data サービスアウトした後でアップグレードを実施 10

11 アップグレードに伴う事前検証可能な限り環境を合わせる Compute Resource OS Version (Source/Destination) Operator
Workload (Deployment/Service) Cluster Resource (Namespace/ClusterRole) Infrastructure Resource クラスター構成アップグレード戦略（Rolling/BG/etc…） Compute Resource OS Version (Source/Destination) Operator Workload (Deployment/Service) Cluster Resource (Namespace/ClusterRole) Infrastructure Resource クラスター構成アップグレード戦略（Rolling/BG/etc…） Develop / Staging Production 採用するアップグレード手法に関わらず、アプリケーションが正常に動作することを事前に検証した上でアップグレードを実行します。アップグレード前後の確認はできるだけ商用に近しい環境で実施することが推奨されます。 In-place Blue/Green

12 各アップグレード方式の比較 In-placeアップグレード Blue/Greenアップグレードインフラのコスト ◯ ・単一クラスターのため低コスト × ・複数クラスターが必要なため高コスト作業コスト
◯? ・OTAアップグレード実行のみ（メンテナンスウィンドウを設けるならアプリチームとの調整が必要） × ・2つのクラスターの準備、両クラスターへのアプリデプロイ、切り替え作業などが発生アプリSLAへの影響度 × ・メンテナンスウィンドウの設定やノード再起動によってアプリのSLAに影響を及ぼす可能性が高い ◯ ・LBやDNSの切り替えでサービスアウトした上でアップグレードするためアプリへの影響を最小化できるアップグレード失敗時の対処 × ・切り戻し不可・RHサポートと連携して失敗原因を取り除くが、解決するまではサービス断が発生 ◯ ・正常なクラスターへ切り戻し後、失敗の原因調査が可能アプリ設計への考慮 × ・Drainに備えてマニフェストの設計の考慮が必要（メンテナンスウィンドウが設けられるなら省力化が可能）・ステートフルデータの外部データ管理が必要 △ ・ステートフルデータの外部データ管理が必要インフラ設計への考慮 △ ・クラスター内からのノードから外部データアクセスが必要 × ・クラスター間からの外部データアクセスが必要・ユーザーアクセスの上段切り替え用の LBやDNSの設置が必要採用方針・メンテナンスウィンドウが許容できる・失敗時、トラブルシューティング中のサービス断を許容できる・アップグレードに対するコストを最優先にしたい（多少のリスクを許容する）・商用環境以外のクラスター（開発・テスト環境など）・コスト削減よりもアプリ停止のリスクの最小化を優先したい・アップグレード失敗時の切り戻し方法を準備しておきたい・複数クラスターからアクセスできるデータベースやオブジェクトストレージを準備できる

13 👆 ここまで前段ここから本番 👇

14 “アップグレードをしない”という選択 OpenShift自体をImmutableなインフラストラクチャと捉え、アップグレードを使わずに新バージョンでクラスターを作成後、アプリケーションを移行するといった戦略も検討できます。クラスターアップグレード（In-place）運用者新バージョンクラスター作成
アプリケーションデプロイ旧バージョンクラスター削除クラスターアップグレード（Blue）通信切り替えクラスターアップグレード（Green）通信切り替え

Blue/Greenアップグレードの派生系 Load Balancer Cluster A Cluster B OpenShift 4.9 OpenShift
4.9 Service Out Load Balancer Cluster A Cluster C OpenShift 4.9 OpenShift 4.10 Create Load Balancer ①サービスアウト ②クラスター作成 ③サービスインクラスターをアップグレードするのではなく、新しいバージョンで新規作成し、切り替え後に旧クラスターを削除します。 Blue/Greenアップグレード(Recreate) User User User Stateful Data Stateful Data Stateful Data 新しいバージョンのクラスターを再作成 Cluster B OpenShift 4.9 Cluster A Cluster C OpenShift 4.9 OpenShift 4.10 Cluster B OpenShift 4.9 切り替え後問題なければクラスターを削除通常のB/Gと同様、ステートフルデータはクラスター外に切り出しておく Destroy 15

16 【参考】クラスター再構築の必要性 • OpenShift/Kubernetesクラスター自体の障害復旧に対しては再構築が基本対応となる • 再構築したクラスターを障害前と同様の状態にするために必要なものや作業内容を検討する 2.PVリストア
4.サービス切替必要なもの・クラスタ構成 (install-config.yaml) ・クラスター用マニフェスト必要なもの・PVのバックアップデータ必要なもの・アプリ用マニフェスト・コンテナイメージ作業ステップ・以前のクラスタと同じ論理構成で OpenShiftクラスタを再構築する・クラスター用マニフェストをデプロイする (ResourceQuota/Operatorなど) 作業ステップバックアップデータを用いてPV内のデータリストアを行う作業ステップ・アプリ用マニフェストを再適用する作業ステップロードバランサーなど、サービスの提供に必要なOpenShift外の機器・コンポーネントの設定を必要に応じて変更する App再配置・起動 1.クラスタ再構築 3.マニフェスト再適用

17 【参考】ROSAのサービス定義例

18 GitOpsによるクラスターの早期構築 Gitリポジトリに置かれたコードを信頼する唯一の情報源 “Single Source of Truth” とみなし、コードとインフラを常に同じ状態に保つ運用のベストプラクティスを GitOpsと呼びます。クラスターの構成や設定情報をコードで管理することで、クラスター構築を自動化し
高頻度のアップグレードに対応できるようになります。 Stateful Data IaCツール (Ansible/Terraform) K8s Cluster Manifset K8s Workload Manifset CI/CDツール (Tekton/ArgoCD) Application Code Deployment Service Configmap Namespace Role/ RoleBinding Quota Operator CustomResource User Network Security Monitoring IAM Batch Storage Compute OCP v4.9 Infra Code 破棄して新規に構築開発者運用者 CI/CDツール (Tekton/ArgoCD) Network Security Monitoring IAM Batch Storage Compute OCP v4.10 Git Repository Git Repository Git Repository Database Object Storage ‥‥ ‥‥ Deployment Service Configmap Namespace Role/ RoleBinding Quota Operator CustomResource User ‥‥ ‥‥

19 アップグレードの自動化（例） OpenShift Tekton Pipelines Load Balancer Cluster A Cluster
B OpenShift 4.9 OpenShift 4.10 Create User Cluster A Cluster B OpenShift 4.9 OpenShift 4.10 User Load Balancer Destroy Create Cluster App Deploy System Test Modify Routing Health Check Destroy Cluster Cluster Setting Operator Infra Code K8s Cluster Manifset Push K8s Workload Manifset

B OpenShift 4.9 OpenShift 4.10 Create User Cluster A Cluster B OpenShift 4.9 OpenShift 4.10 User Load Balancer Destroy Create Cluster App Deploy System Test Modify Routing Health Check Destroy Cluster Cluster Setting Operator Infra Code K8s Cluster Manifset Push K8s Workload Manifset そんな簡単に言うけどできるの・・・？😥

B OpenShift 4.9 OpenShift 4.10 Create User Cluster A Cluster B OpenShift 4.9 OpenShift 4.10 User Load Balancer Destroy Create Cluster App Deploy System Test Modify Routing Health Check Destroy Cluster Cluster Setting Operator Infra Code K8s Cluster Manifset Push K8s Workload Manifset やってみよう👍

クラスターアップグレードデモ Blue/Green アップグレードデモ 22

us-east-2 us-east-1 DB-VPC ROSA-1-VPC 23 B/G アップグレードデモ OpenShift git- clone
prepare- vpc-peering ROSA-1 ROSA-2-VPC ROSA-2 rosa- init create- cluster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config sample-blog openshift- gitops cluster-admin Tekton Pipeline Custom Task image app- frontend app- backend pull-secret app- frontend app- backend K8s Workload Manifset Infra Code K8s Cluster Manifest

prepare- vpc-peering ROSA-1 ROSA-2-VPC ROSA-2 rosa- init create- cluster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config sample-blog openshift- gitops cluster-admin Tekton Pipeline Custom Task image app- frontend app- backend pull-secret app- frontend app- backend K8s Workload Manifset Infra Code K8s Cluster Manifest Blue-App (ROSA) Green-App (ROSA) 自動化環境 (OpenShift on AWS)

us-east-1 DB-VPC ROSA-1-VPC 25 B/G アップグレードデモ OpenShift git- clone prepare-
vpc-peering Infra Code K8s Cluster Manifest ROSA-1 rosa- init create- cluster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config Tekton Pipeline Custom Task image app- frontend app- backend git-clone ・パイプライン全般で使用する各種マニフェストやterraformコードが格納されたリポジトリをCloneする

us-east-1 DB-VPC us-east-2 ROSA-1-VPC 26 B/G アップグレードデモ OpenShift git- clone
prepare- vpc-peering Infra Code K8s Cluster Manifest ROSA-1 rosa- init create- cluster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config Tekton Pipeline Custom Task image app- frontend app- backend rosa-init ・ROSAクラスターを構築する前の準備用コマンドを実行する　・rosa login 　・rosa init 　・rosa create account-roles

prepare- vpc-peering Infra Code K8s Cluster Manifest ROSA-1 ROSA-2-VPC ROSA-2 rosa- init create-c luster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config Tekton Pipeline Custom Task image app- frontend app- backend create-cluster ・ROSAクラスターの構築コマンドを実行する　・rosa create cluster

prepare- vpc-peering Infra Code K8s Cluster Manifest ROSA-1 ROSA-2-VPC ROSA-2 rosa- init create- cluster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config Tekton Pipeline Custom Task image app- frontend app- backend check-create ・ROSAクラスターのステータスが Readyになるまでチェックする　・rosa list cluster

prepare- vpc-peering Infra Code K8s Cluster Manifest ROSA-1 ROSA-2-VPC ROSA-2 rosa- init create- cluster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config Tekton Pipeline Custom Task image app- frontend app- backend prepare-vpc-peering create-vpc-peering ・ROSAクラスターのVPCとDBのVPC の間にVPCピアリングを張る・prepareではawsコマンドを使って VPC のIDを取得し、terraformのファイルに書き込む・createではterraformでVPCピアリングの設定を行う

prepare- vpc-peering Infra Code K8s Cluster Manifest ROSA-1 ROSA-2-VPC ROSA-2 rosa- init create- cluster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config cluster-admin Tekton Pipeline Custom Task image app- frontend app- backend create-cluster-admin ・ROSAクラスター内にCluster-admin ロールのユーザーを作成する　・rosa create admin

prepare- vpc-peering Infra Code K8s Cluster Manifest ROSA-1 ROSA-2-VPC ROSA-2 rosa- init create- cluster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config cluster-admin Tekton Pipeline Custom Task image app- frontend app- backend decrypt-secret ・AWS KMSであらかじめencryptしていたsecretファイルをdecryptする・ここでは後ほどデプロイする pull-secret情報をdecryptしている

prepare- vpc-peering Infra Code K8s Cluster Manifest ROSA-1 ROSA-2-VPC ROSA-2 rosa- init create- cluster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config sample-blog cluster-admin Tekton Pipeline Custom Task image app- frontend app- backend pull-secret app- frontend app- backend prepare-deploy ・アプリをデプロイする前の準備を行う　・アプリNamespaceを作成　・decryptしたpull-secretをデプロイ　・pull-secret情報をもとに管理用クラスターからイメージをインポート　　・oc import-image

prepare- vpc-peering Infra Code K8s Cluster Manifest ROSA-1 ROSA-2-VPC ROSA-2 rosa- init create- cluster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config sample-blog openshift- gitops cluster-admin Tekton Pipeline Custom Task image app- frontend app- backend pull-secret app- frontend app- backend argocd-install ・openshift-gitops Operatorをインストールする・Operatorのインストール状況をチェックし、完了したらアプリデプロイ用の ArgoCDのカスタムリソースをデプロイする

prepare- vpc-peering Infra Code K8s Cluster Manifest ROSA-1 ROSA-2-VPC ROSA-2 rosa- init create- cluster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config sample-blog openshift- gitops cluster-admin Tekton Pipeline Custom Task image app- frontend app- backend pull-secret app- frontend app- backend argocd-access-configuration ・argoCDへのアクセスに必要な情報（URL/adminパスワード）を取得する

prepare- vpc-peering Infra Code K8s Cluster Manifest ROSA-1 ROSA-2-VPC ROSA-2 rosa- init create- cluster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config sample-blog openshift- gitops cluster-admin Tekton Pipeline Custom Task image app- frontend app- backend pull-secret app- frontend app- backend K8s Workload Manifset sync-application ・argoCDに対してsyncを実行してアプリをデプロイする

prepare- vpc-peering Infra Code K8s Cluster Manifest ROSA-1 ROSA-2-VPC ROSA-2 rosa- init create- cluster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config sample-blog openshift- gitops cluster-admin Tekton Pipeline Custom Task image app- frontend app- backend pull-secret app- frontend app- backend K8s Workload Manifset change-route53-record ・アプリのアクセス URLをDNSレコードの設定変更で切り替える

prepare- vpc-peering Infra Code K8s Cluster Manifest ROSA-1 ROSA-2-VPC ROSA-2 rosa- init create- cluster create- cluster-admin decrypt- secret argocd- install prepare- deploy sync- application change- route53-record create- vpc-peering check- cluster argocd- access-config sample-blog openshift- gitops cluster-admin Tekton Pipeline Custom Task image app- frontend app- backend pull-secret app- frontend app- backend K8s Workload Manifset 完了！

38 今日のデモで伝えたかったことこれがベストプラクティス！（1週間程度で）アップグレードはここまで自動化できる！！ちゃんと動いたよね ...？自動化を恐れずに積極的に取り組んでいこう！！まだまだ検討要素はたくさんある・今回はROSAだったのでクラスターインストールが簡単だった。UPIインストールの場合はAnsibleやTerraformを使ってサーバの構築から自動化が必要・最低限のリソースのみをデプロイしていたが、Operatorやユーザー追加、RBACと事前に設定するものが増えるとその分自動化作業も増える
・Secret管理が難しい（事前にSealedSecretで暗号化したSecretをGitにアップすることができない）・単一アプリのみが載るクラスターを前提としていた。複数アプリが載っているともっと考慮事項が増える（これは手動でも同じ）・今回はアプリデプロイ後の正常性は手動で簡単に行ったが、本来はアプリのCIテストを間で実行する方が良い・モニタリングツールの外型監視などを使い、サービスへの影響が最小限に止まっているかを確認する・etc..

39 【参考】ROSAクラスターのアップグレード戦略高信頼性が求められるROSAクラスターでは、New Cluster構築による対応を推奨＜ROSA特有のメリット＞・サブスクリプションが時間単位での従量課金のため、クラスターの柔軟な増減に対応可能・Managedサービスのためデプロイ時の設定が限られており、クラスター構築の自動化が容易＜課題解決＞・アップグレードパスの考慮が不要・Operatorのバージョンを（パッチバージョンを含めて）指定することができる
＜その他のメリット＞・クラスターのステートに依存したエラーを回避できる　　・動作検証やエラー調査などの際、バージョンアップ前のクラスターの状態を考慮する必要がない

まとめ 40

41 変更に強い基盤でコンテナ導入効果の最大化を目指すアップグレードに必要な作業が多くてライフサイクルに追従できない‥‥ IaCやCI/CD、自動テストなどを積極的に活用してアップグレードの作業コストを削減するアプリケーションが停止しないための対策を実施する Kubernetes/OpenShiftの導入価値とアップグレードの
必要性を正しく理解する開発チームとのメンテナンスウィンドウの調整が難航する‥‥ 従来のインフラのように塩漬け運用できないか‥？従来の運用の考え方を適用すると‥‥ コンテナ環境に合わせた運用の変革アプリケーションだけでなくそれを支えるプラットフォームも ”変更に強い”状態を目指す OpenShiftアップグレードとの関わり方

linkedin.com/company/red-hat youtube.com/user/RedHatVideos facebook.com/redhatinc twitter.com/RedHat Thank you Red Hat is the
world’s leading provider of enterprise open source software solutions. Award-winning support, training, and consulting services make Red Hat a trusted adviser to the Fortune 500.

43 デモで使ったコードはこちら↓ https://github.com/skitamura7446/openshift-upgrade-automation

OpenShiftクラスターのアップグレード自動化への挑戦！ / OpenShift C...

OpenShiftクラスターのアップグレード自動化への挑戦！ / OpenShift Cluster Upgrade Automation

More Decks by Shintaro Kitamura

Other Decks in Technology

Featured

Transcript