Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Google Kubernetes Engine (GKE) の可観測性を活用し、 システムの...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
GoogleCloudPlatformJapan
December 21, 2025
Business
96
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Google Kubernetes Engine (GKE) の可観測性を活用し、 システムの Resiliency を高める障害原因調査
GoogleCloudPlatformJapan
December 21, 2025
More Decks by GoogleCloudPlatformJapan
See All by GoogleCloudPlatformJapan
「原因不明なナゾの障害」で終わらないための Kubernetes のログの徹底活用
googlecloudjapan
0
450
15 分で学ぶ Cloud Run のユースケースと代表的なアーキテクチャパターン
googlecloudjapan
3
790
Google Cloud の スペシャリストと学ぶ! BigQuery & Gemini
googlecloudjapan
0
260
ログから学ぶKubernetes
googlecloudjapan
1
740
GKE Enterprise 徹底解説
googlecloudjapan
2
1.3k
Cloud Run で作るサーバーレス アーキテクチャ 30 連発 - これのときはこう!
googlecloudjapan
32
12k
実践!サーバーレス RAG 構築:Firestore ベクトル検索と VertexAI LLM 活用
googlecloudjapan
2
3k
実践!サーバーレス RAG 構築:Firestore ベクトル検索と VertexAI LLM 活用
googlecloudjapan
0
450
Cloud Run で作るサーバーレス アーキテクチャ 30 連発 - これのときはこう!
googlecloudjapan
1
410
Other Decks in Business
See All in Business
株式会社Beer and Tech/HitoHana(ひとはな) 採用資料 2026.06 .09
beerandtech_recruiter
1
47k
AI導入PJの勝ちパターン KPI設計&意図的な社内AI格差
okuwakim
1
840
HumanDriven 会社紹介資料 / HumanDriven Company Profile
humandriven
0
560
"分からないまま走る"をやめたら不確実性に向き合えるチームになっていった話 ~開発指標で語るプロセス改善~
bicstone
1
210
ログラス会社紹介資料 / Loglass Company Deck
loglass2019
17
550k
AIエージェントのデータガバナンスの最新事情。そしてプロダクトのAIファースト化
timakin
0
2.4k
株式会社ショーエイ_採用説明資料
shoeidex
0
120
プリザンターの紹介 - OpenSourceConference 2026 SENDAI
s_pochi
0
150
株式会社Domuz会社紹介資料(採用)
kimpachi_d
0
58k
HP掲載プラン
desaki
0
190
パーソルクロステクノロジー_DXソリューション本部のご紹介 / Introduction_of_dx
pxt_gs_ssol
0
2k
dotcue採用ピッチ2606.pdf
dotcue
0
110
Featured
See All Featured
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
6k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
210
Music & Morning Musume
bryan
47
7.2k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
170
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
250
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
230
The SEO Collaboration Effect
kristinabergwall1
1
480
AI: The stuff that nobody shows you
jnunemaker
PRO
8
700
Amusing Abliteration
ianozsvald
1
200
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
Discover your Explorer Soul
emna__ayadi
2
1.1k
Transcript
Google Kubernetes Engine (GKE) の可観測性を活用し、 システムの回復性を高める障害原因調査
02 石井 翔 Google Cloud Technical Solutions Engineer @kyasbal_k @kyasbal
03 石井 翔 Google Cloud Technical Solutions Engineer Google Cloud
のテクニカル サポートの エンジニア = @kyasbal_k @kyasbal
04 Kubernetes は運用をどう変えたか
05 Kubernetes は運用をどう変えたか
06 Kubernetes は運用をどう変えたか 数多くの運用のオペレーションが自動化されるようになった
07 Kubernetes は運用をどう変えたか 数多くの運用のオペレーションが自動化されるようになった 数多くの運用のオペレーションが人の手元から離れて実行されるようになった
08 運用の変化により障害の形も変化した
09 運用の変化により障害の形も変化した
010 運用の変化により障害の形も変化した ダイナミックで自動化された運用パターンが容易に実現できるようになった 一方、 リアルな運用で発生する障害発生時に求められる対応はとても難しくなった
011 障害の形が変化し、可観測性に求められるレベルは高い
012 障害の形が変化し、可観測性に求められるレベルは高い
013 障害の形が変化し、可観測性に求められるレベルは高い 例: GKE のデフォルトのメトリクスダッシュボード (様々なクラスタ上のイベントと関連づけてくれる )
014 障害の形が変化し、可観測性に求められるレベルは高い 例: GKE のデフォルトのメトリクスダッシュボード (様々なクラスタ上のイベントと関連づけてくれる ) しかし、Kubernetes のクラスタに「可観測性」 がある。
もう今の時代ではもちろん当然 ですよね。
015 障害の形が変化し、可観測性に求められるレベルは高い 例: GKE のデフォルトのメトリクスダッシュボード (様々なクラスタ上のイベントと関連づけてくれる ) しかし、Kubernetes のクラスタに「可観測性」 がある。
もう今の時代ではもちろん当然 ですよね。 →その「可観測性」 を活用して様々なダウンタイムを分析し、根本 原因を見つけ、クラスタの Resiliency を高めていくイテレーションを 回せていますか?
016 特に障害原因の断定に必要な「ログ」を活用できてますか
017 特に障害原因の断定に必要な「ログ」を活用できてますか
018 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア ログだけからリソースの状態をタイムラインにして可視化、特定のタ イミングでのリソースの変化を差分表示
019 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア ログだけからリソースの状態をタイムラインにして可視化、特定のタ イミングでのリソースの変化を差分表示 ログだけからあるタイミングのリソースの分布を可視化
020 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア docker run -p 127.0.0.1:8080:8080 gcr.io/kubernetes-history-inspector/release:latest KHI はコマンド 1 つで起動 : (Cloud Shellの場合) (あくまでログビューアなのでクラスタにエージェント等は一切導入不要 )
021 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア 起動したらログ収集 に必要な情報を入 れるだけ GKE 等は クラスタ名等を 入れると自動でログフィルタが生 成され自動で収集 その他のクラスタではログファイル を KHI にペースト
022 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア しばらく待つとログビューア画面ができてログをわかりやすく分析できる
023 障害調査のデモ シナリオ: critical-service という名前の Service にノードプールのアップグレード中にアク セスできなくなった。ノードプールのアップデート中は確かに Node は順次ドレイン
されていくが、PodDisruptionBudget(PDB) にはminAvailable:1 が指定されて いる。何故だろうか?
024 まとめ GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! ← 昨日新しいバージョン
(0.50.0) をリリースしました 🎉