Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Google Kubernetes Engine (GKE) の可観測性を活用し、 システムの...
Search
GoogleCloudPlatformJapan
December 21, 2025
Business
96
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Google Kubernetes Engine (GKE) の可観測性を活用し、 システムの Resiliency を高める障害原因調査
GoogleCloudPlatformJapan
December 21, 2025
More Decks by GoogleCloudPlatformJapan
See All by GoogleCloudPlatformJapan
「原因不明なナゾの障害」で終わらないための Kubernetes のログの徹底活用
googlecloudjapan
0
450
15 分で学ぶ Cloud Run のユースケースと代表的なアーキテクチャパターン
googlecloudjapan
3
790
Google Cloud の スペシャリストと学ぶ! BigQuery & Gemini
googlecloudjapan
0
260
ログから学ぶKubernetes
googlecloudjapan
1
740
GKE Enterprise 徹底解説
googlecloudjapan
2
1.3k
Cloud Run で作るサーバーレス アーキテクチャ 30 連発 - これのときはこう!
googlecloudjapan
32
12k
実践!サーバーレス RAG 構築:Firestore ベクトル検索と VertexAI LLM 活用
googlecloudjapan
2
3k
実践!サーバーレス RAG 構築:Firestore ベクトル検索と VertexAI LLM 活用
googlecloudjapan
0
450
Cloud Run で作るサーバーレス アーキテクチャ 30 連発 - これのときはこう!
googlecloudjapan
1
410
Other Decks in Business
See All in Business
エンジニアのためのコミュニケーション術
zashii
1
450
CompanyDeck_v6.5.pdf
xid
3
27k
メンバーズ会社紹介資料/Members company brochure
members_recruiting
0
37k
コミュニケーション術を強化するのにオススメな本9冊
zashii
0
450
AIをマイクロマネジメントしない ~プロダクトと組織を、同じ原則で動かす~
shokikitajima8823
0
300
Copilotの監査ログはどこまでみれるのか
ponponmikankan
4
2k
Nishika_採用ピッチ資料
nishika_kae
0
120
開発時間2時間!gemma 4で動くローカルAIマルチエージェント構築(Python標準ライブラリ縛り)
hideyuki_ogawa
0
250
malna-recruiting-pitch
malna
0
22k
【エンジニア採用】BuySell Technologies会社説明資料
buyselltechnologies
3
97k
プリザンターの紹介 - OpenSourceConference 2026 SENDAI
s_pochi
0
150
AWTTの歩き方〜Tableau編〜
leafyoh
0
240
Featured
See All Featured
How to train your dragon (web standard)
notwaldorf
97
6.7k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
140
Making Projects Easy
brettharned
120
6.7k
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
220
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
330
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
480
30 Presentation Tips
portentint
PRO
1
320
How GitHub (no longer) Works
holman
316
150k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Google's AI Overviews - The New Search
badams
0
1k
Transcript
Google Kubernetes Engine (GKE) の可観測性を活用し、 システムの回復性を高める障害原因調査
02 石井 翔 Google Cloud Technical Solutions Engineer @kyasbal_k @kyasbal
03 石井 翔 Google Cloud Technical Solutions Engineer Google Cloud
のテクニカル サポートの エンジニア = @kyasbal_k @kyasbal
04 Kubernetes は運用をどう変えたか
05 Kubernetes は運用をどう変えたか
06 Kubernetes は運用をどう変えたか 数多くの運用のオペレーションが自動化されるようになった
07 Kubernetes は運用をどう変えたか 数多くの運用のオペレーションが自動化されるようになった 数多くの運用のオペレーションが人の手元から離れて実行されるようになった
08 運用の変化により障害の形も変化した
09 運用の変化により障害の形も変化した
010 運用の変化により障害の形も変化した ダイナミックで自動化された運用パターンが容易に実現できるようになった 一方、 リアルな運用で発生する障害発生時に求められる対応はとても難しくなった
011 障害の形が変化し、可観測性に求められるレベルは高い
012 障害の形が変化し、可観測性に求められるレベルは高い
013 障害の形が変化し、可観測性に求められるレベルは高い 例: GKE のデフォルトのメトリクスダッシュボード (様々なクラスタ上のイベントと関連づけてくれる )
014 障害の形が変化し、可観測性に求められるレベルは高い 例: GKE のデフォルトのメトリクスダッシュボード (様々なクラスタ上のイベントと関連づけてくれる ) しかし、Kubernetes のクラスタに「可観測性」 がある。
もう今の時代ではもちろん当然 ですよね。
015 障害の形が変化し、可観測性に求められるレベルは高い 例: GKE のデフォルトのメトリクスダッシュボード (様々なクラスタ上のイベントと関連づけてくれる ) しかし、Kubernetes のクラスタに「可観測性」 がある。
もう今の時代ではもちろん当然 ですよね。 →その「可観測性」 を活用して様々なダウンタイムを分析し、根本 原因を見つけ、クラスタの Resiliency を高めていくイテレーションを 回せていますか?
016 特に障害原因の断定に必要な「ログ」を活用できてますか
017 特に障害原因の断定に必要な「ログ」を活用できてますか
018 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア ログだけからリソースの状態をタイムラインにして可視化、特定のタ イミングでのリソースの変化を差分表示
019 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア ログだけからリソースの状態をタイムラインにして可視化、特定のタ イミングでのリソースの変化を差分表示 ログだけからあるタイミングのリソースの分布を可視化
020 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア docker run -p 127.0.0.1:8080:8080 gcr.io/kubernetes-history-inspector/release:latest KHI はコマンド 1 つで起動 : (Cloud Shellの場合) (あくまでログビューアなのでクラスタにエージェント等は一切導入不要 )
021 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア 起動したらログ収集 に必要な情報を入 れるだけ GKE 等は クラスタ名等を 入れると自動でログフィルタが生 成され自動で収集 その他のクラスタではログファイル を KHI にペースト
022 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア しばらく待つとログビューア画面ができてログをわかりやすく分析できる
023 障害調査のデモ シナリオ: critical-service という名前の Service にノードプールのアップグレード中にアク セスできなくなった。ノードプールのアップデート中は確かに Node は順次ドレイン
されていくが、PodDisruptionBudget(PDB) にはminAvailable:1 が指定されて いる。何故だろうか?
024 まとめ GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! ← 昨日新しいバージョン
(0.50.0) をリリースしました 🎉