Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
手を動かさないインシデント対応〜自動化で迅速・正確な運用を目指す〜
Search
Kazuto Kusama
June 05, 2024
Technology
3
290
手を動かさないインシデント対応〜自動化で迅速・正確な運用を目指す〜
インシデントマネジメント 事態収拾のための取り組みに迫る Lunch LT でお話しした資料です
Kazuto Kusama
June 05, 2024
Tweet
Share
More Decks by Kazuto Kusama
See All by Kazuto Kusama
エンジニアとしてのキャリアを支える自宅サーバー
jacopen
9
6.3k
Grafana x PagerDuty Better Together
jacopen
1
470
「共通基盤」を超えよ! 今、Platform Engineeringに取り組むべき理由
jacopen
26
7.3k
いろんな外資、いろんなロールで働いてみた話
jacopen
14
4.8k
サービスの危機に立ち向かうリーダーシップ~インシデントコマンダーの役割と戦略~
jacopen
20
6.4k
5分でわかる(かもしれない)Platform Engineering
jacopen
4
840
ChatOpsで回す、クラウドネイティブな組織運営
jacopen
1
220
2024年のPlatform Engineeringはこうなる(なってほしい)
jacopen
7
3.9k
技術の洪水に立ち向かう: 開発者の心を軽くするプラットフォームエンジニアリングの話
jacopen
12
6.5k
Other Decks in Technology
See All in Technology
オブジェクト指向考古学 〜人類は再びDCIの夢を見るか〜
a_suenami
4
880
明日使えるかもしれないLoss Functionsのアイディアと実装
ftakahashi
PRO
3
200
オンプレADを昇降格したらAWS上のシステムのいろんなところが通信できなくなった話
hamijay_cloud
1
280
VS CodeとVimが好きなエンジニアが考えた最強のエディタ
miura55
0
130
Spring Boot 2.7 から 3.1 への アップグレードに苦労したことと学んだこと
kometsubu
2
230
生成AI向け機械学習クラスタ 構築のレシピ 北海道石狩編
pfn
PRO
3
620
クラウドネイティブな省エネサービスの内製開発で、BizDevOpsを実現する / Achieving BizDevOps in in-house development of cloud-native energy-saving services
genkiogasawara
1
270
最後に勝つ負け方を知っておく
applepine1125
1
280
変化と挑戦:NoSQLとNewSQL Serverless Databaseの技術革新とマルチテナンシーの秘密
yoshiitaka
18
4k
20240617_IAM MFAのパスキー対応を理解したい_今更多要素認証とパスキーについてキャッチアップしてみた
hiashisan
0
280
[TimeTree] Aurora から Spanner への 移行の決断と背景
3utama
2
2.6k
自分の学習データで画像生成AIを使ってみる話
moyashi
2
170
Featured
See All Featured
Principles of Awesome APIs and How to Build Them.
keavy
122
16k
RailsConf 2023
tenderlove
11
630
What's in a price? How to price your products and services
michaelherold
238
11k
Why You Should Never Use an ORM
jnunemaker
PRO
51
8.8k
WebSockets: Embracing the real-time Web
robhawkes
59
7.1k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
275
13k
The Mythical Team-Month
searls
217
42k
The MySQL Ecosystem @ GitHub 2015
samlambert
244
12k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
15
1.6k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
247
20k
The Straight Up "How To Draw Better" Workshop
denniskardys
228
130k
No one is an island. Learnings from fostering a developers community.
thoeni
16
2.2k
Transcript
手を動かさないインシデント対応 自動化で迅速・正確な運用を目指す PagerDuty Product Evangelist Kazuto Kusama @jacopen
Kazuto Kusama @jacopen Product Evangelist @PagerDuty Japan Organizer @Platform Engineering
Meetup Founder @Cloud Native Innovators Association
のほうから来ました
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
ライフサイクル全体を通して、インシデントの状況をリアルタイムで可視化 インシデントを特定 ⾃動処理 運⽤改善のための 知⾒を提供 最適な担当者に通知 迅速な解決を⽀援 あらゆるツールから イベントを受信 架電、 SMS、メール Appプッシュ通知、チャット ⾃動エスカレーション スケジュール管理 診断‧修復作業の⾃動化 チーム内外と円滑に連携 クラウド コンテナ マイクロサービス ネットワーク アプリ‧サービス セキュリティ データベース サーバー ソーシャル PagerDuty Operations Cloud インシデントをより早く‧少ないリソースで解決 / 将来のインシデントを未然に防ぐ 担当者が最適な 通知⽅法を選択 対応履歴 MTTA/MTTR 分析 担当者の負荷状況 ポストモーテム 解決のヒントを提⽰ • 過去の類似インシデント • 直近の構成/コード変更 ...etc. 80%-99% ノイズ削減 700+ Integrations
こういう話をよくする 最近PagerDutyに 転職したんですよー おー、使ってますよ! 良いサービスですよね
こういう話をよくする 最近PagerDutyに 転職したんですよー あんまり 見たくはないけど
あんまり見たくはない サービス
インシデント発生中ってこんな感じ Zzzz
インシデント発生中ってこんな感じ !!! PagerDuty Alert You have one triggered incident on…
インシデント発生中ってこんな感じ CIO 一体 どうなってるんだ! 現状を 教えてください! 今何が起きてるの! スココン スココン アラート
動かない! ユーザー担当 別チーム ユーザー
None
インシデント対応中は色々あぶない • あらゆる方面からプレッシャーがかかる • 通知が荒ぶる • 早く直さなきゃという焦り • 深夜だと頭がまだ回ってない •
そもそも対応する人が1人とは限らない • 知識、経験がバラバラ ⇒ 普段ではやらないようなミスも起きうる ⇒ 二次災害の危険性が高い
そりゃ苦い思い出にもなるわな・・・
少しでも楽にするにはどうすればいいか 今回の本題とは異なりますが、イン シデントコマンダーの元で対応する ようにしましょう。 Developers Summitで登壇した 資料を公開済みなので見てみてく ださい
少しでも楽にするにはどうすればいいか 自動化をしていきましょう
少しでも楽にするにはどうすればいいか イベント の検知 影響範囲 の調査 原因調査 復旧対応 フォロー アップ 作業
作業 作業 作業 作業 作業
少しでも楽にするにはどうすればいいか イベント の検知 影響範囲 の調査 原因調査 復旧対応 フォロー アップ 自動
作業 作業 自動 自動 作業
まずはRunbookを作る まずはRunbook (手順書)を作っておく いきなり自動化に着手するのはおすすめしない • 場当たり的なスクリプトは超危険 • 安易な自動化で二次災害になったケース多数 • まずはWhat
-> Where -> Howを意識した洗い出し • 何を改善するのか (What) • どこに課題があるのか (Where) • どう解決するのか(How)
まずはRunbookを作る 【ステップ 1】Runbookの内容を検討する 1. 最も多く発生するインシデントや業務は何か? 2. その業務における最善の解決策は何か ? 【ステップ2】Runbookを作成する •
シンプルかつ明確な表現を使い、細かい点は省略する • 誰にでも理解しやすい言葉で表現する • 特定のプロセスに沿って具体的に説明する • システムやアプリケーションに変更が生じた際にも対 応できるように、フレキシブルな方法にする ルーティン業務を劇的に改善する 「Runbook(ランブック)」とは?
次に自動化に着手 ちゃんとRunbookを作って運用を回していくと、「あるべ き形」の自動化が見えてくる 例) 時間をかけて社内wikiの情報を探し回る その場しのぎのスクリプトやツールを使う すぐにエスカレーションする システム運用を自動化 ! ランブック自動化のDevOps/SRE環
境におけるメリットや活用法
次に自動化に着手 自動化をすることで • 待ち時間と応答時間の短縮 • 業務の中断やエスカレーション頻度の減少 • 運用品質の向上 などが見込める。 実現方法は色々
• シェルスクリプト • Python • Ansible • Rundeck
次に自動化に着手 問題が起きたときにシンプルな方法で実行できる形を考えていく ChatOpsとの組み合わせも良い選択肢 結果の通知
イベントドリブンの自動化へ • イベントを受け取った時点で自動的に 発動させる • 人間が対応を開始する時には 既に諸々の調査が済んでいる
イベントドリブンの自動化へ Event • Diagnostic ◦ 調査の自動化 • Remediation ◦ 修復の自動化
イベントドリブンの自動化へ Teams 通話 (ZoomもOK) Slack チャンネル (TeamsもOK) JIRAや ServiceNow と連携
必要な環境を自動生成 手作業は少なければ少ないほど良い!
どんなときでも 迅速で正確な運用を していきましょう
None
None