Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRETT#8 障害対応のススメ
Search
shohei.takamura
December 18, 2023
800
3
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SRETT#8 障害対応のススメ
shohei.takamura
December 18, 2023
Featured
See All Featured
Everyday Curiosity
cassininazir
0
230
The Curse of the Amulet
leimatthew05
1
13k
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
200
30 Presentation Tips
portentint
PRO
1
330
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
150
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
600
The Curious Case for Waylosing
cassininazir
1
390
The Pragmatic Product Professional
lauravandoore
37
7.3k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Building Adaptive Systems
keathley
44
3.1k
Chasing Engaging Ingredients in Design
codingconduct
0
220
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
240
Transcript
障害対応のススメ Copyright © 3-shake, Inc. All Rights Reserved. Dec. 18
2023 shohei.takamura - 3-shake SRE Tech Talk #8
自己紹介 - Name - Shohei Takamura (@hakushou41) - Role -
SREやCCoEを支援する人 - チームマネジメント - Career - MSP事業部8年経験した後に、2023/1月よ り、株式会社スリーシェイク Sreake事業部 所属 - X - @hakushou41 - Github - @hakushou41 Copyright © 3-shake, Inc. All Rights Reserved.
免責事項 - 本セッションは個人の見解であり、所属組織の立場・戦略・意見を代表 するものではありません。 Copyright © 3-shake, Inc. All Rights
Reserved.
はじめに - 話すこと - 学べることが多いので、新しく所属した運用フェーズ組織で新人 SREは第一歩として、エキスパートSREとペアで障害対応・障害 訓練しよう(ソフトランディングしよう) - ※突然本番オンコール担当させるという話ではないです -
対象 - 新人SREの方や開発チーム(スクラムチーム)の運用に関わる方 - 何から手をつける? - どこから関わろう? - 新人SREを受け入れるエキスパートSREの方 - 何から手をつけて貰えばいい? - どう課題をやって貰えばいい? Copyright © 3-shake, Inc. All Rights Reserved.
はじめに - 話さないこと - 具体的なプラクティス、事例、ツール、障害対応の流れ - 対象外 - 既に監視体制・新人SREのオンボーディング確立、インシデント マネジメントできている組織
Copyright © 3-shake, Inc. All Rights Reserved.
組織のフェーズごとに顕在化する運用課題 01 Copyright © 3-shake, Inc. All Rights Reserved.
組織のフェーズごとに顕在化する運用課題 (現実) - 運用フェーズことはじめ - アラートが設定されていない箇所がある - 外形監視(CUJ)・SLI/SLOを設定・運用していない - アラートが鳴っても放置・再発している
- 改善をする体制・仕組みを組めていない Copyright © 3-shake, Inc. All Rights Reserved. ※1 ※1:クリティカルユーザージャーニー https://sreake.com/blog/sre-next-2022eventreport/
組織のフェーズごとに顕在化する運用課題 (現実) • X年経過し組織が急拡大 → 人も入れ替わる ◦ マイクロサービス化に伴い複雑化するサービス ◦ ドキュメント・構成図はあるがメンテナンスされない
◦ ツール導入した人がいなくなる → 担当者が不在のツール・システムが増加 ◦ 既存サービスの障害対応を新サービスの開発とリリースで手が回らないからやら ない・やれない・やりきれない・やりたくない ▪ 新規開発・導入している方が定量的で評価しやすいのは課題 ▪ 新しいことは情報が少ないため、難易度が高いことが多い ◦ インシデント対応が属人化 ◦ 過去のインシデント対応の知見が記録されない ◦ インシデント対応に対する解像度が低いことが課題 ◦ 勤務体系としてオンコール持てない or ベストエフォート Copyright © 3-shake, Inc. All Rights Reserved.
組織のフェーズごとに顕在化する運用課題 一旦立ち止まって、土台を しっかりしませんか Copyright © 3-shake, Inc. All Rights Reserved.
運用課題が顕在化している組織で 新人SREとエキスパートSREがまず何をするのか 02 Copyright © 3-shake, Inc. All Rights Reserved.
新人SRE教育の8つの指針 Copyright © 3-shake, Inc. All Rights Reserved. 新人SRE教育の8つの指針 -
具体的で順序立てられた学習体験を設計 - リバースエンジニアリング、統計的な志向、基本原則に基づく作業 - ポストモーテムを読み、障害の分析を推奨する - リアルな障害を人工的に発生させ、本物のモニタリングやツールを用いて修復させる - 障害のロールプレイングをグループで行う(不運の輪) - オンコールローテーションにシャドウとして参加し、自分のノートをメインのオンコール担当のノート と比較する - エキスパートのSREとペアを組み、オンコールトレーニング計画の目的セッションを見直す - 単純ではないプロジェクト作業を切り出して渡し、サービススタック中の一部を受け持つ機会を与える ※2 :「SREサイトリライアビリティエンジニアリング」 28章より抜粋 ※2
新人SRE教育の8つの指針 Copyright © 3-shake, Inc. All Rights Reserved.
SRE新人教育の8つの指針 全部いきなり始めるのは難しいので... 新人SREはエキスパートSREと障害対応・障害訓練をペアで実施しよう Copyright © 3-shake, Inc. All Rights Reserved.
ペアの障害対応で身につくこととおすすめの理由 03 Copyright © 3-shake, Inc. All Rights Reserved.
障害対応で身につくこと Copyright © 3-shake, Inc. All Rights Reserved. - 新人SRE
- 障害対応に必要なスキルを身につく - 学べることが大量にある - ドメイン・サービス知識 - アーキテクチャ構成 - ネットワーク構成 - アプリケーション構成 - 各種ツールの利用方法 - 組織体制への興味・把握 - 学びながらアウトプットをゴールにすれば、ドキュメントの最新化もできる - エキスパートSRE - 把握しきれていない部分が明らかになってくる - 指針のなかでやれることを増やす
障害対応がおすすめの理由 Copyright © 3-shake, Inc. All Rights Reserved. - やってみると楽しい
- 大事なのでやる - 課題解決した時の達成感がある - メンバーからの信頼感が上がる → システムの信頼性が上がる - まずはヒロイズムでもいいと思う - その後に属人化解消・ヒロイズム解消に繋げる - システムに対する愛着がわく ※3 ※3: 障害などに対処して、システムを救う人
ペアの障害対応とその先へ 04 Copyright © 3-shake, Inc. All Rights Reserved.
ペアの障害対応とその先へ - お互いが巻き込みペアとなって対応する - 可能な体制ならシャドーオンコール・シャドーローテーション - インシデントマネジメントツールを使おう - ポストモーテムを書いてみよう+知見をためてみよう -
振り返りをしよう → ためたものを新人SREが見れるようにしよう - 障害対応のために便利なツールはどんどん利用しよう - k8s環境のおすすめツール : Lens(OpenLens) - 先生としてのチャットボットAIの利用 - パフォーマンス観測会やSLOレポート会をしよう - 徐々に実践・定着するように小さく始めよう - reactive → proactiveへ - ツール・プラクティス・情報は揃っているのであとはみんなでやるだけ Copyright © 3-shake, Inc. All Rights Reserved.
まとめ 05 Copyright © 3-shake, Inc. All Rights Reserved.
まとめ Copyright © 3-shake, Inc. All Rights Reserved. - 学べることが多いので、新しく所属した運用フェーズ組織で新人SREは
第一歩として、エキスパートSREとペアで障害対応しよう - 障害対応大事ですよね - 属人化解消・ヒロイズム解消 大事ですよね - 新人SRE と エキスパートSREのお互いの地道な努力で成り立つ - どちらか一方の努力ではうまくいかないです - 人とインシデントマネジメント文化を育てる - 実践・定着が課題 - 個人としては、オーナーシップ・イニシアティブ・巻き込み・Enablingが課題で実践できて いないことが多い → とりあえずもがいている - 強い言葉を使っても何も始まらないので地道に泥臭くやっていきたい - 優しい世界でありますように
勝手に宣伝 Copyright © 3-shake, Inc. All Rights Reserved. https://incident-response.connpass.com/event/304636/
Thank You Copyright © 3-shake, Inc. All Rights Reserved.