Slide 1

Slide 1 text

障害対応のススメ Copyright © 3-shake, Inc. All Rights Reserved. Dec. 18 2023 shohei.takamura - 3-shake SRE Tech Talk #8

Slide 2

Slide 2 text

自己紹介 - Name - Shohei Takamura (@hakushou41) - Role - SREやCCoEを支援する人 - チームマネジメント - Career - MSP事業部8年経験した後に、2023/1月よ り、株式会社スリーシェイク Sreake事業部 所属 - X - @hakushou41 - Github - @hakushou41 Copyright © 3-shake, Inc. All Rights Reserved.

Slide 3

Slide 3 text

免責事項 - 本セッションは個人の見解であり、所属組織の立場・戦略・意見を代表 するものではありません。 Copyright © 3-shake, Inc. All Rights Reserved.

Slide 4

Slide 4 text

はじめに - 話すこと - 学べることが多いので、新しく所属した運用フェーズ組織で新人 SREは第一歩として、エキスパートSREとペアで障害対応・障害 訓練しよう(ソフトランディングしよう) - ※突然本番オンコール担当させるという話ではないです - 対象 - 新人SREの方や開発チーム(スクラムチーム)の運用に関わる方 - 何から手をつける? - どこから関わろう? - 新人SREを受け入れるエキスパートSREの方 - 何から手をつけて貰えばいい? - どう課題をやって貰えばいい? Copyright © 3-shake, Inc. All Rights Reserved.

Slide 5

Slide 5 text

はじめに - 話さないこと - 具体的なプラクティス、事例、ツール、障害対応の流れ - 対象外 - 既に監視体制・新人SREのオンボーディング確立、インシデント マネジメントできている組織 Copyright © 3-shake, Inc. All Rights Reserved.

Slide 6

Slide 6 text

組織のフェーズごとに顕在化する運用課題 01 Copyright © 3-shake, Inc. All Rights Reserved.

Slide 7

Slide 7 text

組織のフェーズごとに顕在化する運用課題 (現実) - 運用フェーズことはじめ - アラートが設定されていない箇所がある - 外形監視(CUJ)・SLI/SLOを設定・運用していない - アラートが鳴っても放置・再発している - 改善をする体制・仕組みを組めていない Copyright © 3-shake, Inc. All Rights Reserved. ※1 ※1:クリティカルユーザージャーニー https://sreake.com/blog/sre-next-2022eventreport/

Slide 8

Slide 8 text

組織のフェーズごとに顕在化する運用課題 (現実) ● X年経過し組織が急拡大 → 人も入れ替わる ○ マイクロサービス化に伴い複雑化するサービス ○ ドキュメント・構成図はあるがメンテナンスされない ○ ツール導入した人がいなくなる → 担当者が不在のツール・システムが増加 ○ 既存サービスの障害対応を新サービスの開発とリリースで手が回らないからやら ない・やれない・やりきれない・やりたくない ■ 新規開発・導入している方が定量的で評価しやすいのは課題 ■ 新しいことは情報が少ないため、難易度が高いことが多い ○ インシデント対応が属人化 ○ 過去のインシデント対応の知見が記録されない ○ インシデント対応に対する解像度が低いことが課題 ○ 勤務体系としてオンコール持てない or ベストエフォート Copyright © 3-shake, Inc. All Rights Reserved.

Slide 9

Slide 9 text

組織のフェーズごとに顕在化する運用課題 一旦立ち止まって、土台を しっかりしませんか Copyright © 3-shake, Inc. All Rights Reserved.

Slide 10

Slide 10 text

運用課題が顕在化している組織で 新人SREとエキスパートSREがまず何をするのか 02 Copyright © 3-shake, Inc. All Rights Reserved.

Slide 11

Slide 11 text

新人SRE教育の8つの指針 Copyright © 3-shake, Inc. All Rights Reserved. 新人SRE教育の8つの指針 - 具体的で順序立てられた学習体験を設計 - リバースエンジニアリング、統計的な志向、基本原則に基づく作業 - ポストモーテムを読み、障害の分析を推奨する - リアルな障害を人工的に発生させ、本物のモニタリングやツールを用いて修復させる - 障害のロールプレイングをグループで行う(不運の輪) - オンコールローテーションにシャドウとして参加し、自分のノートをメインのオンコール担当のノート と比較する - エキスパートのSREとペアを組み、オンコールトレーニング計画の目的セッションを見直す - 単純ではないプロジェクト作業を切り出して渡し、サービススタック中の一部を受け持つ機会を与える ※2 :「SREサイトリライアビリティエンジニアリング」 28章より抜粋 ※2

Slide 12

Slide 12 text

新人SRE教育の8つの指針 Copyright © 3-shake, Inc. All Rights Reserved.

Slide 13

Slide 13 text

SRE新人教育の8つの指針 全部いきなり始めるのは難しいので... 新人SREはエキスパートSREと障害対応・障害訓練をペアで実施しよう Copyright © 3-shake, Inc. All Rights Reserved.

Slide 14

Slide 14 text

ペアの障害対応で身につくこととおすすめの理由 03 Copyright © 3-shake, Inc. All Rights Reserved.

Slide 15

Slide 15 text

障害対応で身につくこと Copyright © 3-shake, Inc. All Rights Reserved. - 新人SRE - 障害対応に必要なスキルを身につく - 学べることが大量にある - ドメイン・サービス知識 - アーキテクチャ構成 - ネットワーク構成 - アプリケーション構成 - 各種ツールの利用方法 - 組織体制への興味・把握 - 学びながらアウトプットをゴールにすれば、ドキュメントの最新化もできる - エキスパートSRE - 把握しきれていない部分が明らかになってくる - 指針のなかでやれることを増やす

Slide 16

Slide 16 text

障害対応がおすすめの理由 Copyright © 3-shake, Inc. All Rights Reserved. - やってみると楽しい - 大事なのでやる - 課題解決した時の達成感がある - メンバーからの信頼感が上がる → システムの信頼性が上がる - まずはヒロイズムでもいいと思う - その後に属人化解消・ヒロイズム解消に繋げる - システムに対する愛着がわく ※3 ※3: 障害などに対処して、システムを救う人

Slide 17

Slide 17 text

ペアの障害対応とその先へ 04 Copyright © 3-shake, Inc. All Rights Reserved.

Slide 18

Slide 18 text

ペアの障害対応とその先へ - お互いが巻き込みペアとなって対応する - 可能な体制ならシャドーオンコール・シャドーローテーション - インシデントマネジメントツールを使おう - ポストモーテムを書いてみよう+知見をためてみよう - 振り返りをしよう → ためたものを新人SREが見れるようにしよう - 障害対応のために便利なツールはどんどん利用しよう - k8s環境のおすすめツール : Lens(OpenLens) - 先生としてのチャットボットAIの利用 - パフォーマンス観測会やSLOレポート会をしよう - 徐々に実践・定着するように小さく始めよう - reactive → proactiveへ - ツール・プラクティス・情報は揃っているのであとはみんなでやるだけ Copyright © 3-shake, Inc. All Rights Reserved.

Slide 19

Slide 19 text

まとめ 05 Copyright © 3-shake, Inc. All Rights Reserved.

Slide 20

Slide 20 text

まとめ Copyright © 3-shake, Inc. All Rights Reserved. - 学べることが多いので、新しく所属した運用フェーズ組織で新人SREは 第一歩として、エキスパートSREとペアで障害対応しよう - 障害対応大事ですよね - 属人化解消・ヒロイズム解消 大事ですよね - 新人SRE と エキスパートSREのお互いの地道な努力で成り立つ - どちらか一方の努力ではうまくいかないです - 人とインシデントマネジメント文化を育てる - 実践・定着が課題 - 個人としては、オーナーシップ・イニシアティブ・巻き込み・Enablingが課題で実践できて いないことが多い → とりあえずもがいている - 強い言葉を使っても何も始まらないので地道に泥臭くやっていきたい - 優しい世界でありますように

Slide 21

Slide 21 text

勝手に宣伝 Copyright © 3-shake, Inc. All Rights Reserved. https://incident-response.connpass.com/event/304636/

Slide 22

Slide 22 text

Thank You Copyright © 3-shake, Inc. All Rights Reserved.