Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRETT#8 障害対応のススメ

shohei.takamura
December 18, 2023
580

SRETT#8 障害対応のススメ

shohei.takamura

December 18, 2023
Tweet

Transcript

  1. 自己紹介 - Name - Shohei Takamura (@hakushou41) - Role -

    SREやCCoEを支援する人 - チームマネジメント - Career - MSP事業部8年経験した後に、2023/1月よ り、株式会社スリーシェイク Sreake事業部 所属 - X - @hakushou41 - Github - @hakushou41 Copyright © 3-shake, Inc. All Rights Reserved.
  2. はじめに - 話すこと - 学べることが多いので、新しく所属した運用フェーズ組織で新人 SREは第一歩として、エキスパートSREとペアで障害対応・障害 訓練しよう(ソフトランディングしよう) - ※突然本番オンコール担当させるという話ではないです -

    対象 - 新人SREの方や開発チーム(スクラムチーム)の運用に関わる方 - 何から手をつける? - どこから関わろう? - 新人SREを受け入れるエキスパートSREの方 - 何から手をつけて貰えばいい? - どう課題をやって貰えばいい? Copyright © 3-shake, Inc. All Rights Reserved.
  3. 組織のフェーズごとに顕在化する運用課題 (現実) - 運用フェーズことはじめ - アラートが設定されていない箇所がある - 外形監視(CUJ)・SLI/SLOを設定・運用していない - アラートが鳴っても放置・再発している

    - 改善をする体制・仕組みを組めていない Copyright © 3-shake, Inc. All Rights Reserved. ※1 ※1:クリティカルユーザージャーニー https://sreake.com/blog/sre-next-2022eventreport/
  4. 組織のフェーズごとに顕在化する運用課題 (現実) • X年経過し組織が急拡大 → 人も入れ替わる ◦ マイクロサービス化に伴い複雑化するサービス ◦ ドキュメント・構成図はあるがメンテナンスされない

    ◦ ツール導入した人がいなくなる → 担当者が不在のツール・システムが増加 ◦ 既存サービスの障害対応を新サービスの開発とリリースで手が回らないからやら ない・やれない・やりきれない・やりたくない ▪ 新規開発・導入している方が定量的で評価しやすいのは課題 ▪ 新しいことは情報が少ないため、難易度が高いことが多い ◦ インシデント対応が属人化 ◦ 過去のインシデント対応の知見が記録されない ◦ インシデント対応に対する解像度が低いことが課題 ◦ 勤務体系としてオンコール持てない or ベストエフォート Copyright © 3-shake, Inc. All Rights Reserved.
  5. 新人SRE教育の8つの指針 Copyright © 3-shake, Inc. All Rights Reserved. 新人SRE教育の8つの指針 -

    具体的で順序立てられた学習体験を設計 - リバースエンジニアリング、統計的な志向、基本原則に基づく作業 - ポストモーテムを読み、障害の分析を推奨する - リアルな障害を人工的に発生させ、本物のモニタリングやツールを用いて修復させる - 障害のロールプレイングをグループで行う(不運の輪) - オンコールローテーションにシャドウとして参加し、自分のノートをメインのオンコール担当のノート と比較する - エキスパートのSREとペアを組み、オンコールトレーニング計画の目的セッションを見直す - 単純ではないプロジェクト作業を切り出して渡し、サービススタック中の一部を受け持つ機会を与える ※2 :「SREサイトリライアビリティエンジニアリング」 28章より抜粋 ※2
  6. 障害対応で身につくこと Copyright © 3-shake, Inc. All Rights Reserved. - 新人SRE

    - 障害対応に必要なスキルを身につく - 学べることが大量にある - ドメイン・サービス知識 - アーキテクチャ構成 - ネットワーク構成 - アプリケーション構成 - 各種ツールの利用方法 - 組織体制への興味・把握 - 学びながらアウトプットをゴールにすれば、ドキュメントの最新化もできる - エキスパートSRE - 把握しきれていない部分が明らかになってくる - 指針のなかでやれることを増やす
  7. 障害対応がおすすめの理由 Copyright © 3-shake, Inc. All Rights Reserved. - やってみると楽しい

    - 大事なのでやる - 課題解決した時の達成感がある - メンバーからの信頼感が上がる → システムの信頼性が上がる - まずはヒロイズムでもいいと思う - その後に属人化解消・ヒロイズム解消に繋げる - システムに対する愛着がわく ※3 ※3: 障害などに対処して、システムを救う人
  8. ペアの障害対応とその先へ - お互いが巻き込みペアとなって対応する - 可能な体制ならシャドーオンコール・シャドーローテーション - インシデントマネジメントツールを使おう - ポストモーテムを書いてみよう+知見をためてみよう -

    振り返りをしよう → ためたものを新人SREが見れるようにしよう - 障害対応のために便利なツールはどんどん利用しよう - k8s環境のおすすめツール : Lens(OpenLens) - 先生としてのチャットボットAIの利用 - パフォーマンス観測会やSLOレポート会をしよう - 徐々に実践・定着するように小さく始めよう - reactive → proactiveへ - ツール・プラクティス・情報は揃っているのであとはみんなでやるだけ Copyright © 3-shake, Inc. All Rights Reserved.
  9. まとめ Copyright © 3-shake, Inc. All Rights Reserved. - 学べることが多いので、新しく所属した運用フェーズ組織で新人SREは

    第一歩として、エキスパートSREとペアで障害対応しよう - 障害対応大事ですよね - 属人化解消・ヒロイズム解消 大事ですよね - 新人SRE と エキスパートSREのお互いの地道な努力で成り立つ - どちらか一方の努力ではうまくいかないです - 人とインシデントマネジメント文化を育てる - 実践・定着が課題 - 個人としては、オーナーシップ・イニシアティブ・巻き込み・Enablingが課題で実践できて いないことが多い → とりあえずもがいている - 強い言葉を使っても何も始まらないので地道に泥臭くやっていきたい - 優しい世界でありますように