Upgrade to Pro — share decks privately, control downloads, hide ads and more …

幻滅期を越える サイトリライアビリティ エンジニアリング

Avatar for syossan27 syossan27
February 28, 2026
96

幻滅期を越える サイトリライアビリティ エンジニアリング

SRE Kaigi 2026 延長戦 ~ ゆるSRE勉強会もあるよ! ~の発表資料です。

Avatar for syossan27

syossan27

February 28, 2026
Tweet

More Decks by syossan27

Transcript

  1. しょっさん @syossan27 コミュニティ活動 SRE Kaigi 実⾏委員⻑ SRE Magazine 編集⻑ ゆるSRE勉強会

    共同運営 ⼀般社団法⼈ SREコネクト 代表理事 クラウドネイティブ会議 共同主催
  2. 1. 黎明期 - Technology Trigger 新技術や概念が注⽬される段階 実⽤例が少なく、将来的な価値が定まっていない 2. 過度な期待のピーク -

    Peak of Inflated Expectations メディアなどに持ち上げられ、実態以上に 評価されている状態 3. 幻滅期 - Trough of Disillusionment 実践することでの難しさ、コスト感など 壁にぶつかることでの評価の冷え込み 4. 啓発期 - Slope of Enlightenment 幻滅期に実践を続けた⽅がべスプラを⾒つけ出し、 現実的な評価を周りに広める 5. ⽣産性の安定期 - Plateau of Productivity 評価が落ち着き、当たり前の技術分野として受け⼊れ られ、定着する ガートナー‧ハイプ‧サイクルにおける現在地
  3. 多くのリーダーが、真のSRE導⼊には新しい原則への深いコミットメン ト、多⼤な投資、そして根本的なカルチャーシフトが必要であるという 現実に直⾯しています。 これは、運⽤チームやその他のチームの肩書きを変えるだけでは実現で きません。 - Gartner. Senior Director, Hassan

    Ennaciri つまりは「なんとなく始めてみた」けども、本当の意味でSREを実践するには多⼤な コストがかかるということに気付き始めた トイルの増⼤ catchpoint社によるSRE調査で、 25%のSREsが仕事の30%以上がト イルであると答え、前年の24%よ り悪化。 47% 信頼性問題の組織認知 信頼性について組織として取り扱 われているか?の問いに47%が否 定‧中⽴な回答。 信頼性というものが組織に受け⼊ れられていない現状。 背景にある構造的要因 先駆者の旅⽴ち 組織にSREを導⼊した先駆者が組織を去り、SREが 廃れるというパターン。 組織の変化が忌避される SREに対する投資価値などは理解され、⼀定の組み 込みは出来たが、組織として⼤きくやり⽅を変えら れていない。 継続投資への無理解 トイルの最適化や、DX改善、横断的なSREの実践 など⻑期的な⽬線で取り組まなければいけない が、そこまで投資をかける価値がないと判断されて しまう。 様々な現実と壁 何故、幻滅期に⼊ったか? 30%
  4. Case 02 SREIPS(SRE Intelligent Problem Solver)によるイベント駆動型インシデント管理 課題 複雑なK8sイベントが連鎖し、 根本原因(RCA)の特定に数時 間を要していた。

    分析 (RAG) 過去数年分のポストモーテムを 参照し、類似障害と照合。 結果 分析時間を⼤幅に圧縮。複雑な 障害の根本原因分析を短時間で 完了。 成果 MTTR(平均修復時間)が劇的 に改善。運⽤チームの認知負荷 を最⼩化。 AI × SREのモデルケース Case 01 AIによるクラウドリソースコスト最適化 課題‧検知 Optimizeエージェントが、夜 間や週末にリソース使⽤率が 数%未満の開発環境VM群を⾃ 動検知。 分析‧推奨 使⽤パターンを分析し、「未 使⽤リソースの⾃動停⽌」と 「サイズ縮⼩」を推奨。最適化 スクリプトを⾃動⽣成。 実⾏ 承認後、スクリプトを⾃動実⾏ し、対象VMのサイズ変更とス ケジュール停⽌設定を適⽤。 成果 ⽉額クラウドコストを⼤幅に 減らし、無駄な⽀出を即座に カット。
  5. トイルコストの最適化 組織におけるトイルによるコストをAIで削減。 機能拡⼤によるトイルの増加という⾯もあるが、解決ス ピードをどれだけ早めるかが鍵となる。 知識の構造化 ランブックやポストモーテムを、AIがクエリ可能なベクト ル形式へ変換。暗黙知を「使える形式知」にする。 これにより、チャットボットによる知識へのアクセスや、 AIのインシデントレスポンス精度を上げる。 予防的運⽤への転換

    Amazon DevOps Guruのような、事後対応(リアクティ ブ)から予兆検知(プロアクティブ)への転換により、ダ ウンタイム損失とインシデント対応コストを低減。 SREの価値を組織に証明 ビジネスKPIとSREメトリクスを連携し、AIが経営層向けの 信頼性レポーティングを⾃動⽣成。「幻滅期」の誤解を解 消し、SREの価値を証明する。 幻滅期における組織のコスト問題をAIで緩和し、啓発期にいけるといいね! 幻滅期を脱する:AI × SREによるコスト最適化