Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE推進における失敗と成功 〜く"し"け"な"い"〜 - NIFTY Tech Day 2023

SRE推進における失敗と成功 〜く"し"け"な"い"〜 - NIFTY Tech Day 2023

ニフティ株式会社

November 27, 2023
Tweet

More Decks by ニフティ株式会社

Other Decks in Technology

Transcript

  1. Copyright ©NIFTY Corporation All Rights Reserved.
    SRE推進における失敗と成功
    〜く"し"け"な"い"〜
    会員システムグループ SREチーム
    2023-11-18
    浅見 則彦

    View full-size slide

  2. 浅見 則彦 / Asami Norihiko
    ● Work
    ○ 会員システムグループ / SREチーム - Tech Lead
    ○ SREギルドマスター
    ○ NIFTY Tech Talk 運営
    ● Communiy
    ○ AWS community builder | Cloud Operations
    rubihiko
    @rubihiko

    View full-size slide

  3. Copyright © NIFTY Corporation All Rights Reserved. 

    経緯・歴史

    3

    AWS PoC・移行〜
    2022

    2018
 2019
 2020
 2021

    AWS移行中〜安定化 SRE推進〜 SRE横展開〜
    SRE推進チームができるまで
    サービス毎のAWS移行が始まる
    PoC・サービス移行を全員で実施
    1サービス単位で移行を進め、
    1人大体3〜5サービスを担当する SREを全社的に横展開を進める
    SLI/SLOの設定、モニタリング、ポスト
    モーテム、障害対応ロールプレイングな
    どを中心に、SREアプローチの提案や
    SREsを増やすための活動を行う
    移行も大部分が完了
    システム不安定な部分が気になり始める
    クラウドに適した構成や自動化が求められる
    安定化PJを立ち上げシステム安定化を進める。
    SRE推進チームの前身となる活動がこれ

    View full-size slide

  4. 重点的に(意識して)取り組んでいる要素
    ● コミュニケーション
    ● イベント
    ● 環境

    View full-size slide

  5. 〜2023の状況
    コミュニケーション
    ● SREチーム人数増える
    ● SREギルド
    ● システム安定化WG
    ● SREs育成
    ○ SRE本輪読会
    ○ SLO本輪読会
    ○ クラウドネイティブ勉強会
    ● Enabling SRE / Embedded SRE
    ● Slack問い合わせ窓口
    環境
    ● SLI/SLO, FourKeys
    ● Production Readiness Checklist
    ● インシデント管理(PagerDuty)
    イベント
    ● SLO Workshop
    ● ポストモーテム共有会
    ● AWS GameDay(社内開催)
    ● SRE NEXT協賛

    View full-size slide

  6. 失敗と成功(改善)

    View full-size slide

  7. コミュニケーション

    View full-size slide

  8. コミュニケーション・文化醸造
    🤨失敗
    ● 浸透を急かしてしまった
    ● 複数のアプローチを同時に進行
    ● チーム目標に入れる約束ができな
    かった
    ● 成熟度の測定が進まなかった
    😁改善していきたいこと
    ● 文化浸透はゆっくり確実に
    ● ニフティの文化を尊重する
    ● スクラム実践しているチームでは導
    入はスムーズだった
    ● チーム目標に入れてもらう
    ● 成熟度は全体的なものではなく、
    チーム毎に決めるべきだった

    View full-size slide

  9. どの戦略を使った?
    ボトムアップで進める
    Embedded (Embedded SRE, Enabling
    SRE) とConsulting を使っていた
    https://cloud.google.com/blog/products/devops-sre/how-sre-teams-are-organized-and-h
    ow-to-get-started?hl=en
    どうして?
    組織で見るとサービスやシステムが沢山
    あるものの、チーム単位でプラットフォー
    ム、言語、DevOps体制が独立・異なって
    るため、小さい単位で始め、成功のモデ
    ルケースを増やしていき浸透させたかっ

    View full-size slide

  10. ● 上司や上司にお願いして回る
    ● 各チームからSREsを選出してもらう
    ● 横の連携を強くしないといけない
    ● ギルドの体制を整備する
    仲間を増やして活動を広げる
    ● 社内の公募制度を活用
    ○ 社内のチームを異動できる制度があります
    ● キャリア採用を活用
    SREギルド (各チームSREsの集まり)
    SRE推進チーム
    SREチームメンバー増加 / SREギルド結成 / 安定化WG

    View full-size slide

  11. SREギルド
    サービスA サービスB サービスC
    SRE(推進)チーム WG
    開発チーム(パートナー)
    運用チーム
    インフラチーム
    開発・運用チーム
    開発・運用・インフラチーム
    SREs
    SREs
    ※色々な部署のメンバー
    ※SREsの集まり
    SREs SREs SREs 技術・戦術支援
    ギルド運営
    チームで実践
    導入支援
    全社向けのガイドラインなど発信

    View full-size slide

  12. 地道な活動の継続
    Enabling SRE / Embedded SRE / 勉強会 / 問い合わせ窓口
    SREアプローチの支援・導入活動、SREsの勉強会をコツコツ続ける、気軽にSREチーム
    とコミュニケーションができる問い合わせ窓口の整備など

    View full-size slide

  13. イベント

    View full-size slide

  14. イベント
    🤨失敗
    ● イベント運営難しい
    ○ 盛り上げっているような、いな
    いような
    ○ 参加人数が安定しない
    ○ 進んでいる感がない
    ● 世の中の動き見てる?
    😁改善していきたいこと
    ● 少なくとも自分は盛り上がる(あげ
    る)
    ● サクラを仕込む
    ● 参加ハードルを下げる
    ○ 事前課題などは無し
    ● イベント協賛

    View full-size slide

  15. イベントを通じて学ぶ
    SLO Workshop / ポストモーテム共有会 / AWS GameDay(社内開催) / SRE NEXT協賛
    SRE・DevOps・品質に関係したワークショップを開催手を動かして学ぶ
    AWS様協力のもと、社内GameDay開催し実践しながら学ぶ
    SRE NEXTでは世の企業の取り組みを知り、広い知見を得てもらう
    ♥SRE NEXT 2023
    🦄社内GameDay

    View full-size slide

  16. ポストモーテム共有会
    みんなで共有にしない
    ともったいない

    View full-size slide

  17. ポストモーテム共有会
    会員システムG: 51名
    サブチーム: 11
    くらいのボリューム

    View full-size slide

  18. 環境
    🤨失敗
    ● 導入進捗が2極化
    ● メリットが伝わっていない
    ● 活用まで行かないケース
    ● 小さく始められない
    ● インシデント振り返りできていない
    😁改善していきたいこと
    ● SREsの育成や支援強化
    ● メリットを理解する
    ● お客様目線で考えてもらう
    ● 信頼性の価値
    ● テスト手法などの学習

    View full-size slide

  19. 環境の変化
    SLI/SLO / FourKeys / Production Readiness Checklist / PagerDuty
    全社的にSLI/SLOを設定していく・活用しましょうという流れ
    FourKeysも試験的に導入進めています(+SLO)
    インシデント管理・分析、エスカレーション高速化
    e-learning(テスト・障害対応)
    Udemyのラーニングパスでの学習
    UdemyはUdemy, Inc.の商標です

    View full-size slide

  20. SLI/SLO FourKeys
    Production Readiness Checklist
    PagerDuty
    ※サンプルデータが含まれており、実際の品質を提示するものではありません

    View full-size slide

  21. まとめ
    ● 文化の浸透は一気に効率よくやろうとすると逆に遅くなる
    ○ 変化は少しずつ起こす
    ● 環境への適用
    ○ 導入した、で終わらない体制を整える、改善のサイクルを回す
    ● 成長できる環境を作る
    ○ お願いベースではなく、一緒に成長できる環境を用意する
    ● イベント
    ○ 不定期よりも定期に継続したほうがよい

    View full-size slide