Upgrade to Pro — share decks privately, control downloads, hide ads and more …

事業フェーズの変化を乗り越えるEnabling/Platform SREへの転換 / Tran...

事業フェーズの変化を乗り越えるEnabling/Platform SREへの転換 / Transition to Enabling/Platform SRE to overcome changes in business phase

登壇者名:星野 貴信
登壇したイベントタイトル:SRE NEXT 2024
登壇したイベントのURL:https://sre-next.dev/2024/
登壇したイベントの登壇者URL:https://sre-next.dev/2024/schedule/#jp020

More Decks by 株式会社ビットキー / Bitkey Inc.

Other Decks in Technology

Transcript

  1. 2 Copyright © 2024 Bitkey Inc. All right reserved. Outline

    1. ビットキーSREチームの現在 2. チームトポロジーとビットキーのSRE 3. Embedded SRE to Enabling/Platform SRE 4. Enabling/Platform SREとして実践している活動内容の紹介 5. まとめ
  2. 3 Copyright © 2024 Bitkey Inc. All right reserved. 自己紹介

    星野 貴信 Hoshino Takanobu 2020.01 2022.11~ 株式会社LCL バックエンドエンジニアとしてサービス運用改善を中 心にAWS、Terraform、GitHub Actions、Mackerelの 活用をリード 株式会社ビットキー SREとして入社。主にオブザーバビリティ、CI/CDを担 当する。SETとしてサービス品質向上の活動もしてい る これが本物です 技術本部 プラットフォーム開発部 SRE/SET
  3. 5 Copyright © 2024 Bitkey Inc. All right reserved. 会社紹介

    3つのhubシリーズ - 私たちの「⽣活」における全てに価値提供を 「暮らし」は、もっと便利にできる 働き⽅に、⾃由とパワーを ⼈⽣は、感動的だ ⼈⽣すべてのシーンで体験性を向上させることを⽬指し、⼈⽣における体験をHome(暮らし)、Workspace(働く)、Experience(⾮⽇常)と3つの領域に分けて設計。 「⾮⽇常体験」 ⾃分の「好き」に没頭しよう その体験は、もっと特別な時間に 「仕事∕働く」 あらゆる「働く空間」とそこで「働く⼈や業務」をつなぎ、 仕事をもっと快適に 「暮らし」 あなたの暮らしは、テクノロジーで変わる 住宅の⽇常は、より便利な体験へ
  4. 6 Copyright © 2024 Bitkey Inc. All right reserved. Outline

    1. ビットキーSREチームの現在 2. チームトポロジーとビットキーのSRE 3. Embedded SRE to Enabling/Platform SRE 4. Enabling/Platform SREとして実践している活動内容の紹介 5. まとめ
  5. 7 Copyright © 2024 Bitkey Inc. All right reserved. 1.

    ビットキーSREチームの現在 2024年8月時点のSREチーム SRE SRE以外の SREing支援メンバー 2人 4人 SRE: サイトリライアビリティエンジニア SREチーム: サイトリライアビリティエンジニアチーム SREing: サイトリライアビリティエンジニアリング
  6. 8 Copyright © 2024 Bitkey Inc. All right reserved. 1.

    ビットキーSREチームの現在 2024年8月のSREチーム 事業横断チーム homehub workhub Designer Web Mobile Designer Web Mobile Software QA QA⽀援 技術⽀援 Edge R&D SRE Firmware QA Firmware Data Hardware QA Hardware BKP Product Manager Product Manager
  7. 9 Copyright © 2024 Bitkey Inc. All right reserved. 1.

    ビットキーSREチームの現在 2024年8月のSREチーム 事業横断チーム homehub workhub Designer Web Mobile Designer Web Mobile Software QA QA⽀援 技術⽀援 Edge R&D SRE Firmware QA Firmware Data Hardware QA Hardware BKP Product Manager Product Manager
  8. 10 Copyright © 2024 Bitkey Inc. All right reserved. Outline

    1. ビットキーSREチームの現在 2. チームトポロジーとビットキーのSRE 3. Embedded SRE to Enabling/Platform SRE 4. Enabling/Platform SREとして実践している活動内容の紹介 5. まとめ
  9. 11 Copyright © 2024 Bitkey Inc. All right reserved. 2.

    チームトポロジーとビットキーのSRE チームトポロジーとは? • チームトポロジーとは、ソフトウェア開発チームの組織化を記述するモデルです。Matthew Skelton とManuel Paisによって開発されました。 • チームトポロジーでは、4つの形態のチームと3つのインタラクションモードが定義されています。ビ ジネス機能中心のチームが価値あるソフトウェアの流れを提供できるように、健全なインタラクショ ンを促すモデルです。 Martin Fowler’s Bliki(ja)より引用 https://bliki-ja.github.io/TeamTopologies
  10. 12 Copyright © 2024 Bitkey Inc. All right reserved. 2.

    チームトポロジーとビットキーのSRE 4つの形態 • 4つの形態は次の名前がついています ◦ ストリームアラインドチーム ◦ イネーブリングチーム ◦ コンプリケイテッド・サブシステムチーム ◦ プラットフォームチーム • 3つのインタラクションは次の名前がついています ◦ X-as-a-Serviceモード ◦ コラボレーションモード ◦ ファシリテーションモード
  11. 13 Copyright © 2024 Bitkey Inc. All right reserved. 2.

    チームトポロジーとビットキーのSRE 4つの形態の詳細 • ストリームアラインドチーム ◦ いわゆるプロダクトを開発するチームのことで、フルスタックやフルサイクルであることが望ま しい • プラットフォームチーム ◦ ストリームアラインドチームの共通の課題を解決したり、認知負荷を低減する社内サービスやプ ラットフォームを開発・運用するチーム • イネイブリングチーム ◦ 特定の技術領域に関する専門家集団のチームで、ストリームアラインドチームが自律的活動でき るように教育や指導を通して支援するチーム • コンプリケイテッド・サブシステムチーム ◦ 複雑なサブシステムやコンポーネントを開発するチーム Stream-aligned team Platform team Enabling team Complicated Subsystem team
  12. 14 Copyright © 2024 Bitkey Inc. All right reserved. 2.

    チームトポロジーとビットキーのSRE 3つのインタラクションの詳細 • X-as-a-Serviceモード ◦ プラットフォームがストリームアラインド に対するサービスとして振る舞う • コラボレーションモード ◦ 2つのチームが探索を目的として 協力する • ファシリテーティングモード ◦ ストリームアラインドを コーチングする Collaboration XaaS Facilitating
  13. 15 Copyright © 2024 Bitkey Inc. All right reserved. 2.

    チームトポロジーとビットキーのSRE チームトポロジーとSRE • 書籍”チームトポロジー”におけるSREはストリームアラインドチームの位置付け • フルサイクルの開発チームが信頼性に向き合う状態が理想的 • You build it, you run it. (Werner Vogels, Amazon CTO)
  14. 16 Copyright © 2024 Bitkey Inc. All right reserved. 2.

    チームトポロジーとビットキーのSRE チームトポロジーとSRE • 初めから全てのチームがSREingを実践できるかと言われると難しい • そのためチームのSREing実践を支えるSREやSREチームが必要となる  • SREの支援をチームトポロジーに当てはめてみると大きく次のパターンに分類できる  • Embedded SRE ◦ SREがストリームアラインドの中に直接入って活動するパターン • Enabling SRE ◦ SREがストリームアラインドを外部から支援するパターン • Platform SRE ◦ インフラなど信頼性に関わるプラットフォームを開発提供するパターン Embedded SRE Platform SRE Enabling SRE Embedded SRE
  15. 17 Copyright © 2024 Bitkey Inc. All right reserved. 2.

    チームトポロジーとビットキーのSRE チームトポロジーとSRE
  16. 18 Copyright © 2024 Bitkey Inc. All right reserved. 2.

    チームトポロジーとビットキーのSRE Embedded SREの詳細 • SREが直接ストリームアラインドに参加してSREingを実践するパターン • Pros ◦ 開発運用の課題を直接解決する ◦ 密なコラボレーション • Cons ◦ 属人化の恐れがある ◦ ナレッジやプラクティスの他チームへの展開が難しい Embedded SRE Platform SRE Enabling SRE Embedded SRE
  17. 19 Copyright © 2024 Bitkey Inc. All right reserved. 2.

    チームトポロジーとビットキーのSRE Enabling SREの詳細 • ストリームアラインドのSREingを外部から支援する • 排他的な存在ではないのでEmbedded SREがいるチームとコラボレーションも可能 • Pros ◦ チーム横断でナレッジやプラクティスを展開できる ◦ 開発者によるSREingの実践を促進する • Cons ◦ タスクの対応優先度で負けることがありがち ◦ 事業への理解度から効果的な解決策を打ち出すの難しいこともある Embedded SRE Platform SRE Enabling SRE Embedded SRE
  18. 20 Copyright © 2024 Bitkey Inc. All right reserved. 2.

    チームトポロジーとビットキーのSRE Platform SREの詳細 • プラットフォームとしてSREingにまつわるサービスを提供する • プラットフォームはサービス実行基盤、オブザーバビリティ、CI/CDなど多岐にわたる • Pros ◦ ストリームアラインドのセルフサービスを可能にする ◦ 共通の課題を一元的に集約して解決可能 • Cons ◦ 小規模チームではオーバーエンジニアリングの恐れ ◦ 開発に利用するツールやサービスを自由に選択することとトレードオフ Embedded SRE Platform SRE Enabling SRE Embedded SRE
  19. 21 Copyright © 2024 Bitkey Inc. All right reserved. 2.

    チームトポロジーとビットキーのSRE ここまでのまとめ • チームトポロジーのモデルを利用してSREの活動を分類 • 目的を意識してインタラクションを選択 Embedded SRE Platform SRE Enabling SRE Embedded SRE
  20. 22 Copyright © 2024 Bitkey Inc. All right reserved. Outline

    1. ビットキーSREチームの現在 2. チームトポロジーとビットキーのSRE 3. Embedded SRE to Enabling/Platform SRE 4. Enabling/Platform SREとして実践している活動内容の紹介 5. まとめ
  21. 23 Copyright © 2024 Bitkey Inc. All right reserved. 3.

    Embedded SRE to Enabling/Platform SRE ビットキーのSREチーム 2022~2023 • ビットキーのSREチームはEmbedded SREを中心にSREingの活動をしていた • Home領域とWork領域それぞれにEmbedded SREを配置 • プラクティスの横展開やプラットフォーム的な動きもあり • 共通基盤チームはSREこそいないがSREingの活動を自律的に実施 Home領域(Embedded SRE) 共通基盤(SREなし) Work領域(Embedded SRE)
  22. 24 Copyright © 2024 Bitkey Inc. All right reserved. •

    2022年はWork領域の成長・拡大に伴いこれまで以上に高い信頼性が求められるようになった • 2022年中頃からWork領域に注力するため全SREsが移動 • SREsが重要課題解決のために別領域にも着手 • 将来派生するチームのベースもこの辺りから活動が本格化 ◦ コンプリケイテッド・サブシステムとしてのIoT Edgeチーム ◦ イネイブリングとしてのSETチーム • Home領域も引き続き成長しており、 重要度が下がったわけではないが相対的に手薄に… Home領域(SREなし) 共通基盤(SREなし) Work領域(Embedded SRE) 3. Embedded SRE to Enabling/Platform SRE ビットキーのSREチーム 2022~2023 移動
  23. 25 Copyright © 2024 Bitkey Inc. All right reserved. 3.

    Embedded SRE to Enabling/Platform SRE Work領域のSREingを注力した結果 • Pros ◦ プロダクトの開発・運用の改善が大きく進んだ ▪ SREing以外の多くの重要課題も協力することになった ▪ SLOの安定はまだまだ • Cons ◦ 運用タスクやトイルはSREが拾うことが多く、チーム内でサイロ化が進む ◦ もう一つのHome領域にSREingの横展開が難しい
  24. 26 Copyright © 2024 Bitkey Inc. All right reserved. 3.

    Embedded SRE to Enabling/Platform SRE チームトポロジーとSREを再掲 • 書籍チームトポロジーにおけるSREはストリームアラインドチームの位置付け • 開発者がシステム運用も行い信頼性に向き合う状態が理想的と考える • You build it, you run it. (Werner Vogels, Amazon CTO) ストリームアラインドが一丸となってSREingに向き合えてい るかというと、まだまだ距離がある状態であった
  25. 27 Copyright © 2024 Bitkey Inc. All right reserved. 3.

    Embedded SRE to Enabling/Platform SRE 2023年中頃に大再編 • 2023年の中頃にプロダクト開発組織全体の再編があった • その流れでSREチームは組織横断チームに変更 ◦ 長く携わったメンバーのチーム移動や卒業も • Enabling SREとして再出発 • Home領域もカバーしていく • さらなる事業拡大に備えた プラットフォーム的な動きも増加中 Home領域(SREなし) 共通基盤(SREなし) Work領域(SREなし) IoT Enabling SRE NEW! [WIP]Platf orm SRE
  26. 28 Copyright © 2024 Bitkey Inc. All right reserved. Outline

    1. ビットキーSREチームの現在 2. チームトポロジーとビットキーのSRE 3. Embedded SRE to Enabling/Platform SRE 4. Enabling/Platform SREとして実践している活動内容の紹介 5. まとめ
  27. 29 Copyright © 2024 Bitkey Inc. All right reserved. 4.

    Enabling/Platform SREとして実践している活動内容の紹介 ストリームアラインドとのSRE定例 • ストリームアラインドとの定例MTGをEnabling SREの活動基盤としている • 隔週で開催 ◦ 初めは毎週だったがアサインしたタスクの進捗を考慮して二週間に1回に変更 • 参加者は全員ではないがストリームアラインドの主要なメンバーを呼ぶ • 主なMTGアジェンダ ◦ SLOを全員で眺める ◦ 新規SLI・SLOの策定相談 ◦ 開発・運用にまつわる課題の共有 from SRE ◦ 開発・運用にまつわる課題の共有 to SRE ◦ インシデント発生後には簡易的なポストモーテムの実施
  28. 30 Copyright © 2024 Bitkey Inc. All right reserved. 4.

    Enabling/Platform SREとして実践している活動内容の紹介 SLOを全員で眺める • SLOはSREがただ策定するだけでは、運用や活用をしてもらうのは難しい • 特にビットキーは提供プロダクトのバリエーションが多くSLOに影響する変数も多いため、理解する のも一苦労する ◦ Web API ◦ 外部連携システム ◦ ファームウェア ◦ ハードウェア • SLOの推移とそこから得られるインサイトをSREがチームに共有 ◦ 改善対応に繋げていく • SREが開発者にSLOの状態を質問することもある ◦ この数字で問題は発生していない? ◦ 不安定な状態が解消されるまではアラートをあげる閾値を変更しますか? • チーム全体で眺めることでSLOの理解を深める
  29. 31 Copyright © 2024 Bitkey Inc. All right reserved. 4.

    Enabling/Platform SREとして実践している活動内容の紹介 インシデント発生後の簡易的なポストモーテムの実施 • 大小を問わずインシデント発生後に簡易的なポストモーテムを実施 ◦ 内容をみて正式にポストモーテムするかを決定 • インシデントからの学びを共有 • 開発チームに対応方針を委ね、チームの自律を促す • SREチームを通じてインシデントからの学びを他チームにも展開
  30. 32 Copyright © 2024 Bitkey Inc. All right reserved. 4.

    Enabling/Platform SREとして実践している活動内容の紹介 ファシリテーティングのインタラクションで大事にしていること • 開発者が自律的に課題に向き合うことを重視して、SREが全てを解決しな いように気を付ける • Embedded SREの体制で課題になっていた属人化やサイロ化を防ぐべく、 ナレッジやプラクティスの横展開を重視
  31. 33 Copyright © 2024 Bitkey Inc. All right reserved. 4.

    Enabling/Platform SREとして実践している活動内容の紹介 Platform SREとしての活動も開始 • Home領域、Work領域で共通の課題のうち、機能として提供可能なものは、共通化してサービスとし て提供する ◦ CI/CD、オブザーバビリティ、DB運用、セキュリティなど ◦ 現時点で2チームなのでプラットフォームと呼べるほどの規模ではないが、将来の拡大に備えて SREが主導して投資していく ◦ 成果物の提供方法をシステム化するため、サービスカタログの導入を検討
  32. 34 Copyright © 2024 Bitkey Inc. All right reserved. 4.

    Enabling/Platform SREとして実践している活動内容の紹介 現状の課題とこれから • SLO運用にまつわる課題 ◦ 事業領域が広く、システム規模も拡大する中でSLOによるモニタリングは十分に事業をカバーし ているとは言えない ◦ SLO自体の認知度は組織内で増してきたが、エラーバジェットの扱いはまだまだ ◦ SREチームが作成したSLOを渡して運用してもらうのではなく、開発者が主導してSLOを策定し て運用していけるようににしたい • 責任範囲の課題 ◦ 改善活動においてストリームアラインドとSREのどちらが責任を持つのか曖昧になり、お見合い してしまうことが発生 ◦ 責任範囲の明確化をして円滑なコミュニケーションを実現したい
  33. 35 Copyright © 2024 Bitkey Inc. All right reserved. Outline

    1. ビットキーSREチームの現在 2. チームトポロジーとビットキーのSRE 3. Embedded SRE to Enabling/Platform SRE 4. Enabling/Platform SREとして実践している活動内容の紹介 5. まとめ
  34. 36 Copyright © 2024 Bitkey Inc. All right reserved. •

    ビットキーは創業6年を迎え事業やチームの変化に伴いSREのあり方も変わってきた • チームトポロジーのインタラクションを意識して、現在はイネイブリングに注力 • ストリームアラインドの自律的なSREingを目指し、MTGを中心にSLOを始めとしたSREプラクティス の啓蒙に注力している • 事業と組織のさらなる拡大を見据えてプラットフォームSREの活動も進行中 5. まとめ
  35. 37 Copyright © 2024 Bitkey Inc. All right reserved. 宣伝

    SRE関連イベントのお知らせ スタートアップのSREが集まって、発表やディスカッションを わいわいするグループを立ち上げました!(スタートアップ以 外の方も大歓迎) 第二回を8/28(水)に開催するので参加をお待ちしております。 Startup Reliability Engineeringの会 (StREの会) https://stre.connpass.com