Slide 1

Slide 1 text

Copyright © 2024 Bitkey Inc. All right reserved. 事業フェーズの変化を乗り越えるEnabling/Platform SREへの転換 SRE NEXT 2024 株式会社ビットキー 星野貴信 2024/08/04

Slide 2

Slide 2 text

2 Copyright © 2024 Bitkey Inc. All right reserved. Outline 1. ビットキーSREチームの現在 2. チームトポロジーとビットキーのSRE 3. Embedded SRE to Enabling/Platform SRE 4. Enabling/Platform SREとして実践している活動内容の紹介 5. まとめ

Slide 3

Slide 3 text

3 Copyright © 2024 Bitkey Inc. All right reserved. 自己紹介 星野 貴信 Hoshino Takanobu 2020.01 2022.11~ 株式会社LCL バックエンドエンジニアとしてサービス運用改善を中 心にAWS、Terraform、GitHub Actions、Mackerelの 活用をリード 株式会社ビットキー SREとして入社。主にオブザーバビリティ、CI/CDを担 当する。SETとしてサービス品質向上の活動もしてい る これが本物です 技術本部 プラットフォーム開発部 SRE/SET

Slide 4

Slide 4 text

No content

Slide 5

Slide 5 text

5 Copyright © 2024 Bitkey Inc. All right reserved. 会社紹介 3つのhubシリーズ - 私たちの「⽣活」における全てに価値提供を 「暮らし」は、もっと便利にできる 働き⽅に、⾃由とパワーを ⼈⽣は、感動的だ ⼈⽣すべてのシーンで体験性を向上させることを⽬指し、⼈⽣における体験をHome(暮らし)、Workspace(働く)、Experience(⾮⽇常)と3つの領域に分けて設計。 「⾮⽇常体験」 ⾃分の「好き」に没頭しよう その体験は、もっと特別な時間に 「仕事∕働く」 あらゆる「働く空間」とそこで「働く⼈や業務」をつなぎ、 仕事をもっと快適に 「暮らし」 あなたの暮らしは、テクノロジーで変わる 住宅の⽇常は、より便利な体験へ

Slide 6

Slide 6 text

6 Copyright © 2024 Bitkey Inc. All right reserved. Outline 1. ビットキーSREチームの現在 2. チームトポロジーとビットキーのSRE 3. Embedded SRE to Enabling/Platform SRE 4. Enabling/Platform SREとして実践している活動内容の紹介 5. まとめ

Slide 7

Slide 7 text

7 Copyright © 2024 Bitkey Inc. All right reserved. 1. ビットキーSREチームの現在 2024年8月時点のSREチーム SRE SRE以外の SREing支援メンバー 2人 4人 SRE: サイトリライアビリティエンジニア SREチーム: サイトリライアビリティエンジニアチーム SREing: サイトリライアビリティエンジニアリング

Slide 8

Slide 8 text

8 Copyright © 2024 Bitkey Inc. All right reserved. 1. ビットキーSREチームの現在 2024年8月のSREチーム 事業横断チーム homehub workhub Designer Web Mobile Designer Web Mobile Software QA QA⽀援 技術⽀援 Edge R&D SRE Firmware QA Firmware Data Hardware QA Hardware BKP Product Manager Product Manager

Slide 9

Slide 9 text

9 Copyright © 2024 Bitkey Inc. All right reserved. 1. ビットキーSREチームの現在 2024年8月のSREチーム 事業横断チーム homehub workhub Designer Web Mobile Designer Web Mobile Software QA QA⽀援 技術⽀援 Edge R&D SRE Firmware QA Firmware Data Hardware QA Hardware BKP Product Manager Product Manager

Slide 10

Slide 10 text

10 Copyright © 2024 Bitkey Inc. All right reserved. Outline 1. ビットキーSREチームの現在 2. チームトポロジーとビットキーのSRE 3. Embedded SRE to Enabling/Platform SRE 4. Enabling/Platform SREとして実践している活動内容の紹介 5. まとめ

Slide 11

Slide 11 text

11 Copyright © 2024 Bitkey Inc. All right reserved. 2. チームトポロジーとビットキーのSRE チームトポロジーとは? ● チームトポロジーとは、ソフトウェア開発チームの組織化を記述するモデルです。Matthew Skelton とManuel Paisによって開発されました。 ● チームトポロジーでは、4つの形態のチームと3つのインタラクションモードが定義されています。ビ ジネス機能中心のチームが価値あるソフトウェアの流れを提供できるように、健全なインタラクショ ンを促すモデルです。 Martin Fowler’s Bliki(ja)より引用 https://bliki-ja.github.io/TeamTopologies

Slide 12

Slide 12 text

12 Copyright © 2024 Bitkey Inc. All right reserved. 2. チームトポロジーとビットキーのSRE 4つの形態 ● 4つの形態は次の名前がついています ○ ストリームアラインドチーム ○ イネーブリングチーム ○ コンプリケイテッド・サブシステムチーム ○ プラットフォームチーム ● 3つのインタラクションは次の名前がついています ○ X-as-a-Serviceモード ○ コラボレーションモード ○ ファシリテーションモード

Slide 13

Slide 13 text

13 Copyright © 2024 Bitkey Inc. All right reserved. 2. チームトポロジーとビットキーのSRE 4つの形態の詳細 ● ストリームアラインドチーム ○ いわゆるプロダクトを開発するチームのことで、フルスタックやフルサイクルであることが望ま しい ● プラットフォームチーム ○ ストリームアラインドチームの共通の課題を解決したり、認知負荷を低減する社内サービスやプ ラットフォームを開発・運用するチーム ● イネイブリングチーム ○ 特定の技術領域に関する専門家集団のチームで、ストリームアラインドチームが自律的活動でき るように教育や指導を通して支援するチーム ● コンプリケイテッド・サブシステムチーム ○ 複雑なサブシステムやコンポーネントを開発するチーム Stream-aligned team Platform team Enabling team Complicated Subsystem team

Slide 14

Slide 14 text

14 Copyright © 2024 Bitkey Inc. All right reserved. 2. チームトポロジーとビットキーのSRE 3つのインタラクションの詳細 ● X-as-a-Serviceモード ○ プラットフォームがストリームアラインド に対するサービスとして振る舞う ● コラボレーションモード ○ 2つのチームが探索を目的として 協力する ● ファシリテーティングモード ○ ストリームアラインドを コーチングする Collaboration XaaS Facilitating

Slide 15

Slide 15 text

15 Copyright © 2024 Bitkey Inc. All right reserved. 2. チームトポロジーとビットキーのSRE チームトポロジーとSRE ● 書籍”チームトポロジー”におけるSREはストリームアラインドチームの位置付け ● フルサイクルの開発チームが信頼性に向き合う状態が理想的 ● You build it, you run it. (Werner Vogels, Amazon CTO)

Slide 16

Slide 16 text

16 Copyright © 2024 Bitkey Inc. All right reserved. 2. チームトポロジーとビットキーのSRE チームトポロジーとSRE ● 初めから全てのチームがSREingを実践できるかと言われると難しい ● そのためチームのSREing実践を支えるSREやSREチームが必要となる  ● SREの支援をチームトポロジーに当てはめてみると大きく次のパターンに分類できる  ● Embedded SRE ○ SREがストリームアラインドの中に直接入って活動するパターン ● Enabling SRE ○ SREがストリームアラインドを外部から支援するパターン ● Platform SRE ○ インフラなど信頼性に関わるプラットフォームを開発提供するパターン Embedded SRE Platform SRE Enabling SRE Embedded SRE

Slide 17

Slide 17 text

17 Copyright © 2024 Bitkey Inc. All right reserved. 2. チームトポロジーとビットキーのSRE チームトポロジーとSRE

Slide 18

Slide 18 text

18 Copyright © 2024 Bitkey Inc. All right reserved. 2. チームトポロジーとビットキーのSRE Embedded SREの詳細 ● SREが直接ストリームアラインドに参加してSREingを実践するパターン ● Pros ○ 開発運用の課題を直接解決する ○ 密なコラボレーション ● Cons ○ 属人化の恐れがある ○ ナレッジやプラクティスの他チームへの展開が難しい Embedded SRE Platform SRE Enabling SRE Embedded SRE

Slide 19

Slide 19 text

19 Copyright © 2024 Bitkey Inc. All right reserved. 2. チームトポロジーとビットキーのSRE Enabling SREの詳細 ● ストリームアラインドのSREingを外部から支援する ● 排他的な存在ではないのでEmbedded SREがいるチームとコラボレーションも可能 ● Pros ○ チーム横断でナレッジやプラクティスを展開できる ○ 開発者によるSREingの実践を促進する ● Cons ○ タスクの対応優先度で負けることがありがち ○ 事業への理解度から効果的な解決策を打ち出すの難しいこともある Embedded SRE Platform SRE Enabling SRE Embedded SRE

Slide 20

Slide 20 text

20 Copyright © 2024 Bitkey Inc. All right reserved. 2. チームトポロジーとビットキーのSRE Platform SREの詳細 ● プラットフォームとしてSREingにまつわるサービスを提供する ● プラットフォームはサービス実行基盤、オブザーバビリティ、CI/CDなど多岐にわたる ● Pros ○ ストリームアラインドのセルフサービスを可能にする ○ 共通の課題を一元的に集約して解決可能 ● Cons ○ 小規模チームではオーバーエンジニアリングの恐れ ○ 開発に利用するツールやサービスを自由に選択することとトレードオフ Embedded SRE Platform SRE Enabling SRE Embedded SRE

Slide 21

Slide 21 text

21 Copyright © 2024 Bitkey Inc. All right reserved. 2. チームトポロジーとビットキーのSRE ここまでのまとめ ● チームトポロジーのモデルを利用してSREの活動を分類 ● 目的を意識してインタラクションを選択 Embedded SRE Platform SRE Enabling SRE Embedded SRE

Slide 22

Slide 22 text

22 Copyright © 2024 Bitkey Inc. All right reserved. Outline 1. ビットキーSREチームの現在 2. チームトポロジーとビットキーのSRE 3. Embedded SRE to Enabling/Platform SRE 4. Enabling/Platform SREとして実践している活動内容の紹介 5. まとめ

Slide 23

Slide 23 text

23 Copyright © 2024 Bitkey Inc. All right reserved. 3. Embedded SRE to Enabling/Platform SRE ビットキーのSREチーム 2022~2023 ● ビットキーのSREチームはEmbedded SREを中心にSREingの活動をしていた ● Home領域とWork領域それぞれにEmbedded SREを配置 ● プラクティスの横展開やプラットフォーム的な動きもあり ● 共通基盤チームはSREこそいないがSREingの活動を自律的に実施 Home領域(Embedded SRE) 共通基盤(SREなし) Work領域(Embedded SRE)

Slide 24

Slide 24 text

24 Copyright © 2024 Bitkey Inc. All right reserved. ● 2022年はWork領域の成長・拡大に伴いこれまで以上に高い信頼性が求められるようになった ● 2022年中頃からWork領域に注力するため全SREsが移動 ● SREsが重要課題解決のために別領域にも着手 ● 将来派生するチームのベースもこの辺りから活動が本格化 ○ コンプリケイテッド・サブシステムとしてのIoT Edgeチーム ○ イネイブリングとしてのSETチーム ● Home領域も引き続き成長しており、 重要度が下がったわけではないが相対的に手薄に… Home領域(SREなし) 共通基盤(SREなし) Work領域(Embedded SRE) 3. Embedded SRE to Enabling/Platform SRE ビットキーのSREチーム 2022~2023 移動

Slide 25

Slide 25 text

25 Copyright © 2024 Bitkey Inc. All right reserved. 3. Embedded SRE to Enabling/Platform SRE Work領域のSREingを注力した結果 ● Pros ○ プロダクトの開発・運用の改善が大きく進んだ ■ SREing以外の多くの重要課題も協力することになった ■ SLOの安定はまだまだ ● Cons ○ 運用タスクやトイルはSREが拾うことが多く、チーム内でサイロ化が進む ○ もう一つのHome領域にSREingの横展開が難しい

Slide 26

Slide 26 text

26 Copyright © 2024 Bitkey Inc. All right reserved. 3. Embedded SRE to Enabling/Platform SRE チームトポロジーとSREを再掲 ● 書籍チームトポロジーにおけるSREはストリームアラインドチームの位置付け ● 開発者がシステム運用も行い信頼性に向き合う状態が理想的と考える ● You build it, you run it. (Werner Vogels, Amazon CTO) ストリームアラインドが一丸となってSREingに向き合えてい るかというと、まだまだ距離がある状態であった

Slide 27

Slide 27 text

27 Copyright © 2024 Bitkey Inc. All right reserved. 3. Embedded SRE to Enabling/Platform SRE 2023年中頃に大再編 ● 2023年の中頃にプロダクト開発組織全体の再編があった ● その流れでSREチームは組織横断チームに変更 ○ 長く携わったメンバーのチーム移動や卒業も ● Enabling SREとして再出発 ● Home領域もカバーしていく ● さらなる事業拡大に備えた プラットフォーム的な動きも増加中 Home領域(SREなし) 共通基盤(SREなし) Work領域(SREなし) IoT Enabling SRE NEW! [WIP]Platf orm SRE

Slide 28

Slide 28 text

28 Copyright © 2024 Bitkey Inc. All right reserved. Outline 1. ビットキーSREチームの現在 2. チームトポロジーとビットキーのSRE 3. Embedded SRE to Enabling/Platform SRE 4. Enabling/Platform SREとして実践している活動内容の紹介 5. まとめ

Slide 29

Slide 29 text

29 Copyright © 2024 Bitkey Inc. All right reserved. 4. Enabling/Platform SREとして実践している活動内容の紹介 ストリームアラインドとのSRE定例 ● ストリームアラインドとの定例MTGをEnabling SREの活動基盤としている ● 隔週で開催 ○ 初めは毎週だったがアサインしたタスクの進捗を考慮して二週間に1回に変更 ● 参加者は全員ではないがストリームアラインドの主要なメンバーを呼ぶ ● 主なMTGアジェンダ ○ SLOを全員で眺める ○ 新規SLI・SLOの策定相談 ○ 開発・運用にまつわる課題の共有 from SRE ○ 開発・運用にまつわる課題の共有 to SRE ○ インシデント発生後には簡易的なポストモーテムの実施

Slide 30

Slide 30 text

30 Copyright © 2024 Bitkey Inc. All right reserved. 4. Enabling/Platform SREとして実践している活動内容の紹介 SLOを全員で眺める ● SLOはSREがただ策定するだけでは、運用や活用をしてもらうのは難しい ● 特にビットキーは提供プロダクトのバリエーションが多くSLOに影響する変数も多いため、理解する のも一苦労する ○ Web API ○ 外部連携システム ○ ファームウェア ○ ハードウェア ● SLOの推移とそこから得られるインサイトをSREがチームに共有 ○ 改善対応に繋げていく ● SREが開発者にSLOの状態を質問することもある ○ この数字で問題は発生していない? ○ 不安定な状態が解消されるまではアラートをあげる閾値を変更しますか? ● チーム全体で眺めることでSLOの理解を深める

Slide 31

Slide 31 text

31 Copyright © 2024 Bitkey Inc. All right reserved. 4. Enabling/Platform SREとして実践している活動内容の紹介 インシデント発生後の簡易的なポストモーテムの実施 ● 大小を問わずインシデント発生後に簡易的なポストモーテムを実施 ○ 内容をみて正式にポストモーテムするかを決定 ● インシデントからの学びを共有 ● 開発チームに対応方針を委ね、チームの自律を促す ● SREチームを通じてインシデントからの学びを他チームにも展開

Slide 32

Slide 32 text

32 Copyright © 2024 Bitkey Inc. All right reserved. 4. Enabling/Platform SREとして実践している活動内容の紹介 ファシリテーティングのインタラクションで大事にしていること ● 開発者が自律的に課題に向き合うことを重視して、SREが全てを解決しな いように気を付ける ● Embedded SREの体制で課題になっていた属人化やサイロ化を防ぐべく、 ナレッジやプラクティスの横展開を重視

Slide 33

Slide 33 text

33 Copyright © 2024 Bitkey Inc. All right reserved. 4. Enabling/Platform SREとして実践している活動内容の紹介 Platform SREとしての活動も開始 ● Home領域、Work領域で共通の課題のうち、機能として提供可能なものは、共通化してサービスとし て提供する ○ CI/CD、オブザーバビリティ、DB運用、セキュリティなど ○ 現時点で2チームなのでプラットフォームと呼べるほどの規模ではないが、将来の拡大に備えて SREが主導して投資していく ○ 成果物の提供方法をシステム化するため、サービスカタログの導入を検討

Slide 34

Slide 34 text

34 Copyright © 2024 Bitkey Inc. All right reserved. 4. Enabling/Platform SREとして実践している活動内容の紹介 現状の課題とこれから ● SLO運用にまつわる課題 ○ 事業領域が広く、システム規模も拡大する中でSLOによるモニタリングは十分に事業をカバーし ているとは言えない ○ SLO自体の認知度は組織内で増してきたが、エラーバジェットの扱いはまだまだ ○ SREチームが作成したSLOを渡して運用してもらうのではなく、開発者が主導してSLOを策定し て運用していけるようににしたい ● 責任範囲の課題 ○ 改善活動においてストリームアラインドとSREのどちらが責任を持つのか曖昧になり、お見合い してしまうことが発生 ○ 責任範囲の明確化をして円滑なコミュニケーションを実現したい

Slide 35

Slide 35 text

35 Copyright © 2024 Bitkey Inc. All right reserved. Outline 1. ビットキーSREチームの現在 2. チームトポロジーとビットキーのSRE 3. Embedded SRE to Enabling/Platform SRE 4. Enabling/Platform SREとして実践している活動内容の紹介 5. まとめ

Slide 36

Slide 36 text

36 Copyright © 2024 Bitkey Inc. All right reserved. ● ビットキーは創業6年を迎え事業やチームの変化に伴いSREのあり方も変わってきた ● チームトポロジーのインタラクションを意識して、現在はイネイブリングに注力 ● ストリームアラインドの自律的なSREingを目指し、MTGを中心にSLOを始めとしたSREプラクティス の啓蒙に注力している ● 事業と組織のさらなる拡大を見据えてプラットフォームSREの活動も進行中 5. まとめ

Slide 37

Slide 37 text

37 Copyright © 2024 Bitkey Inc. All right reserved. 宣伝 SRE関連イベントのお知らせ スタートアップのSREが集まって、発表やディスカッションを わいわいするグループを立ち上げました!(スタートアップ以 外の方も大歓迎) 第二回を8/28(水)に開催するので参加をお待ちしております。 Startup Reliability Engineeringの会 (StREの会) https://stre.connpass.com

Slide 38

Slide 38 text

38 End of File Copyright © 2024 Bitkey Inc. All right reserved.