Slide 1

Slide 1 text

Copyright © 2025 Bitkey Inc. All right reserved. オフィスビルを監視しよう: フィジカル×デジタルにまたがるSLI/SLO設計と運用の難しさ 株式会社ビットキー 三河内 拓也 2025.07.11 ※スライド内に登場する会社名・サービス名・製品名などは、それぞれの企業の商 標または登録商標です。無断での内容の改変・加工はご遠慮ください。

Slide 2

Slide 2 text

2 Copyright © 2025 Bitkey Inc. All right reserved. 突然ですが

Slide 3

Slide 3 text

3 Copyright © 2025 Bitkey Inc. All right reserved. 皆さんSLI/SLOを定義してますか?

Slide 4

Slide 4 text

4 Copyright © 2025 Bitkey Inc. All right reserved. してますよね!

Slide 5

Slide 5 text

5 Copyright © 2025 Bitkey Inc. All right reserved. すんなり定義できましたか?

Slide 6

Slide 6 text

6 Copyright © 2025 Bitkey Inc. All right reserved. 理想通りに運用できてますか?

Slide 7

Slide 7 text

7 Copyright © 2025 Bitkey Inc. All right reserved. 実際、考慮しないといけない ポイントがいっぱいありますよね...

Slide 8

Slide 8 text

8 Copyright © 2025 Bitkey Inc. All right reserved. ビットキーも同様でした...

Slide 9

Slide 9 text

9 Copyright © 2025 Bitkey Inc. All right reserved. ビットキー特有の考慮ポイントを 一部紹介します

Slide 10

Slide 10 text

10 Copyright © 2025 Bitkey Inc. All right reserved. 様々な物理的な要因で解錠信号(Bluetooth通信)が 届きづらい時がある... ・距離が遠い ・中継機器の置き場所が悪い ・遮蔽物が分厚い、電波を通しづらい素材 etc

Slide 11

Slide 11 text

11 Copyright © 2025 Bitkey Inc. All right reserved. Client側のデバイス観点でも 考慮しないといけないポイントがある... BLE ・顔認証端末の電源が落ちていてる ・ビル制御盤と疎通出来ていない etc

Slide 12

Slide 12 text

12 Copyright © 2025 Bitkey Inc. All right reserved. 掲示されたポスターのQRコードが認証画面に映り込み、 延々に解錠失敗が記録される お客様のオフィスに掲示された ポスターのQRコード

Slide 13

Slide 13 text

13 Copyright © 2025 Bitkey Inc. All right reserved. これらはSLI計測に関する考慮ポイント

Slide 14

Slide 14 text

14 Copyright © 2025 Bitkey Inc. All right reserved. SLO運用においても “モヤみ”ポイントがあります

Slide 15

Slide 15 text

15 Copyright © 2025 Bitkey Inc. All right reserved. “果たしてこのサービスレベルの 調査対応は開発マターなのか?”

Slide 16

Slide 16 text

16 Copyright © 2025 Bitkey Inc. All right reserved. 今回例に上げたモヤみは ”フィジカル”と”デジタル”に またがるサービスがゆえに起こり 得るものです

Slide 17

Slide 17 text

17 Copyright © 2025 Bitkey Inc. All right reserved. “デジタル”だけで完結しない分、 SLI/SLOをどう定義し、どう運用 するかには、定説にはない独自の 工夫が求められます

Slide 18

Slide 18 text

18 Copyright © 2025 Bitkey Inc. All right reserved. 今回はビルを監視するという SLI/SLOにおいて、定説にはない Tipsを紹介していきます

Slide 19

Slide 19 text

19 Copyright © 2025 Bitkey Inc. All right reserved. ビットキーにデータアナリストとしてジョイン。 入社初年度から、プロダクト品質の可視化を担当。 この時、サービスレベルというプラクティスと出会う 自己紹介 三河内 拓也 Takuya Mikouchi 2017 2020 データコンサル企業でデータアナリストとしてのキャ リアをスタート。様々な業界のデータ活用プロジェク トに従事 2025 現在もSREチームと共にサービスレベルの計測と運用 を推進

Slide 20

Slide 20 text

20 Copyright © 2025 Bitkey Inc. All right reserved. Outline 1. ビルモニタリングにおいて定義したSLI 2. ビルモニタリングで得られた5つのTips 1. CUJ(Critical User Journey)は普遍である 2. モノも含めたSLI設計の難しさ:前提となる「モノ」の監視は見落としがち 3. DatadogでのID単位のSLO監視は、SLOベースのMonitorではなくMetricベースのMonitorで実現 4. 「SLOを毀損したら、初手SREまたは開発チームが動く」は本当に正解か? 5. CS(いわゆる顧客対応チームのこと)を巻き込んだSLO運用のポイント 3. まとめ

Slide 21

Slide 21 text

21 Copyright © 2025 Bitkey Inc. All right reserved. 1. ビルモニタリングにおいて定義したSLI

Slide 22

Slide 22 text

No content

Slide 23

Slide 23 text

23 Copyright © 2025 Bitkey Inc. All right reserved. プロダクトはhomehubとworkhubの2つ。 本日お話しするworkhubは、働く空間にまつわる体験のDXを実現 1. ビルモニタリングにおいて定義したSLI フレキシブル オフィス オフィス テナント テンポラリーユー ス ビル(オーナー) ワーカー 不動産管理会社 マンション オーナー 管理組合 デベロッパー 居住者 暮らしサービス デリバリー会社 対象カスタマー/ユーザー


Slide 24

Slide 24 text

24 Copyright © 2025 Bitkey Inc. All right reserved. workhubの機能群 1. ビルモニタリングにおいて定義したSLI 共通 会員向け検索予約 契約‧会員管理 決済エンジン 請求‧⼊⾦管理 スマートロック 受付 顔認証 スマートロッカー 混雑判定 スマートロック 受付 顔認証 制御盤連携 会議室予約 位置検知 スマートロッカー 混雑判定 BACNet連携 座席予約 稼働率レポート マルチテナント エレベーター ビル総合受付 会員向け検索予約 契約‧会員管理 決済エンジン 請求‧⼊⾦管理 スマートロック 受付 顔認証 制御盤連携 会議室予約 位置検知 スマートロッカー 混雑判定 BACNet連携 座席予約 稼働率レポート マルチテナント エレベーター ビル総合受付 個室ブース運営 パブリックアカウント 地図で検索 ⽬的で検索 正式提供開始 フレキシブルオフィス オフィステナント テンポラリーユース ビル(オーナー) さらなる 拡張 さらなる 拡張

Slide 25

Slide 25 text

25 Copyright © 2025 Bitkey Inc. All right reserved. ビルに導入する場合によく提供している機能 1. ビルモニタリングにおいて定義したSLI 共通 会員向け検索予約 契約‧会員管理 決済エンジン 請求‧⼊⾦管理 スマートロック 受付 顔認証 スマートロッカー 混雑判定 スマートロック 受付 顔認証 制御盤連携 会議室予約 位置検知 スマートロッカー 混雑判定 BACNet連携 座席予約 稼働率レポート マルチテナント エレベーター ビル総合受付 会員向け検索予約 契約‧会員管理 決済エンジン 請求‧⼊⾦管理 スマートロック 受付 顔認証 制御盤連携 会議室予約 位置検知 スマートロッカー 混雑判定 BACNet連携 座席予約 稼働率レポート マルチテナント エレベーター ビル総合受付 個室ブース運営 パブリックアカウント 地図で検索 ⽬的で検索 正式提供開始 フレキシブルオフィス オフィステナント テンポラリーユース ビル(オーナー) さらなる 拡張 さらなる 拡張

Slide 26

Slide 26 text

26 Copyright © 2025 Bitkey Inc. All right reserved. 1. ビルモニタリングにおいて定義したSLI 多様な機能群から、SLIとして定義したい体験・機能を整理 今回は、フラッパーゲート 及び ビル共用部→テナント専有部への顔・QR認証による出入りを選定 「テナント専有部」への出入り フラッパーゲートなど 「ビルエントランス」の出入り 業務開始

Slide 27

Slide 27 text

27 Copyright © 2025 Bitkey Inc. All right reserved. 選定した体験フローをベースに、顔認証成功率/QR認証成功率の2つのSLIを定義 1. ビルモニタリングにおいて定義したSLI 顔認証成功率 認証後、カギまたは扉が開いた回数/ 認証端末に顔をかざした回数 QR認証成功率 認証後、カギまたは扉が開いた回数/ 認証端末にQRをかざした回数 ※補足:出入りの体験の気持ちよさとして、認証→ 解施錠にかかった時間もSLIとして計測してます。 が、単純化のため本発表では割愛しています 「テナント専有部」への出入り フラッパーゲートなど 「ビルエントランス」の出入り 業務開始

Slide 28

Slide 28 text

28 Copyright © 2025 Bitkey Inc. All right reserved. 定義されたSLIは、DatadogでSLOを設定し、エラーバジェットベースのアラートを作成し監視運用中 ※あくまで社内的な目標値としてSLOを運用中 1. ビルモニタリングにおいて定義したSLI

Slide 29

Slide 29 text

29 Copyright © 2025 Bitkey Inc. All right reserved. 2. ビルモニタリングで得られた5つのTips

Slide 30

Slide 30 text

30 Copyright © 2025 Bitkey Inc. All right reserved. 本題に行く前に、、、このTipsで伝えたいこと 2. ビルモニタリングで得られた5つのTips 【To SREの皆さん】 サービス特性に応じてSLI/SLOの設計や運用はチューニングの余地があるのでは? 【To フィジカル×デジタルなサービスに従事するSREの皆さん】 難しさはあるが、工夫次第でSLI/SLOの運用は可能

Slide 31

Slide 31 text

31 Copyright © 2025 Bitkey Inc. All right reserved. Tips1 CUJ(Critical User Journey)は普遍である 設計

Slide 32

Slide 32 text

32 Copyright © 2025 Bitkey Inc. All right reserved. ビルモニタリングの課題:多様な機能が内包され、どの機能も重要かつ監視しがいがあり、監視指標の 選定が難しい 1. CUJ(Critical User Journey)は普遍である 共通 会員向け検索予約 契約‧会員管理 決済エンジン 請求‧⼊⾦管理 スマートロック 受付 顔認証 スマートロッカー 混雑判定 スマートロック 受付 顔認証 制御盤連携 会議室予約 位置検知 スマートロッカー 混雑判定 BACNet連携 座席予約 稼働率レポート マルチテナント エレベーター ビル総合受付 会員向け検索予約 契約‧会員管理 決済エンジン 請求‧⼊⾦管理 スマートロック 受付 顔認証 制御盤連携 会議室予約 位置検知 スマートロッカー 混雑判定 BACNet連携 座席予約 稼働率レポート マルチテナント エレベーター ビル総合受付 個室ブース運営 パブリックアカウント 地図で検索 ⽬的で検索 正式提供開始 フレキシブルオフィス オフィステナント テンポラリーユース ビル(オーナー) さらなる 拡張 さらなる 拡張

Slide 33

Slide 33 text

33 Copyright © 2025 Bitkey Inc. All right reserved. 解決策:CUJ(Critical User Journey)を整理すること。開発者視点では監視すべき体験の目線合わせが ができる。そして、それは自然とユーザのコア体験の信頼性の定義となるというメリットを持つ 1. CUJ(Critical User Journey)は普遍である 「テナント専有部」への出入り フラッパーゲートなど 「ビルエントランス」の出入り 業務開始

Slide 34

Slide 34 text

34 Copyright © 2025 Bitkey Inc. All right reserved. ユーザー⇔システムの詳細なフロー図を整理することで、フィジカル特有の誤動作や例外を洗い出し、 より堅牢なSLIの定義 や ログ設計が可能になる 1. CUJ(Critical User Journey)は普遍である ログ設計・実装→計測へ ユーザの目的は達成できてないが、 あえて成功にしたい動作もリストアップ 詳細フロー ※登壇用に簡略化しています 誤動作や例外を考慮したより堅牢なSLIの算出式

Slide 35

Slide 35 text

35 Copyright © 2025 Bitkey Inc. All right reserved. Tips1のまとめ 1. CUJ(Critical User Journey)は普遍である CUJを整理することで、目線の揃った監視指標を定義できる これは”フィジカル”と”デジタル”にまたがるサービスにおいても普遍 更に詳細な体験と処理のフローを整理することで、より堅牢なSLIを定義できる ”デジタル”だけで完結するサービスでも、多様な機能を内包していたり、 外部システムとの連携が絡むなど、複雑性の高いシステムの場合などでは有用

Slide 36

Slide 36 text

36 Copyright © 2025 Bitkey Inc. All right reserved. モノも含めたSLI設計の難しさ: 前提となる「モノ」の監視は見落としがち 設計 Tips2

Slide 37

Slide 37 text

37 Copyright © 2025 Bitkey Inc. All right reserved. 今回定義したCUJとSLI(再掲) 2. モノも含めたSLI設計の難しさ:前提となる「モノ」の監視は見落としがち 顔認証成功率 認証後、カギまたは扉が開いた回数/ 認証端末に顔をかざした回数 QR認証成功率 認証後、カギまたは扉が開いた回数/ 認証端末にQRをかざした回数 「テナント専有部」への出入り フラッパーゲートなど 「ビルエントランス」の出入り 業務開始

Slide 38

Slide 38 text

38 Copyright © 2025 Bitkey Inc. All right reserved. iPadの電源が落ちている このSLIは実は見落としがあり、そもそも顔・QRを端末にかざせなくなる状況が考慮されていない アプリが落ちている ビル制御システムと疎通できてない ためメンテナンスモードに 2. モノも含めたSLI設計の難しさ:前提となる「モノ」の監視は見落としがち

Slide 39

Slide 39 text

39 Copyright © 2025 Bitkey Inc. All right reserved. iPadの電源が落ちている ユーザ体験を考えた時に、体験の前提となる「モノ」の状態の監視が必要になってくる アプリが落ちている ビル制御システムと疎通できてない ためメンテナンスモードに 2. モノも含めたSLI設計の難しさ:前提となる「モノ」の監視は見落としがち

Slide 40

Slide 40 text

40 Copyright © 2025 Bitkey Inc. All right reserved. 弊社では、物理デバイスの死活監視、物理デバイス間の連携に関するSLIを定めて監視している 死活監視 SLI:ビル制御システムとの疎通率 2. モノも含めたSLI設計の難しさ:前提となる「モノ」の監視は見落としがち iPadの電源が落ちている アプリが落ちている ビル制御システムと疎通できてない ためメンテナンスモードに

Slide 41

Slide 41 text

41 Copyright © 2025 Bitkey Inc. All right reserved. モノを監視するSLIはclient側からbackendに一定間隔でheartbeatを飛ばし続けることで実現 2. モノも含めたSLI設計の難しさ:前提となる「モノ」の監視は見落としがち Cloud Run Pub/Sub heartbeat

Slide 42

Slide 42 text

42 Copyright © 2025 Bitkey Inc. All right reserved. Tips2のまとめ “フィジカル”がまたがるサービスにおいては、モノが動いているか?といった、 体験の前提となる状況が満たされているかも、サービスレベルを定義できると良い 上記は体験のサービスレベルとは分けて定義・計測するとシンプル 2. モノも含めたSLI設計の難しさ:前提となる「モノ」の監視は見落としがち

Slide 43

Slide 43 text

43 Copyright © 2025 Bitkey Inc. All right reserved. Tips3 DatadogでのID単位のSLO監視は、SLOベースのMonitor ではなくMetricベースのMonitorで実現 計測 ツール

Slide 44

Slide 44 text

44 Copyright © 2025 Bitkey Inc. All right reserved. 前提:弊社が利用しているDatadogにはSLOsというサービスが存在しており、SLI/SLOの設定と Monitor(アラート)設定を行うことができる 3. DatadogでのID単位のSLO監視は、SLOベースのMonitorではなくMetricベースのMonitorで実現 Datadog公式ドキュメントより

Slide 45

Slide 45 text

45 Copyright © 2025 Bitkey Inc. All right reserved. 前提:ビルモニタリングの特性 3. DatadogでのID単位のSLO監視は、SLOベースのMonitorではなくMetricベースのMonitorで実現 SLIの低下要因

Slide 46

Slide 46 text

46 Copyright © 2025 Bitkey Inc. All right reserved. 前提:ビルモニタリングの特性 3. DatadogでのID単位のSLO監視は、SLOベースのMonitorではなくMetricベースのMonitorで実現 機能単位やシステム全体でSLIが下 がることは稀 SLIの低下要因 ビルモニタリングの特性

Slide 47

Slide 47 text

47 Copyright © 2025 Bitkey Inc. All right reserved. 前提:ビルモニタリングの特性 3. DatadogでのID単位のSLO監視は、SLOベースのMonitorではなくMetricベースのMonitorで実現 機能単位やシステム全体でSLIが下 がることは稀 ↓ ビルや出入り口の単位で成功率が下 がったり、元々低かったりする傾向 がある SLIの低下要因 ビルモニタリングの特性

Slide 48

Slide 48 text

48 Copyright © 2025 Bitkey Inc. All right reserved. 前提:ビルモニタリングの特性 3. DatadogでのID単位のSLO監視は、SLOベースのMonitorではなくMetricベースのMonitorで実現 機能単位やシステム全体でSLIが下 がることは稀 ↓ ビルや出入り口の単位で成功率が下 がったり、元々低かったりする傾向 がある ↓ ビルという単位でSLOを割った際に アラートを設定したい SLIの低下要因 ビルモニタリングの特性

Slide 49

Slide 49 text

49 Copyright © 2025 Bitkey Inc. All right reserved. SLOsの導線で設定したMonitorでは、指標全体の監視はできるが、ID単位(Group単位)のアラート通知 が設定できなかった(2025 H1時点 登壇者調べ) 3. DatadogでのID単位のSLO監視は、SLOベースのMonitorではなくMetricベースのMonitorで実現 Datadog公式ドキュメントより

Slide 50

Slide 50 text

50 Copyright © 2025 Bitkey Inc. All right reserved. MetricベースのMonitorを採用し、ビルID単位でのSLO監視を実現し対処 3. DatadogでのID単位のSLO監視は、SLOベースのMonitorではなくMetricベースのMonitorで実現 Monitors > New Monitor > Metricを選択 Aggregation > Multi Alert設定をすることでID(Group) 単位でのアラート設定が可能

Slide 51

Slide 51 text

51 Copyright © 2025 Bitkey Inc. All right reserved. ハマりポイント:7日間レンジのSLIを計測した際に、Metricの計測タイミングの仕様?に影響されて、 意図した計算結果に中々ならなかった... 3. DatadogでのID単位のSLO監視は、SLOベースのMonitorではなくMetricベースのMonitorで実現 - Monitorを用いた代替運用の紹介:moving_rollback, with lookback, Evaluation Details などの設定 今回は試行錯誤の結果、moving_rollup関数を設定 / 過去10分間の平均値で評価 / 「as rate」を採用し計測を安定化

Slide 52

Slide 52 text

52 Copyright © 2025 Bitkey Inc. All right reserved. Tips3のまとめ 3. DatadogでのID単位のSLO監視は、SLOベースのMonitorではなくMetricベースのMonitorで実現 ID単位でSLOを監視したい場合は、MetricベースのMonitorを使おう (SLOsベースでもできるようにしてほしいけど・・・) Datadog Monitorの仕組みを理解して意図通りの計測するとより堅牢なSLIになる

Slide 53

Slide 53 text

53 Copyright © 2025 Bitkey Inc. All right reserved. Tips4 「SLOを毀損したら、初手SREまたは開発チームが動く」 は本当に正解か? 運用 組織

Slide 54

Slide 54 text

54 Copyright © 2025 Bitkey Inc. All right reserved. ビルモニタリングの特性(運用編) 4. 「SLOを毀損したら、初手SREまたは開発チームが動く」は本当に正解か? SLIの低下要因

Slide 55

Slide 55 text

55 Copyright © 2025 Bitkey Inc. All right reserved. ビルモニタリングの特性(運用編) 4. 「SLOを毀損したら、初手SREまたは開発チームが動く」は本当に正解か? ①どのトビラでSLIが下がっている か把握し、使われ方や設置環境を思 い出す SLIの低下要因 SLIが下がったときの調査

Slide 56

Slide 56 text

56 Copyright © 2025 Bitkey Inc. All right reserved. ビルモニタリングの特性(運用編) 4. 「SLOを毀損したら、初手SREまたは開発チームが動く」は本当に正解か? ①どのトビラでSLIが下がっている か把握し、使われ方や設置環境を思 い出す ↓ ②現地環境を直接確認 or お客様に 確認後、改善アクションを実施 認証成功率の低下要因 SLIが下がったときの調査

Slide 57

Slide 57 text

57 Copyright © 2025 Bitkey Inc. All right reserved. ビルモニタリングの特性(運用編) 4. 「SLOを毀損したら、初手SREまたは開発チームが動く」は本当に正解か? ①どのトビラでSLIが下がっている か把握し、使われ方や設置環境を思 い出す ↓ ②現地環境を直接確認 or お客様に 確認後、改善アクションを実施 🗣 調査者「現地行って電波強度を測定してきま す!」 ※もちろん施工時に検査するが、それでも調整が入ることがある 🗣 調査者「実は計画停電だったので問題ないやつ でした」 🗣 調査者「なんかQRコードがずっと映り込んで たりしませんか?」 ※流石にログを改善したので今は失敗扱いされないが、過去何度かあったケース 認証成功率の低下要因 SLIが下がったときの調査

Slide 58

Slide 58 text

58 Copyright © 2025 Bitkey Inc. All right reserved. ビルモニタリングの特性(運用編) 4. 「SLOを毀損したら、初手SREまたは開発チームが動く」は本当に正解か? 認証成功率の低下要因 SLIが下がったときの調査 初手の調査内容はフィジカル側に寄る ①どのトビラでSLIが下がっている か把握し、使われ方や設置環境を思 い出す ↓ ②現地環境を直接確認 or お客様に 確認後、改善アクションを実施 🗣 調査者「現地行って電波強度を測定してきま す!」 ※もちろん施工時に検査するが、それでも調整が入ることがある 🗣 調査者「実は計画停電だったので問題ないやつ でした」 🗣 調査者「なんかQRコードがずっと映り込んで たりしませんか?」 ※流石にログを改善したので今は失敗扱いされないが、過去何度かあったケース

Slide 59

Slide 59 text

59 Copyright © 2025 Bitkey Inc. All right reserved. ビルモニタリングの特性(運用編) 4. 「SLOを毀損したら、初手SREまたは開発チームが動く」は本当に正解か? 認証成功率の低下要因 これらは初手 開発者が調査するのが効率的だろうか? ①どのトビラでSLIが下がっている か把握し、使われ方や設置環境を思 い出す ↓ ②現地環境を直接確認 or お客様に 確認後、改善アクションを実施 🗣 調査者「現地行って電波強度を測定してきま す!」 ※もちろん施工時に検査するが、それでも調整が入ることがある 🗣 調査者「実は計画停電だったので問題ないやつ でした」 🗣 調査者「なんかQRコードがずっと映り込んで たりしませんか?」 ※流石にログを改善したので今は失敗扱いされないが、過去何度かあったケース SLIが下がったときの調査

Slide 60

Slide 60 text

60 Copyright © 2025 Bitkey Inc. All right reserved. ビルモニタリングの特性(運用編) 4. 「SLOを毀損したら、初手SREまたは開発チームが動く」は本当に正解か? 認証成功率の低下要因 SLIが下がったときの調査 NOですよね ①どのトビラでSLIが下がっている か把握し、使われ方や設置環境を思 い出す ↓ ②現地環境を直接確認 or お客様に 確認後、改善アクションを実施 🗣 調査者「現地行って電波強度を測定してきま す!」 ※もちろん施工時に検査するが、それでも調整が入ることがある 🗣 調査者「実は計画停電だったので問題ないやつ でした」 🗣 調査者「なんかQRコードがずっと映り込んで たりしませんか?」 ※流石にログを改善したので今は失敗扱いされないが、過去何度かあったケース

Slide 61

Slide 61 text

61 Copyright © 2025 Bitkey Inc. All right reserved. 弊社は”ビルモニタリングにおいては”初手CSがフィジカル領域の調査をする体制を構築 4. 「SLOを毀損したら、初手SREまたは開発チームが動く」は本当に正解か?

Slide 62

Slide 62 text

62 Copyright © 2025 Bitkey Inc. All right reserved. Tips4のまとめ 4. 「SLOを毀損したら、初手SREまたは開発チームが動く」は本当に正解か? ※補足①:一方でObservabilityの向上 や ドメイン知識獲得のための工夫 を突き詰めるという方向性もアリだと思う ※補足②:もちろんビットキーにも、APIのエラー率など開発者やSREが主導して対応するSLOも多々ある ビルモニタリングの例のように、サービスやプロダクトの特性によっては、 初手の調査対応の適任者が開発者やSREではないケースがありそう そういった場合、柔軟にSLOの運用フローを再構築するのも選択肢として取りうる

Slide 63

Slide 63 text

63 Copyright © 2025 Bitkey Inc. All right reserved. Tips5 CSを巻き込んだSLO運用のポイント ツール 運用 組織

Slide 64

Slide 64 text

64 Copyright © 2025 Bitkey Inc. All right reserved. 弊社の”ビルモニタリング”においてはCSが初手の調査対応を担っている。 このフローには、いくつか定着のための工夫ポイントがあるため紹介していく 5. CSを巻き込んだSLO運用のポイント

Slide 65

Slide 65 text

65 Copyright © 2025 Bitkey Inc. All right reserved. 工夫ポイント①:経験上、運用の定着には既存の業務に寄り添うことが肝要。 CSも含むインシデント対応に活用されていたWaroomとSlackを中心としたアーキテクチャを採用 5. CSを巻き込んだSLO運用のポイント

Slide 66

Slide 66 text

66 Copyright © 2025 Bitkey Inc. All right reserved. 工夫ポイント②:調査対応内容をWaroomのRunbook機能を用いて再現性を向上 5. CSを巻き込んだSLO運用のポイント

Slide 67

Slide 67 text

67 Copyright © 2025 Bitkey Inc. All right reserved. 工夫ポイント②:調査対応内容をWaroomのRunbook機能を用いることで再現性を向上 5. CSを巻き込んだSLO運用のポイント

Slide 68

Slide 68 text

68 Copyright © 2025 Bitkey Inc. All right reserved. 工夫ポイント③:ダッシュボードでは、見る人の認知負荷を考慮しSummary > Transition > Detailと いうレイアウトを意識 5. CSを巻き込んだSLO運用のポイント

Slide 69

Slide 69 text

69 Copyright © 2025 Bitkey Inc. All right reserved. 工夫ポイント③:ダッシュボードでは、見る人の認知負荷を考慮しSummary > Transition > Detailと いうレイアウトを意識 5. CSを巻き込んだSLO運用のポイント Summary (ぱっと見たい情報) Title Filter Transition (時系列の分析軸) Detail (その他の分析軸) 構成 ビルモニタリングダッシュボード(イメージ) ※Datadogはカードに時系列グラフを 重ねられるので、それで表現 ログ一覧や補 足的な時系列 情報を可視化

Slide 70

Slide 70 text

70 Copyright © 2025 Bitkey Inc. All right reserved. Tips5のまとめ 5. CSを巻き込んだSLO運用のポイント 運用の定着には、その主体となる人の既存の業務フローに寄り添うことが肝要 (Waroom × Slackを中心としたアーキテクチャ) 開発者が慣れているツールを運用に使う場合、 どう使ってほしいかをガイドしてあげることが定着を助ける (Waroom Runbook機能、Datadogダッシュボードの統一的なレイアウト)

Slide 71

Slide 71 text

71 Copyright © 2025 Bitkey Inc. All right reserved. 3. Conclusion

Slide 72

Slide 72 text

72 Copyright © 2025 Bitkey Inc. All right reserved. 1 CUJは普遍か? CUJはフィジカル領域が絡むサービスでも有用でした。特に複雑なサービスにおいては普遍と思われます 2 SLIは体験の計測のみで十分か? フィジカル領域が絡むサービスの場合、必要に応じて前提となる「モノ」や「状態」も監視しましょう 3 DatadogでのSLOの監視はDatadog SLOsを用いればよいか? 現状はビル単位のようなID単位でアラートを通知したい場合は、Datadog Monitorを使う必要があります 4 「SLOを毀損したら、初手SREまたは開発チームが動く」は本当に正解か? サービスの特性に応じて、柔軟にSLO運用フローを構築するのも選択肢として取りうるのではと考えてます 5 SLO運用が定着するには? 最後に次のスライド以降で語ろうと思います... Conclusion

Slide 73

Slide 73 text

73 Copyright © 2025 Bitkey Inc. All right reserved. “SLOは単なるデータである ” * オライリー・ジャパン「 SLO サービスレベル目標」 の P15 より参照 Conclusion:SLO運用が定着するには?

Slide 74

Slide 74 text

74 Copyright © 2025 Bitkey Inc. All right reserved. “データ”(≒SLI/SLO)を作る際は、ユーザの動きや取り巻く状況に ディープダイブして、より有意義なデータを作りましょう ”データ”の定着という観点では、 “活用者”中心の運用設計やツール選定をすることを突き詰めましょう Conclusion:SLO運用が定着するには?

Slide 75

Slide 75 text

75 Copyright © 2025 Bitkey Inc. All right reserved. End of file