Upgrade to Pro — share decks privately, control downloads, hide ads and more …

15年続くIoTサービスの SREエンジニアが挑む 分散トレーシング導入

Avatar for Melonps Melonps
January 31, 2026

15年続くIoTサービスの SREエンジニアが挑む 分散トレーシング導入

私たちPanasonicのSREチームは、長年続くサービスにおいて、安定稼働と豊富な機能追加を目指して取り組んでいます。
その一環として、可観測性の向上についても挑戦を続けており、メトリクスやログの活用で一定の成果を上げることができた一方で、分散トレーシングにおいてはプロダクションへの導入まで至ることができず、一度挫折しています。
技術的な検証はできても、プロダクションへの導入には至らない。
その原因の1つは、エンジニア自身が技術をビジネス価値に変換できていないことにあると考え、新たなアプローチで、分散トレーシングの導入に再挑戦しているところです。
本発表では、分散トレーシングの導入に向けた私たちの現在進行形の挑戦を例に、技術をビジネス価値に変換する方法をご紹介します。
新しいツールや技術の新規導入に苦戦している方々は少なくないと思います。
同様の課題に悩まれている方々のヒントとなれば幸いです。

Avatar for Melonps

Melonps

January 31, 2026
Tweet

More Decks by Melonps

Other Decks in Programming

Transcript

  1. 4 Banri Kakehi(筧 万里) • 家庭用燃料電池 『エネファーム』の SREを担当 • ハッカソンが大好き

    • Webフロントエンドとモバイルアプリの  開発ばかりやっていました Speaker
  2. クラウド技術の発展と共にスケール 13 2012 2018 2025 2016 AiSEG販売開 始 AiSEG2販売開始 専用スマホアプリ

    スマートHEMSサービス開始 2015 サービスの歴史 信頼性向上の歴史 2020 スマートスピーカーサービス開始 実行基盤を K8sに移行 2022 メトリクス収集 ログ収集の開始 AiSEG3販売開始 2026 スマホアプリ刷新 2021 ログの中央集権化 2023 ネットワーク改善 分散トレーシング導入試み 無停止リリース
  3. 当時甘くみていたコストの見積もり 21 サービスが大きくなるほど、テレメトリ送受 信の負荷が増大。検索自体のリソースも無 視できない。 リソースコスト 1 SaaS利用料 2 トレース取り込み量/Span数/保持期間

    などに依存。サンプリングを考えておらず 膨大になった。 実装コスト 3 SDKの使い方や計装のノウハウが全くな かった。当時は成熟度が足りず、技術的な 工夫が必要だった。 インフラ負荷とコストが 想定の1.5倍 年間の利用予想額を 1か月で使い切り 用意した工数を 2か月で使い切り
  4. 長期的な価値創出の停滞 25 ◎タスク優先度の設定方針が定まっていなかった Do Last Avoid Do Fast Do Second

    緊急度 タスクの大きさ ・脆弱性対応 ・インシデント対応 ・EOL ・新機能開発 ・可観測性向上 ・分散トレーシング ・トイル撲滅 High Mid Low None タスク管理マトリックス 分散トレーシングは放置されがちな課題に
  5. コストの見積もり 31 ◎自動計装 +サンプリング戦略設定の場合 サンプリング戦略の設定により コントロール可能に。 リソースコスト 1 SaaSの利用コスト 2

    必要な機能を絞り込むことで、 まずはSaaSなしでの実現を狙う 実装コスト 3 自動計装を主体としてサービスへの 手動計装を最小限に抑える。 不足している部分はクリティカルパスか ら手動計装を追加する。
  6. まずSREに対する理解を深めた 33 ◎社内の勉強会からスタート • すぐに始められることを探した • モニタリング • ポストモーテム •

    参考にできる部分を探した • ビジネス価値に貢献する指標の定義方法 • 自動化によって生まれる価値の見積もり方 SRE サイトリライアビリティエンジニアリング, O’Reilly Japan, https://www.oreilly.co.jp/books/9784873117911/
  7. 参考:Googleにおける信頼性の制御 ◎信頼性を保ちながらどうやって自動化を進めたか • SLO(サービスレベル目標) :ユーザーが満足するために守るべきサービスの品質目標 • エラーバジェット :SLOを守るために、どれだけのダウンタイムやエラーを許容するか 信頼性向上 自動化・

    トイル削減 開発を進めすぎると 信頼性が置き去りになる 信頼性を高めぎると 開発が遅れる SLOに紐づくエラーバジェット の 消費状態で決定 34 しかし、最初の一歩として進めるにはまだハードルがあった
  8. ビジネス価値への貢献度を見積もる 36 ◎分散トレーシングの導入の貢献度は? 得られる価値創出の時間 = 4 [時間/件] × 2 [件/月]

    + 10 [時間] = 18 [時間/月] 問い合わせ調査時間の減少 得られる価値創出の時間 = 3 [時間/週] × 0.5 × 4 [週間] = 6 [時間/月] 属人化の解消