Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE 文化の醸成: stream-aligned チームに Enabling するために実施...
Search
nabeo
September 05, 2025
Technology
300
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SRE 文化の醸成: stream-aligned チームに Enabling するために実施した事例の解説 / Cloud Operator Days Tokyo 2025
nabeo
September 05, 2025
More Decks by nabeo
See All by nabeo
組織とプロダクトの変化に合わせたクラウド選択 / Henry Engineer Meetup #5
nabeo
0
82
kotlin-lsp の開発開始に触発されて、Emacs で Kotlin 開発に挑戦した記録 / kotlin‑lsp as a Catalyst: My Journey to Kotlin Development in Emacs
nabeo
3
1.1k
kotlin-lsp を Emacs で使えるようにしてみた / use kotlin-lsp in Emacs
nabeo
0
510
Docker Compose で手軽に手元環境を実現する / Simplifying Local Environments with Docker Compose #CinemaDeLT
nabeo
0
630
OpenTelemetry Collector 自身のモニタリング / Monitoring the OpenTelemetry Collector itself
nabeo
0
620
ヘンリーにおける可観測性獲得への取り組み
nabeo
2
2.3k
AWS CDK (TypeScript) を継続的にメンテ可能にするために取り入れているノウハウ集
nabeo
0
1.4k
AWS Organizations 組織を移動する時に 考えること 100 連発 (AWS Control Tower への組み込みを添えて) / Hatena Engineer Seminar #20
nabeo
2
3.5k
AWS Transit Gateway を使った内部ネットワークの構成変更の話 / AWS Transit Gateway and Me
nabeo
0
790
Other Decks in Technology
See All in Technology
やさしいA2A入門
minorun365
PRO
11
1.7k
機械学習を「社会実装」するということ 2026年夏版 / Social Implementation of Machine Learning June 2026 Version
moepy_stats
4
1.5k
EventBridge Connection
_kensh
5
690
就職⽀援サービスにおけるキャリアアドバイザーのシフトスケジューリング
recruitengineers
PRO
1
140
MIERUNE JCT 発表資料「宇宙から伊能忠敬ごっこ」
syuchimu
0
210
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development with AI-DLC
yoshidashingo
0
170
Disciplined Vibes: Scaling AI-Assisted Engineering
sheharyar
0
130
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
2026TECHFRESH畢業分享會 - Lightning Talk - 資料也要 CI/CD? 用 Airbyte 自動化資料同步
line_developers_tw
PRO
0
770
地球に⽣きるAI —GeoAIと「中間領域」— / AI Living on Earth — GeoAI and the “Intermediate Layer” —
ykiyota
0
280
なぜ Platform Engineering の土台に Kubernetes を選ぶのか
r4ynode
1
580
2026TECHFRESH畢業分享會 - AI 時代的人生存檔點
line_developers_tw
PRO
0
790
Featured
See All Featured
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
Site-Speed That Sticks
csswizardry
13
1.2k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
390
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
230
Mind Mapping
helmedeiros
PRO
1
240
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
How to Ace a Technical Interview
jacobian
281
24k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
Transcript
Copyright © Henry, Inc. All rights reserved. 株式会社ヘンリー SRE 渡辺
道和 (nabeo) Cloud Operator Days Tokyo 2025 クロージングイベント SRE 文化の醸成 stream-aligned チームに Enabling するために実施した事例の解説
Copyright © Henry, Inc. All rights reserved. 前説 このセッションでは「サービスの Realiability
はチームから! Enabling を通じて 実現する、信頼されるサービスづくり」で紹介された以下の事例についてさらに 掘り下げていきます • デプロイ計画会 • Honeycomb や Datadog などのオンボーディング • パフォーマンス分析会 2
Copyright © Henry, Inc. All rights reserved. 自己紹介 • 渡辺
道和 (nabeo) • SRE 室の SRE として2023年6月にジョイ ン ◦ オンプレのインフラエンジニアとしてキャリア をスタートし、クラウド側にシフトした ◦ Platform SRE としてクラウド基盤や監視基盤 の整備を担当している ◦ 最近はサービスの可観測性の向上をテーマにし て OpenTelemetry の利用推進などを通じた信 頼性の向上に興味がある X: @nabeo BlueSky: @nabeo.bsky.social Blog: https://nabeop.hatenablog.com/ 3
Copyright © Henry, Inc. All rights reserved. デプロイ計画会 4
Copyright © Henry, Inc. All rights reserved. • ヘンリーでは通常のデプロイを毎週実施している ◦
hotfix など通常のデプロイを待つことができないデプロイはデプロイ計画会を待たずにアプ リケーションごとにデプロイを実施している • 次回のデプロイ対象を統合テスト環境にデプロイするタイミングでデプロイ 計画会を実施している ◦ 複数のアプリケーションを同時にデプロイすることで相互作用による不具合が紛れ込まない ようにする ◦ デプロイ計画会では開発チームと SRE チームの担当者がオンラインで集合して、変更内容の レビューなどを実施している • 本来は準備が整った内容から都度デプロイしたり、Feature Flags などでリ リースとデプロイを完全に分離したいが、以下のような事情で通常デプロイ はまとめて毎週実施している ◦ 統合テスト環境でのリグレッションテストの実施期間を確保する 5 デプロイ計画会
Copyright © Henry, Inc. All rights reserved. 1. デプロイするサービスの差分の確認 ◦
本番環境へのデプロイ用 P-R を GitHub Actions で生成する 2. デプロイ中にエラーが発生する変更がデプロイ内容に含まれていないかの確 認 ◦ DB のスキーママイグレーションでエラーになる内容はないか ◦ アプリケーションが使用している API で非互換な変更が含まれていないか ◦ GraphQL Schema に非互換な変更が含まれていないか 3. 統合テスト環境へのデプロイ ◦ 本番環境へのデプロイ用 P-R で発火する GitHub Actions のワークフローが統合テスト環境 のデプロイを実行している ◦ 統合テスト環境へのデプロイが成功することを確認する 4. (本番環境へのデプロイ当日) ◦ デプロイ計画会以降にデプロイ対象に追加された内容の確認 6 デプロイ計画会の進行と本番環境へのデプロイ
Copyright © Henry, Inc. All rights reserved. • 開発チームはデプロイ計画会への参加を当番制にしている ◦
デプロイ計画会での知見がチーム間で共有される ◦ リスクが高い変更への解像度が上がる • 誰でも司会者ができるようにする • デプロイフローの解像度が上がることで、開発チームによるデプロイフロー の改善に繋がる ◦ デプロイ計画会と本番環境デプロイが各1時間で各チームから1人以上参加するミーティング なのでコストは高い ▪ N人のメンバーが毎週2時間なので週のうち1人日近く消費される会議になっている ▪ デプロイ計画会が早く終わるような改善提案が開発チームから出てくる ◦ hotfix でも同様のデプロイフローなので、デプロイフローの高速化が障害発生時の解消時間 の短縮につながる ▪ 開発チームのメンバーによる DB マイグレーションの時間短縮 7 デプロイ計画会による変化: デプロイが全てのチームの自分ごとになる
Copyright © Henry, Inc. All rights reserved. 監視・モニタリングツール の Enabling
8
Copyright © Henry, Inc. All rights reserved. • ヘンリーでは複数の監視サービスを用途によって使い分けている ◦
メトリクス監視: Datadog ◦ 分散トレース: Honeycomb • 以下の理由から積極的に開発チームのエンジニアにもアカウントを払い出し ている ◦ ユーザ数課金ではない ◦ Datadog や Honeycomb には要配慮個人情報を保存していない • Honeycomb はメジャーなツールではなく、分散トレースというメトリクス やログとは異なる概念なので導入時に開発チーム向けの説明会を実施した ◦ 説明会の様子は Google Meet で録画しておき、後から参照できるようにしている • 後述のアプリケーション版のパフォーマンス分析会は Honeycomb の継続的 な enabling も兼ねている 9 監視・モニタリングツールのオンボーディング
Copyright © Henry, Inc. All rights reserved. • 自分以外のユーザが実行したクエリの履歴が見れる ◦
他の人のクエリを真似したり、ユースケースを知ることができる • Slack で URL を共有した時のメッセージにクエリの内容が確認できる 10 Honeycomb: オンボーディングで重宝している機能
Copyright © Henry, Inc. All rights reserved. • Datadog のダッシュボードで新機能の利用状況
を医療機関様ごとに確認できるようにして、利 用が芳しくない医療機関様にアプローチできる ようにした • 開発チームで実施する負荷テストや通常時の調 査などで Datadog や Honeycomb を確認する ようになった ◦ 2025年7月は Honeycomb で実行されたクエリの61% が開発チームだった 11 開発チームでの活用事例
Copyright © Henry, Inc. All rights reserved. パフォーマンス分析会 12
Copyright © Henry, Inc. All rights reserved. • アプリケーションの変更によるインフラ側の変化を中長期で俯瞰し、課題を 見つける
◦ SRE チームが主体で開催し、各チームから有志が参加している ◦ SRE チームだけではアプリケーションの変更内容の解像度が低い ▪ インフラ側の変化がアプリケーション側のどの変更か判別できない ▪ インフラ側の変化が一時的なものなのか、恒久的な変化なのかを判別できない 13 パフォーマンス分析会
Copyright © Henry, Inc. All rights reserved. • API エンドポイントごとのレイテンシや処理負荷、エラーの発生状況
• 医療機関様ごとのエラーの発生状況 • DB の Slow Query の発生状況 • Cloud Run や Cloud SQL のインフラ負荷 14 パフォーマンス分析会: 確認している内容
Copyright © Henry, Inc. All rights reserved. • SRE チームと開発チームの共通言語として
Datadog の指標を使うことでコ ミュニケーションがスムーズになる • パフォーマンス分析会はインフラ側に重点が置かれているのでアプリケー ション側でも同様の取り組みを始めている ◦ Honeycomb を使ったアプリケーション側の課題発見のためのアプリケーション版のパフォー マンス分析会を立ち上げている ◦ アプリケーション版パフォーマンス分析会では Honeycomb のダッシュボードを眺めるだけ でなく、開発者の気になっている箇所を Honeycomb でどのように調査すれば良いかという 知見共有の場としても活用している 15 パフォーマンス分析会の効果
Copyright © Henry, Inc. All rights reserved. • stream-aligned チーム
(≒ 開発チーム) が自律的に信頼性向上に取り組める ように enabling する施策の具体について紹介しました ◦ 誰でも使える状態にしつつ伴走しつつ、開発チームに自分ごととして捉えてもらえるように することが必要 • すぐに実現できることではないので長い目で調整しつつ進めることが必要 16 まとめ:
Copyright © Henry, Inc. All rights reserved. 17 ヘンリーブースでもっと話しましょう!! 採用情報
募集中の採用ポジションや募集要項などがご確認いた だけます。 オープンポジションのカジュアル面談も募集していま すので、お気軽にお申し込みください。 技術ブログ ヘンリー製品開発チームが運営する技術ブログです。