Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
オブザーバビリティ文化を組織に浸透させるには / install observabil...
Search
mackerelio
August 07, 2025
Technology
0
800
オブザーバビリティ文化を組織に浸透させるには / install observability culture
2025-08-07 国産サービスで実践するオブザーバビリティ入門
https://mackerelio.connpass.com/event/361275/
mackerelio
August 07, 2025
Tweet
Share
More Decks by mackerelio
See All by mackerelio
OpenTelemetryセマンティック規約の恩恵とMackerel APMにおける活用例 / SRE NEXT 2025
mackerelio
3
3.1k
アプリケーションの中身が見える!Mackerel APMの全貌と展望 / Mackerel APMリリースパーティ
mackerelio
0
830
Mackerel CREのご紹介
mackerelio
0
110
Mackerelが取り組むオブザーバビリティ - Mackerel Tech Day
mackerelio
0
1.1k
Mackerelの2023年ふりかえりと 今後のロードマップ
mackerelio
0
1.2k
Mackerel開発者が使ってほしいAWSインテグレーションの機能4選
mackerelio
0
140
Mackerelの現在と未来 2023 / Mackerel Drinkup #10
mackerelio
0
200
次世代Mackerelの アーキテクチャ / Mackerel Meetup #14 Next Generation Architecture
mackerelio
0
2.5k
Mackerelの現在と未来 2023 / Mackerel Meetup #14
mackerelio
0
2.4k
Other Decks in Technology
See All in Technology
ヘンリー会社紹介資料(エンジニア向け) / company deck for engineer
henryofficial
0
390
入院医療費算定業務をAIで支援する:包括医療費支払い制度とDPCコーディング (公開版)
hagino3000
0
110
AIとともに歩んでいくデザイナーの役割の変化
lycorptech_jp
PRO
0
880
GraphRAG グラフDBを使ったLLM生成(自作漫画DBを用いた具体例を用いて)
seaturt1e
1
150
AI時代におけるデータの重要性 ~データマネジメントの第一歩~
ryoichi_ota
0
720
オブザーバビリティと育てた ID管理・認証認可基盤の歩み / The Journey of an ID Management, Authentication, and Authorization Platform Nurtured with Observability
kaminashi
1
720
.NET 10のBlazorの期待の新機能
htkym
0
110
Implementing and Evaluating a High-Level Language with WasmGC and the Wasm Component Model: Scala’s Case
tanishiking
0
180
FinOps について (ちょっと) 本気出して考えてみた
skmkzyk
0
220
ソフトウェアエンジニアの生成AI活用と、これから
lycorptech_jp
PRO
0
910
OSSで50の競合と戦うためにやったこと
yamadashy
3
990
IBC 2025 動画技術関連レポート / IBC 2025 Report
cyberagentdevelopers
PRO
2
180
Featured
See All Featured
Docker and Python
trallard
46
3.6k
Being A Developer After 40
akosma
91
590k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
Stop Working from a Prison Cell
hatefulcrawdad
272
21k
Making Projects Easy
brettharned
120
6.4k
Fireside Chat
paigeccino
41
3.7k
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
Done Done
chrislema
185
16k
Art, The Web, and Tiny UX
lynnandtonic
303
21k
Product Roadmaps are Hard
iamctodd
PRO
55
11k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
130k
Visualization
eitanlees
149
16k
Transcript
ja.mackerel.io 2025-08-07 id:onk オブザーバビリティ文化を 組織に浸透させるには 国産サービスで実践するオブザーバビリティ入門
自己紹介 • 大仲 能史 a.k.a. id:onk • 芸歴20年 ◦ バックエンド〜インフラが主戦場
• 株式会社はてな チーフエンジニア • Mackerel開発チーム エンジニアリングマネージャー 2
力作の完成、 おめでとうございます 3
今日の話 4
オブザーバビリティ文化を 組織に浸透させるには 5
6
よろしくお願いします 7
アジェンダ • Mackerelという国産可観測性プラットフォーム • 定点観測の取り組み ◦ SRE ◦ PWG •
オブザーバビリティを組織に浸透させるには 8
9
“Mackerel” as an Observability Platform 10
サーバー監視サービスとして生まれたMackerel 11
ラベル付きメトリック機能のリリース 12
ラベル付きメトリック機能のリリース • 入力が多次元に ◦ 今までのメトリックは、横軸に時間、縦軸に値のみ ◦ 値にAttributeが付いているので、任意に絞り込める 13
APM機能のリリース 14
APM機能のリリース 15 • ボトルネックを見つける ◦ HTTPエンドポイントごと、DBクエリごとに集計 ◦ エラーの発生箇所ごとに集計 • アプリケーションの中の処理を追跡する
◦ トランザクション単位で処理の流れと時間を可視化
最近のMackerel • 誰でも簡単に始めやすく奥深い可観測性プラットフォーム ◦ サーバー監視はすぐに始められる ◦ ダッシュボードも一瞬で作れる • チームみんなで育てる監視 ◦
Slack上でグラフを見て、そのままコミュニケーション • アプリケーションの振る舞いを監視するAPM ◦ なんとなくの不調を、中を見通せる事実に変える 16
定点観測 1 7
SLO Monitoring • SLO ◦ SREの代表的なプラクティス • プロダクトチーム、プロダクトオーナーの意思決定 ◦ エラーバジェットポリシー
= SLOを満たせなかったら、 機能開発を緩めて信頼性の改善に取り組む • SLI/SLOを改善するフィードバックループ ◦ Revisit Date 18
• SLOを割っているか、割っていたか ◦ バーンレートアラートもあるが この場でも会話している • 対応したがSLOに影響が無いもの ◦ 対応必要ならSLOが足りない •
SLO緩める?厳しくする? SLO Monitoring 19
PWG (Performance Working Group) • サービスの運用状況をチームで見直す月次定例会 • はてなで2009年ぐらいから開催している • SRE本31章と酷似
20
SRE本31章 21
SRE本31章 22 私たちが行うミーティングの中で、平均以上 に有益なものが一つあります。それはプロダ クションミーティングと呼ばれるもので、 SREチームが自分たちと他の参加者に対し、 担当するサービスの状況について十分に注意 を払って明確に説明をすることによって、す べての関係者の全般的な認識を高め、サービ スの運用を改善するために行われます。
SRE本31章 23 定期的なミーティングにおいて設計上の判断 をサービスのパフォーマンスと合わせて考え てみることは、きわめて強力なフィードバッ クループになります。
SRE本31章 24 • プロダクション環境において予定されてい る変更 • メトリクス • 障害 •
ページされたイベント • ページされなかったイベント • これまでのアクションアイテム
PWG (Performance Working Group) • 直近の障害ふりかえり: 対応状況や再発防止策の確認 • 作業ログ: 手作業や臨時作業をふりかえって、根本原因や自動化の機会を探る
• アラート: 発火傾向の分析、閾値の見直し、不要なアラートの削除 • ダッシュボード: サービス状態を俯瞰し、変化を見つける。SLOも確認 • 今日話したいこと: 自由トピック • 今後の変化共有: アクセス傾向が変わるイベント、リリースや構成変更などの予 告 • 出たTODOのIssue化: 話した内容をその場でNext Actionに繋げる • 感想/雑談: ちょっとした気づきやモヤモヤの解消。このアジェンダ自体の見直 しとかも 25
アラート一覧眺めるコーナー 26 • Mackerelのアラート一覧とその傾向を眺める ◦ それぞれがなぜ発生しているのかを話す • 対応していないアラートがあったら ◦ そもそも不要なアラートじゃないか会話する
◦ その場で閾値を変えたり、監視ごと消したり • 頻出しているアラートがあったら ◦ 必要なアラートなら根本対応を検討する
• 議事録を取りつつその場で調べる • 調べきれないならオブザーバビリ ティが足りない ◦ 引き続き調査したり ◦ 計装するIssueを入れたり ダッシュボード
27
• 未来の見通しを議論できる ◦ 利用状況のトレンドや今後の開発予定の共有 ◦ キャパシティプランニング判断 • SREsのソフトスキル向上 ◦ Devに対してタスクを振る機会
• システム構成オンボーディング ◦ アーキテクチャや特性、コンポーネントのオーナーに対する 解像度が上がる PWGの効能 28
PWGの効能 • チームみんなで育てる監視 ◦ その場で会話して編集できる ◦ オオカミ少年アラートの抑制 ◦ ダッシュボードの改善 •
「情報」は意思決定と行動を促すものである ◦ これで意思決定できますか、行動できますか ◦ runbookを書けない監視は存在すべきではない 29
オブザーバビリティ文化を 組織に浸透させるには 3 0
• ツールの効果的な導入 • 開発者も巻き込む • 運用プロセスに組み込む オブザーバビリティ文化を組織に浸透させるには 31
ツールを導入して全体感を見る • Mackerel Agent • クラウドインテグレーション • 外形監視 • 自動計装
• O11yが足りないところを追加で計装する 32
• アプリケーションの中の処理を見る ◦ リソースの監視ではなくAPMならDevの興味範囲 ◦ オブザーバビリティの向上からスタートすると巻き込みやすい ▪ トレース ▪ エラー
• 特にエラーは分かりやすく開発者の領域 ◦ 負荷ではなくバグ 開発者も巻き込む 33
開発者も巻き込む 34 • ダッシュボードを利用した定点観測会 ◦ 全員がシステムの「普段の状態」を共通認識として持てる ▪ SLO、各コンポーネントの強弱、最近の傾向、限界値 ◦ 何かが起きたときに「異常な状態」に気づきやすくなる
▪ 勘と経験に頼った探索にものすごく役に立つ ▪ オブザーバビリティがある状態でも更に爆速に • 自分の守備範囲と思わせる ◦ 知識が無い→学習している、に変えたい
認知負荷 35 • 課題内在性負荷 ◦ 学習対象そのものの複雑さによる負荷 ◦ 専門用語が多い、概念が抽象的である • 課題外在性負荷
◦ 学習内容とは直接関係のない負荷 ◦ 分かりにくい説明、不要な情報過多 • 学習関連負荷 ◦ 知識を定着させるために必要な負荷 ◦ 問題を解く、他の人と議論する
• 使い道に合わせて情報量を減らす • 上から下に流れていくよう構成する ◦ 外側のコンポーネントを上に、内側のコンポーネントは下に • グラフに補助線を入れる ◦ 普段0.1〜0.2で、危険域が90.0、というメトリックもある
◦ 10.0程度の揺らぎは普段の100倍だけど、ただのノイズ • Markdownウィジェットを使って適宜説明を入れる 負荷をできる限り下げるダッシュボードの構築 36
運用プロセスに組み込む • リリース前後でAPMの画面を確認する ◦ 指標が悪化したらロールバックや、機能トグルをオフに • アラートを設定し、普段のチャットに通知が来るように ◦ インフラチャンネルではなく、開発チャンネルに通知すると Critical通知が来たら全員で対応するプロセスになりやすい
• 障害時に見るダッシュボード ◦ 初動フローに「ダッシュボードを確認する」と明記しておく ◦ ポストモーテムにもスクショやリンクを沢山貼って見慣れる 37
運用プロセスに組み込む 38 • 障害対応演習を定期的に行う ◦ 学習関連負荷をかける わかばちゃんと学ぶ サーバー監視 湊川あい 粕谷大輔
C&R研究所
まとめ 3 9
• Mackerelは可観測性プラットフォームです ◦ 最近はアプリケーションの中も見られるようになっています • 定点観測を義務づける=運用プロセスに組み込むと良い ◦ SLOをRevisit Date通りに運用する ◦
チームを徐々に育成していく • オブザーバビリティ文化を組織に浸透させるには ◦ 組織の運用プロセスに組み込む ◦ 認知負荷をできる限り下げながら、組織に対してパッチを当てる まとめ 40