$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
オブザーバビリティ文化を組織に浸透させるには / install observabil...
Search
mackerelio
August 07, 2025
Technology
0
870
オブザーバビリティ文化を組織に浸透させるには / install observability culture
2025-08-07 国産サービスで実践するオブザーバビリティ入門
https://mackerelio.connpass.com/event/361275/
mackerelio
August 07, 2025
Tweet
Share
More Decks by mackerelio
See All by mackerelio
クラウドネイティブに支える従量課金集計―Mackerel「daifukucho」の設計と運用
mackerelio
1
70
OpenTelemetryセマンティック規約の恩恵とMackerel APMにおける活用例 / SRE NEXT 2025
mackerelio
3
3.4k
アプリケーションの中身が見える!Mackerel APMの全貌と展望 / Mackerel APMリリースパーティ
mackerelio
0
890
Mackerel CREのご紹介
mackerelio
0
120
Mackerelが取り組むオブザーバビリティ - Mackerel Tech Day
mackerelio
0
1.2k
Mackerelの2023年ふりかえりと 今後のロードマップ
mackerelio
0
1.3k
Mackerel開発者が使ってほしいAWSインテグレーションの機能4選
mackerelio
0
170
Mackerelの現在と未来 2023 / Mackerel Drinkup #10
mackerelio
0
210
次世代Mackerelの アーキテクチャ / Mackerel Meetup #14 Next Generation Architecture
mackerelio
0
2.5k
Other Decks in Technology
See All in Technology
安いGPUレンタルサービスについて
aratako
2
2.6k
Edge AI Performance on Zephyr Pico vs. Pico 2
iotengineer22
0
100
【AWS re:Invent 2025速報】AIビルダー向けアップデートをまとめて解説!
minorun365
4
460
知っていると得する!Movable Type 9 の新機能を徹底解説
masakah
0
330
【pmconf2025】PdMの「責任感」がチームを弱くする?「分業型」から全員がユーザー価値に本気で向き合う「共創型開発チーム」への変遷
toshimasa012345
0
240
AI活用によるPRレビュー改善の歩み ― 社内全体に広がる学びと実践
lycorptech_jp
PRO
1
180
Microsoft Agent 365 を 30 分でなんとなく理解する
skmkzyk
1
890
pmconf2025 - 他社事例を"自社仕様化"する技術_iRAFT法
daichi_yamashita
0
780
コミューンのデータ分析AIエージェント「Community Sage」の紹介
fufufukakaka
0
420
バグハンター視点によるサプライチェーンの脆弱性
scgajge12
3
960
GitHub Copilotを使いこなす 実例に学ぶAIコーディング活用術
74th
3
960
Security Diaries of an Open Source IAM
ahus1
0
130
Featured
See All Featured
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
Documentation Writing (for coders)
carmenintech
76
5.2k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.6k
A designer walks into a library…
pauljervisheath
210
24k
The Cost Of JavaScript in 2023
addyosmani
55
9.3k
Testing 201, or: Great Expectations
jmmastey
46
7.8k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.3k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Code Reviewing Like a Champion
maltzj
527
40k
Site-Speed That Sticks
csswizardry
13
990
GitHub's CSS Performance
jonrohan
1032
470k
Transcript
ja.mackerel.io 2025-08-07 id:onk オブザーバビリティ文化を 組織に浸透させるには 国産サービスで実践するオブザーバビリティ入門
自己紹介 • 大仲 能史 a.k.a. id:onk • 芸歴20年 ◦ バックエンド〜インフラが主戦場
• 株式会社はてな チーフエンジニア • Mackerel開発チーム エンジニアリングマネージャー 2
力作の完成、 おめでとうございます 3
今日の話 4
オブザーバビリティ文化を 組織に浸透させるには 5
6
よろしくお願いします 7
アジェンダ • Mackerelという国産可観測性プラットフォーム • 定点観測の取り組み ◦ SRE ◦ PWG •
オブザーバビリティを組織に浸透させるには 8
9
“Mackerel” as an Observability Platform 10
サーバー監視サービスとして生まれたMackerel 11
ラベル付きメトリック機能のリリース 12
ラベル付きメトリック機能のリリース • 入力が多次元に ◦ 今までのメトリックは、横軸に時間、縦軸に値のみ ◦ 値にAttributeが付いているので、任意に絞り込める 13
APM機能のリリース 14
APM機能のリリース 15 • ボトルネックを見つける ◦ HTTPエンドポイントごと、DBクエリごとに集計 ◦ エラーの発生箇所ごとに集計 • アプリケーションの中の処理を追跡する
◦ トランザクション単位で処理の流れと時間を可視化
最近のMackerel • 誰でも簡単に始めやすく奥深い可観測性プラットフォーム ◦ サーバー監視はすぐに始められる ◦ ダッシュボードも一瞬で作れる • チームみんなで育てる監視 ◦
Slack上でグラフを見て、そのままコミュニケーション • アプリケーションの振る舞いを監視するAPM ◦ なんとなくの不調を、中を見通せる事実に変える 16
定点観測 1 7
SLO Monitoring • SLO ◦ SREの代表的なプラクティス • プロダクトチーム、プロダクトオーナーの意思決定 ◦ エラーバジェットポリシー
= SLOを満たせなかったら、 機能開発を緩めて信頼性の改善に取り組む • SLI/SLOを改善するフィードバックループ ◦ Revisit Date 18
• SLOを割っているか、割っていたか ◦ バーンレートアラートもあるが この場でも会話している • 対応したがSLOに影響が無いもの ◦ 対応必要ならSLOが足りない •
SLO緩める?厳しくする? SLO Monitoring 19
PWG (Performance Working Group) • サービスの運用状況をチームで見直す月次定例会 • はてなで2009年ぐらいから開催している • SRE本31章と酷似
20
SRE本31章 21
SRE本31章 22 私たちが行うミーティングの中で、平均以上 に有益なものが一つあります。それはプロダ クションミーティングと呼ばれるもので、 SREチームが自分たちと他の参加者に対し、 担当するサービスの状況について十分に注意 を払って明確に説明をすることによって、す べての関係者の全般的な認識を高め、サービ スの運用を改善するために行われます。
SRE本31章 23 定期的なミーティングにおいて設計上の判断 をサービスのパフォーマンスと合わせて考え てみることは、きわめて強力なフィードバッ クループになります。
SRE本31章 24 • プロダクション環境において予定されてい る変更 • メトリクス • 障害 •
ページされたイベント • ページされなかったイベント • これまでのアクションアイテム
PWG (Performance Working Group) • 直近の障害ふりかえり: 対応状況や再発防止策の確認 • 作業ログ: 手作業や臨時作業をふりかえって、根本原因や自動化の機会を探る
• アラート: 発火傾向の分析、閾値の見直し、不要なアラートの削除 • ダッシュボード: サービス状態を俯瞰し、変化を見つける。SLOも確認 • 今日話したいこと: 自由トピック • 今後の変化共有: アクセス傾向が変わるイベント、リリースや構成変更などの予 告 • 出たTODOのIssue化: 話した内容をその場でNext Actionに繋げる • 感想/雑談: ちょっとした気づきやモヤモヤの解消。このアジェンダ自体の見直 しとかも 25
アラート一覧眺めるコーナー 26 • Mackerelのアラート一覧とその傾向を眺める ◦ それぞれがなぜ発生しているのかを話す • 対応していないアラートがあったら ◦ そもそも不要なアラートじゃないか会話する
◦ その場で閾値を変えたり、監視ごと消したり • 頻出しているアラートがあったら ◦ 必要なアラートなら根本対応を検討する
• 議事録を取りつつその場で調べる • 調べきれないならオブザーバビリ ティが足りない ◦ 引き続き調査したり ◦ 計装するIssueを入れたり ダッシュボード
27
• 未来の見通しを議論できる ◦ 利用状況のトレンドや今後の開発予定の共有 ◦ キャパシティプランニング判断 • SREsのソフトスキル向上 ◦ Devに対してタスクを振る機会
• システム構成オンボーディング ◦ アーキテクチャや特性、コンポーネントのオーナーに対する 解像度が上がる PWGの効能 28
PWGの効能 • チームみんなで育てる監視 ◦ その場で会話して編集できる ◦ オオカミ少年アラートの抑制 ◦ ダッシュボードの改善 •
「情報」は意思決定と行動を促すものである ◦ これで意思決定できますか、行動できますか ◦ runbookを書けない監視は存在すべきではない 29
オブザーバビリティ文化を 組織に浸透させるには 3 0
• ツールの効果的な導入 • 開発者も巻き込む • 運用プロセスに組み込む オブザーバビリティ文化を組織に浸透させるには 31
ツールを導入して全体感を見る • Mackerel Agent • クラウドインテグレーション • 外形監視 • 自動計装
• O11yが足りないところを追加で計装する 32
• アプリケーションの中の処理を見る ◦ リソースの監視ではなくAPMならDevの興味範囲 ◦ オブザーバビリティの向上からスタートすると巻き込みやすい ▪ トレース ▪ エラー
• 特にエラーは分かりやすく開発者の領域 ◦ 負荷ではなくバグ 開発者も巻き込む 33
開発者も巻き込む 34 • ダッシュボードを利用した定点観測会 ◦ 全員がシステムの「普段の状態」を共通認識として持てる ▪ SLO、各コンポーネントの強弱、最近の傾向、限界値 ◦ 何かが起きたときに「異常な状態」に気づきやすくなる
▪ 勘と経験に頼った探索にものすごく役に立つ ▪ オブザーバビリティがある状態でも更に爆速に • 自分の守備範囲と思わせる ◦ 知識が無い→学習している、に変えたい
認知負荷 35 • 課題内在性負荷 ◦ 学習対象そのものの複雑さによる負荷 ◦ 専門用語が多い、概念が抽象的である • 課題外在性負荷
◦ 学習内容とは直接関係のない負荷 ◦ 分かりにくい説明、不要な情報過多 • 学習関連負荷 ◦ 知識を定着させるために必要な負荷 ◦ 問題を解く、他の人と議論する
• 使い道に合わせて情報量を減らす • 上から下に流れていくよう構成する ◦ 外側のコンポーネントを上に、内側のコンポーネントは下に • グラフに補助線を入れる ◦ 普段0.1〜0.2で、危険域が90.0、というメトリックもある
◦ 10.0程度の揺らぎは普段の100倍だけど、ただのノイズ • Markdownウィジェットを使って適宜説明を入れる 負荷をできる限り下げるダッシュボードの構築 36
運用プロセスに組み込む • リリース前後でAPMの画面を確認する ◦ 指標が悪化したらロールバックや、機能トグルをオフに • アラートを設定し、普段のチャットに通知が来るように ◦ インフラチャンネルではなく、開発チャンネルに通知すると Critical通知が来たら全員で対応するプロセスになりやすい
• 障害時に見るダッシュボード ◦ 初動フローに「ダッシュボードを確認する」と明記しておく ◦ ポストモーテムにもスクショやリンクを沢山貼って見慣れる 37
運用プロセスに組み込む 38 • 障害対応演習を定期的に行う ◦ 学習関連負荷をかける わかばちゃんと学ぶ サーバー監視 湊川あい 粕谷大輔
C&R研究所
まとめ 3 9
• Mackerelは可観測性プラットフォームです ◦ 最近はアプリケーションの中も見られるようになっています • 定点観測を義務づける=運用プロセスに組み込むと良い ◦ SLOをRevisit Date通りに運用する ◦
チームを徐々に育成していく • オブザーバビリティ文化を組織に浸透させるには ◦ 組織の運用プロセスに組み込む ◦ 認知負荷をできる限り下げながら、組織に対してパッチを当てる まとめ 40