Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
通知と手順書をセットで 設計してみた / Design Notification and Ru...
Search
Ryo Yoshii
July 26, 2021
Technology
4
1.2k
通知と手順書をセットで 設計してみた / Design Notification and Runbook
2021-07-26(月)19:00 - 20:40 JST 開催の Ops JAWS Meetup#19 勉強会で発表した資料です
Ryo Yoshii
July 26, 2021
Tweet
Share
More Decks by Ryo Yoshii
See All by Ryo Yoshii
Amazon Bedrock Agents と Chatbot で無敵のOpsになる
yoshiiryo1
1
96
組織横断型であるがゆえの楽しみと苦しみ
yoshiiryo1
4
1.1k
EC2 の運用と監視の基本をおさらい 「監視、バックアップ、操作」
yoshiiryo1
0
440
re:Invent2023 現地レポ& Cloud Operation サービス Update
yoshiiryo1
0
160
Amazon CloudWatch Application Signals(Preview) 徹底解説
yoshiiryo1
0
1.4k
増え続ける公開アプリケーションへの悪意あるアクセス_多層防御を取り入れるSRE活動_.pdf
yoshiiryo1
2
2.3k
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
yoshiiryo1
0
1.1k
AWS Systems Manager Incident Manager で実現するインシデント管理
yoshiiryo1
0
1.6k
インシデント対応の成熟度とベストプラクティス
yoshiiryo1
0
1.7k
Other Decks in Technology
See All in Technology
オプトインカメラ:UWB測位を応用したオプトイン型のカメラ計測
matthewlujp
0
170
PHPからGoへのマイグレーション for DMMアフィリエイト
yabakokobayashi
1
170
Postman と API セキュリティ / Postman and API Security
yokawasa
0
200
KubeCon NA 2024 Recap / Running WebAssembly (Wasm) Workloads Side-by-Side with Container Workloads
z63d
1
250
多領域インシデントマネジメントへの挑戦:ハードウェアとソフトウェアの融合が生む課題/Challenge to multidisciplinary incident management: Issues created by the fusion of hardware and software
bitkey
PRO
2
100
社外コミュニティで学び社内に活かす共に学ぶプロジェクトの実践/backlogworld2024
nishiuma
0
260
AWS re:Invent 2024 ふりかえり
kongmingstrap
0
130
MLOps の現場から
asei
6
640
新機能VPCリソースエンドポイント機能検証から得られた考察
duelist2020jp
0
220
終了の危機にあった15年続くWebサービスを全力で存続させる - phpcon2024
yositosi
4
5.3k
祝!Iceberg祭開幕!re:Invent 2024データレイク関連アップデート10分総ざらい
kniino
3
260
Microsoft Azure全冠になってみた ~アレを使い倒した者が試験を制す!?~/Obtained all Microsoft Azure certifications Those who use "that" to the full will win the exam! ?
yuj1osm
2
110
Featured
See All Featured
Imperfection Machines: The Place of Print at Facebook
scottboms
266
13k
Optimising Largest Contentful Paint
csswizardry
33
3k
Mobile First: as difficult as doing things right
swwweet
222
9k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
170
Building a Scalable Design System with Sketch
lauravandoore
460
33k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
Side Projects
sachag
452
42k
How STYLIGHT went responsive
nonsquared
95
5.2k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
17
2.3k
Transcript
通知と手順書をセットで 設計してみた Ops JAWS Meetup#19 勉強会 2021年7月26日 1 ネクストモード株式会社 吉井
亮
自己紹介 吉井 亮 ネクストモード株式会社 Twitter : @YoshiiRyo1 Blog : https://dev.classmethod.jp/author/yoshii-ryo/
好きな言葉 : No human labor is no human error. 2
本日の内容 ▪ 話すこと ・通知された後の行動 ・つらみ ▪ 話さないこと ・製品の紹介 3
4 システム構成
今回の構成 (スーパー簡易版) 5 HTTPS. SFTP, 管理画面 Customer DC 監視系は CloudWatch
Security系 がっつり通知
6 通知と手順書
やめておいたほうが… と言いたくなる通知 • とりあえず CPU/Memory Usage (設計が無い) • とりあえずメール (重要度の分類が無い)
• 全サーバー ”89の法則” (80%Warn,90%Crit) • ログは ”error” で検知 • 過剰なしきい値 (1回でも通知など) • 定期的な見直しが無い 7
最低限やっておきたい通知 ★ システム利用者が困る事象を発見する レスポンス低下、画面ハングアップなどを メトリクスやログから検知したい。 8
最低限やっておきたい通知 ★ 要アクションと Notice は分ける 要アクションは社用携帯でポップアップなど 復旧アクションが取りやすいように。 Notice は平日日中帯の暇な時に見るくらいで。 9
最低限やっておきたい通知 ★ 単純なメトリクスだけで済まさない Anomaly Detection で異常を検知。 Count だけではなく割合をみる。 「HTTP 500が
nn 回」より 「全リクエストの nn %」のほうが実用的 10
通知が飛んだ後に何するか? 通知ごとにアクションを決めておかないと 通知する意味が無い。 ただノイジーなだけの通知は誰も見なくなる。 手順書を作っておきましょう 11
わかりやすい通知にするには 1. 通知に回復手順書を含ませる a. がっつり作り込む b. メンテナンスは大変かも 2. 通知内容と手順をドキュメントに残しておく 今回こっち
12
ドキュメントの内容 • アラート名 (件名やSlack表示名など) • アラートの意味 • アラート受領後の対応 • インシデント責任者、対応してほしいメンバー
• 影響範囲、依存関係 13
14
ドキュメントの内容 サンプル https://github.com/YoshiiRyo1/document-templates-for-aws/blob/master/design/doc_source/cloud-design-monitoring.md 15
つらかったこと 1 飛んでくる通知の内容が事前にわからない。 セキュリティ系や Health は特に。 ので、構築の初期段階から通知を仕込んでおいて 様々な通知内容をプロジェクト内に溜め込む。 横展開も忘れずに (社内ナレッジ、GitHub
等) 16
つらかったこと 2 ドキュメントの更新を継続できるか? 対応手順の更新、しきい値の修正、 通知内容の更新などドキュメントは継続的改善が 大前提。 17
18 まとめ
今回の構成 (簡易版) 通知は飛ばしたあとが大切。 飛ばしたあとのアクションを定義して 手順書を作りましょう。 システム動作前には不明なところも多いので 動かしながら更新していきましょう。 19
ありがとうございました 20