Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ジョインしたてのSREが信頼性向上に取り組む (監視設計編)
Search
coconala_engineer
February 15, 2024
Technology
0
540
ジョインしたてのSREが信頼性向上に取り組む (監視設計編)
2024-02-14に開催されたファインディ株式会社様主催のイベント「TechBrew in 東京 〜SRE大集合!信頼性を高める取り組み〜」でのKKの登壇資料
coconala_engineer
February 15, 2024
Tweet
Share
More Decks by coconala_engineer
See All by coconala_engineer
IaC運用を続けて出会うイシューたち
coconala_engineer
0
67
CDN+αの利活用でサイトの高速化を実現してみた
coconala_engineer
0
66
SIEMを用いて、セキュリティログ分析の可視化と分析を実現し、PDCAサイクルを回してみた
coconala_engineer
0
440
CircleCIを活用して AWSへの継続的デリバリーを 実践する
coconala_engineer
1
260
技術広報経験0のEMがエンジニアブランディングをはじめてみた
coconala_engineer
1
350
開発生産性運用上の課題と 上流工程まで視野に入れた改善の取り組み
coconala_engineer
1
370
「しでかした」右も左もわからないと こんなミスもできる!
coconala_engineer
0
22
1年間のレビューの中からTOP3を紹介!
coconala_engineer
0
16
PagerDutyを活用したオンコール運用の軌跡(ココナラ編)
coconala_engineer
1
980
Other Decks in Technology
See All in Technology
Documentação de Produtos: Artefatos essenciais na prática
rigolon
1
270
Zero Data Loss Autonomous Recovery Service サービス概要
oracle4engineer
PRO
0
2k
PhpStorm超絶技巧40分集中講義 #phpconkagawa
yusuke
4
690
kcp: Kubernetes APIs Are All You Need #techfeed_live / TechFeed Experts Night 28th
ytaka23
1
180
Kaggleで学ぶ系列データのための深層学習モデリング
yu4u
7
1.7k
QAエンジニアが伝えたい品質保証の羅針盤 / Compass for Quality Assurance
mii3king
1
310
OPENLOGI Company Profile for engineer
hr01
1
2.1k
PHP 9 に備えよ - 動的プロパティ、どうすればいぃ?
taisukearase
0
140
データ基盤を支える技術
chanyou0311
5
2.9k
Amplify 🩷 Bedrock 〜生成AI入門〜
minorun365
PRO
10
1.2k
AI JIMY - 登壇(インストール編)
hanacchi
0
130
試作とデモンストレーション / Prototyping and Demonstrations
ks91
PRO
0
150
Featured
See All Featured
A Modern Web Designer's Workflow
chriscoyier
689
190k
From Idea to $5000 a Month in 5 Months
shpigford
377
45k
What’s in a name? Adding method to the madness
productmarketing
PRO
17
2.7k
VelocityConf: Rendering Performance Case Studies
addyosmani
321
23k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
323
20k
Intergalactic Javascript Robots from Outer Space
tanoku
266
26k
The Pragmatic Product Professional
lauravandoore
26
5.9k
Visualization
eitanlees
137
14k
Infographics Made Easy
chrislema
238
18k
GraphQLとの向き合い方2022年版
quramy
33
12k
No one is an island. Learnings from fostering a developers community.
thoeni
16
2.1k
Transcript
Copyright coconala Inc. All Rights Reserved. ジョインしたてのSREが 信頼性向上に取り組む (監視設計編) 2024/02/14
TechBrew in 東京 〜SRE大集合!信頼性を高める取り組み〜 株式会社ココナラ KK
Copyright coconala Inc. All Rights Reserved. Agenda 自己紹介 監視設計の取り組みに至るまで 新米SREなりの監視設計の戦い方
今回の監視設計での技術的なポイント 2 1 2 3 4 5
Copyright coconala Inc. All Rights Reserved. 自己紹介 本編にもちょっと関係する私のバックグラウンド chapter 01
3
Copyright coconala Inc. All Rights Reserved. - 2020-04、大学卒業後にSIerへ入社 - PMO
: インフラエンジニア = 7 : 3 くらいの割合で3年間働く - 2023-05にココナラにジョイン インフラ・SRE チームに所属 - 漫才師 オードリーのファン 自己紹介 1 新卒 → PMO 兼 インフラエンジニア(3年) → SRE 4
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで chapter 02 ※注釈テキストがここに入る
5
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで 2 インフラ・SREチームの役割 6
プロジェクト - 会社全体で推進する プロジェクトへの参画 - メンバー2名1組で参画す る ミッション - 中規模・大規模の 技術的課題 - 1 ~ 2 人で対応する - 計画 → 実行 → 運用整備 を対応者の主導で行う リアクティブ - 小規模の技術的課題 - トイルの削減 - 他チームからの依頼 - インフラの メンテナンス対応
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで 2 インフラ・SREチームの役割 7
プロジェクト - 会社全体で推進する プロジェクトへの参画 - メンバー2名1組で参画す る ミッション - 中規模・大規模の 技術的課題 - 1 ~ 2 人で対応する - 計画 → 実行 → 運用整備 を対応者の主導で行う リアクティブ - 小規模の技術的課題 - トイルの削減 - 他チームからの依頼 - インフラの メンテナンス対応
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで 2 監視設定およびアラートの整備・統合 8
このミッションに対して、打ち手を考え、実 装し、運用ラインに乗せる アサイン当初の私の頭の中 - 監視システムのあるべき姿って? - どうなっていたらこのミッションを達成したことになる? - ココナラの監視システムで足りてない部分・課題は? - 最短で、最大の価値を出すにはどう優先順位をつける?
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 足りない知識・知恵をバックグラウンドで補う chapter 03
9
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 とにかくインプット 10
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ココナラに今、最適な監視って? 11
ベストプラクティスは理解したけど、 そのままココナラに適用できる訳ではない...
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ココナラに今、最適な監視って? 12
ベストプラクティスは理解したけど、 そのままココナラに適用できる訳ではない... - 誰がこのダッシュボードを見るのか? - このダッシュボードの目的は何か? (Jeffery D. Smith (2022) システム運用アンチパターン 株式会社オライリー・ジャパン) これって前職で叩き込まれた5W1Hでは!?
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークをエンジニアリングに応用する 13
アプリケーション開発に RailsやGinなどのフレームワークがあるように システム・アプリケーション設計・要件定義では ビジネスフレームワークが使える \ おすすめ! / - 歴戦のエンジニアが体得している”勘”に、分析で辿り着く - リーダーや経営層が納得できる説明を用意する - 自分の頭の中を整理でき、ドキュメントとして残せる
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(ゴール設定) 14
AsIs / Tobe 分析 - 現状と理想から課題を抽出 ロジカルツリー - 課題の深掘り ロードマップ - ゴールまでの道のりを示す
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(監視設計) 15
5W1Hで、メトリクス監視の監視設計を行う - Why, Who, Whenから要件を導く Q. A. 要件 (Why) 監視システム改善の 目的は何か? - アラート抜け漏れの削減 - 抜け漏れのない状態の継続 - システム成長に伴う拡張が容易 - アラートの網羅性担保 (Who) 対象者は誰か? - インフラ・SREチーム - 習得が容易 (When) 監視のユースケース は? - 障害発生時の即時アラート発報 - インシデントの予兆検知・原因特定 - パフォーマンスチューニング - メトリクス転送・アラート発報の即時性 - カスタマイズが容易
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(監視設計) 16
5W1Hで、メトリクス監視の監視設計を行う - 要件からWhere, What, How(監視システムの姿)を明らかにする (Where) 使用する監視システム (What) 何を監視するか? (How) 実装と運用の方法 - Terraformで管理する (datadog_monitor_json と templatefile関数の利用) - Amazon CloudWatch Metric Streamsの利用 - リソース追加・削除時の 対応ドキュメントの作成
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(監視設計)
Copyright coconala Inc. All Rights Reserved. 今回の監視設計での技術的なポイント 迅速な検知と継続的な改善の下準備 chapter 04
18
Copyright coconala Inc. All Rights Reserved. 最大15分あったメトリクス転送のラグを、 3分程度まで短縮 - 2021-03-31
GA - CloudWatchのメトリクスをFirehoseでストリーミング デフォルトはdatadogからCloudWatchをポーリング - CloudWatchとdatadogのメトリクス反映の差は、 Firehoseのバッファ間隔程度 (デフォルト60秒) 今回の監視設計での技術的なポイント 4 CloudWatch Metric Streamsで即時性を担保する 19
Copyright coconala Inc. All Rights Reserved. 閾値のカーディナリティが高く、管理が複雑 になりがちなアラートの管理を楽にする 今回の監視設計での技術的なポイント 4
datadog_monitor_json とtemplatefile関数の利用 20 - Datadog Monitorの設定をjsonで管理できるリソース “datadog_monitor_json” - jsonなどのfile内変数に値を代入できるtemplatefile関数 これを組み合わせて、monitorのTerraformコード管理を楽にする 本日登壇の森さんの記事を参考にさせていただいてます! ・TerraformでDatadogモニターを実装するならdatadog_monitor_jsonを使おう ( https://zenn.dev/yuta28/articles/datadog_monitor_json_terraform )
Copyright coconala Inc. All Rights Reserved. 21 以上です!