Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ジョインしたてのSREが信頼性向上に取り組む (監視設計編)
Search
coconala_engineer
February 15, 2024
Technology
0
530
ジョインしたてのSREが信頼性向上に取り組む (監視設計編)
2024-02-14に開催されたファインディ株式会社様主催のイベント「TechBrew in 東京 〜SRE大集合!信頼性を高める取り組み〜」でのKKの登壇資料
coconala_engineer
February 15, 2024
Tweet
Share
More Decks by coconala_engineer
See All by coconala_engineer
IaC運用を続けて出会うイシューたち
coconala_engineer
0
63
CDN+αの利活用でサイトの高速化を実現してみた
coconala_engineer
0
63
SIEMを用いて、セキュリティログ分析の可視化と分析を実現し、PDCAサイクルを回してみた
coconala_engineer
0
370
CircleCIを活用して AWSへの継続的デリバリーを 実践する
coconala_engineer
1
250
技術広報経験0のEMがエンジニアブランディングをはじめてみた
coconala_engineer
1
340
開発生産性運用上の課題と 上流工程まで視野に入れた改善の取り組み
coconala_engineer
1
340
「しでかした」右も左もわからないと こんなミスもできる!
coconala_engineer
0
19
1年間のレビューの中からTOP3を紹介!
coconala_engineer
0
16
PagerDutyを活用したオンコール運用の軌跡(ココナラ編)
coconala_engineer
1
930
Other Decks in Technology
See All in Technology
ExaDB-D dbaascli で出来ること
oracle4engineer
PRO
0
2.1k
ルーターでプレゼンする
puhitaku
1
3.1k
地理空間データ可視化・解析・活用ソリューション Pacific Spatial Solutions (PSS)
pacificspatialsolutions
0
330
Tellus の衛星データを見てみよう #mf_fukuoka
kongmingstrap
0
260
[新卒向け研修資料] テスト文字列に「うんこ」と入れるな(2024年版)
infiniteloop_inc
4
17k
今年のRubyKaigiはProfiler Year🤘
osyoyu
0
270
Microsoft for Startups Founders Hub_20240429 update
daikikanemitsu
1
2.4k
Além do else! Categorizando Pokemóns com Pattern Matching no JavaScript
wmsbill
0
690
R3のコードから見る実践LINQ実装最適化・コンカレントプログラミング実例
neuecc
3
1.4k
EMとして2023年度に頑張ったこと / What we did well in FY2023 as a EM
pauli
1
200
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
4
37k
LayerXにおけるLLMプロダクト開発の今までとこれから
layerx
PRO
3
570
Featured
See All Featured
ParisWeb 2013: Learning to Love: Crash Course in Emotional UX Design
dotmariusz
104
6.6k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
32
6k
Six Lessons from altMBA
skipperchong
22
3k
4 Signs Your Business is Dying
shpigford
176
21k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
41
4.4k
A Modern Web Designer's Workflow
chriscoyier
689
190k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
10
1.5k
Large-scale JavaScript Application Architecture
addyosmani
504
110k
The Power of CSS Pseudo Elements
geoffreycrofte
61
5k
Thoughts on Productivity
jonyablonski
59
3.8k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
22
1.6k
What the flash - Photography Introduction
edds
64
11k
Transcript
Copyright coconala Inc. All Rights Reserved. ジョインしたてのSREが 信頼性向上に取り組む (監視設計編) 2024/02/14
TechBrew in 東京 〜SRE大集合!信頼性を高める取り組み〜 株式会社ココナラ KK
Copyright coconala Inc. All Rights Reserved. Agenda 自己紹介 監視設計の取り組みに至るまで 新米SREなりの監視設計の戦い方
今回の監視設計での技術的なポイント 2 1 2 3 4 5
Copyright coconala Inc. All Rights Reserved. 自己紹介 本編にもちょっと関係する私のバックグラウンド chapter 01
3
Copyright coconala Inc. All Rights Reserved. - 2020-04、大学卒業後にSIerへ入社 - PMO
: インフラエンジニア = 7 : 3 くらいの割合で3年間働く - 2023-05にココナラにジョイン インフラ・SRE チームに所属 - 漫才師 オードリーのファン 自己紹介 1 新卒 → PMO 兼 インフラエンジニア(3年) → SRE 4
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで chapter 02 ※注釈テキストがここに入る
5
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで 2 インフラ・SREチームの役割 6
プロジェクト - 会社全体で推進する プロジェクトへの参画 - メンバー2名1組で参画す る ミッション - 中規模・大規模の 技術的課題 - 1 ~ 2 人で対応する - 計画 → 実行 → 運用整備 を対応者の主導で行う リアクティブ - 小規模の技術的課題 - トイルの削減 - 他チームからの依頼 - インフラの メンテナンス対応
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで 2 インフラ・SREチームの役割 7
プロジェクト - 会社全体で推進する プロジェクトへの参画 - メンバー2名1組で参画す る ミッション - 中規模・大規模の 技術的課題 - 1 ~ 2 人で対応する - 計画 → 実行 → 運用整備 を対応者の主導で行う リアクティブ - 小規模の技術的課題 - トイルの削減 - 他チームからの依頼 - インフラの メンテナンス対応
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで 2 監視設定およびアラートの整備・統合 8
このミッションに対して、打ち手を考え、実 装し、運用ラインに乗せる アサイン当初の私の頭の中 - 監視システムのあるべき姿って? - どうなっていたらこのミッションを達成したことになる? - ココナラの監視システムで足りてない部分・課題は? - 最短で、最大の価値を出すにはどう優先順位をつける?
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 足りない知識・知恵をバックグラウンドで補う chapter 03
9
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 とにかくインプット 10
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ココナラに今、最適な監視って? 11
ベストプラクティスは理解したけど、 そのままココナラに適用できる訳ではない...
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ココナラに今、最適な監視って? 12
ベストプラクティスは理解したけど、 そのままココナラに適用できる訳ではない... - 誰がこのダッシュボードを見るのか? - このダッシュボードの目的は何か? (Jeffery D. Smith (2022) システム運用アンチパターン 株式会社オライリー・ジャパン) これって前職で叩き込まれた5W1Hでは!?
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークをエンジニアリングに応用する 13
アプリケーション開発に RailsやGinなどのフレームワークがあるように システム・アプリケーション設計・要件定義では ビジネスフレームワークが使える \ おすすめ! / - 歴戦のエンジニアが体得している”勘”に、分析で辿り着く - リーダーや経営層が納得できる説明を用意する - 自分の頭の中を整理でき、ドキュメントとして残せる
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(ゴール設定) 14
AsIs / Tobe 分析 - 現状と理想から課題を抽出 ロジカルツリー - 課題の深掘り ロードマップ - ゴールまでの道のりを示す
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(監視設計) 15
5W1Hで、メトリクス監視の監視設計を行う - Why, Who, Whenから要件を導く Q. A. 要件 (Why) 監視システム改善の 目的は何か? - アラート抜け漏れの削減 - 抜け漏れのない状態の継続 - システム成長に伴う拡張が容易 - アラートの網羅性担保 (Who) 対象者は誰か? - インフラ・SREチーム - 習得が容易 (When) 監視のユースケース は? - 障害発生時の即時アラート発報 - インシデントの予兆検知・原因特定 - パフォーマンスチューニング - メトリクス転送・アラート発報の即時性 - カスタマイズが容易
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(監視設計) 16
5W1Hで、メトリクス監視の監視設計を行う - 要件からWhere, What, How(監視システムの姿)を明らかにする (Where) 使用する監視システム (What) 何を監視するか? (How) 実装と運用の方法 - Terraformで管理する (datadog_monitor_json と templatefile関数の利用) - Amazon CloudWatch Metric Streamsの利用 - リソース追加・削除時の 対応ドキュメントの作成
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(監視設計)
Copyright coconala Inc. All Rights Reserved. 今回の監視設計での技術的なポイント 迅速な検知と継続的な改善の下準備 chapter 04
18
Copyright coconala Inc. All Rights Reserved. 最大15分あったメトリクス転送のラグを、 3分程度まで短縮 - 2021-03-31
GA - CloudWatchのメトリクスをFirehoseでストリーミング デフォルトはdatadogからCloudWatchをポーリング - CloudWatchとdatadogのメトリクス反映の差は、 Firehoseのバッファ間隔程度 (デフォルト60秒) 今回の監視設計での技術的なポイント 4 CloudWatch Metric Streamsで即時性を担保する 19
Copyright coconala Inc. All Rights Reserved. 閾値のカーディナリティが高く、管理が複雑 になりがちなアラートの管理を楽にする 今回の監視設計での技術的なポイント 4
datadog_monitor_json とtemplatefile関数の利用 20 - Datadog Monitorの設定をjsonで管理できるリソース “datadog_monitor_json” - jsonなどのfile内変数に値を代入できるtemplatefile関数 これを組み合わせて、monitorのTerraformコード管理を楽にする 本日登壇の森さんの記事を参考にさせていただいてます! ・TerraformでDatadogモニターを実装するならdatadog_monitor_jsonを使おう ( https://zenn.dev/yuta28/articles/datadog_monitor_json_terraform )
Copyright coconala Inc. All Rights Reserved. 21 以上です!