Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ジョインしたてのSREが信頼性向上に取り組む (監視設計編)
Search
coconala_engineer
February 15, 2024
Technology
0
1k
ジョインしたてのSREが信頼性向上に取り組む (監視設計編)
2024-02-14に開催されたファインディ株式会社様主催のイベント「TechBrew in 東京 〜SRE大集合!信頼性を高める取り組み〜」でのKKの登壇資料
coconala_engineer
February 15, 2024
Tweet
Share
More Decks by coconala_engineer
See All by coconala_engineer
「守りのIT」から「攻めの基盤」へ!上場前後でやりきった情シス・モダナイゼーション
coconala_engineer
0
81
障害対応訓練、その前に
coconala_engineer
0
220
生成AI時代を勝ち抜くエンジニア組織マネジメント
coconala_engineer
0
37k
AI時代を生き抜く 新卒エンジニアの生きる道
coconala_engineer
1
510
SwiftTestingによる_モダンなiOSテスト手法とBDD.pdf
coconala_engineer
0
290
SRE × マネジメントレイヤーが挑戦した組織・会社のオブザーバビリティ改革 ― ビジネス価値と信頼性を両立するリアルな挑戦
coconala_engineer
0
920
SIEMを利活用した信頼性向上プロセスと実践
coconala_engineer
0
52
Cursorを使って 新機能開発してみて 感じたこと
coconala_engineer
0
170
社内にAIレビューツール導入してみた
coconala_engineer
0
170
Other Decks in Technology
See All in Technology
AIエージェントを5分で一気におさらい!AIエージェント「構築」元年に備えよう
yakumo
1
140
Sansan Engineering Unit 紹介資料
sansan33
PRO
1
3.6k
「駆動」って言葉、なんかカッコイイ_Mitz
comucal
PRO
0
130
re:Invent2025 セッションレポ ~Spec-driven development with Kiro~
nrinetcom
PRO
2
170
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
2.9k
ソフトウェアエンジニアとAIエンジニアの役割分担についてのある事例
kworkdev
PRO
1
370
Eight Engineering Unit 紹介資料
sansan33
PRO
0
6.1k
BidiAgent と Nova 2 Sonic から考える音声 AI について
yama3133
2
140
Claude Codeを使った情報整理術
knishioka
20
12k
AIと融ける人間の冒険
pujisi
0
110
AI駆動開発ライフサイクル(AI-DLC)の始め方
ryansbcho79
0
290
小さく、早く、可能性を多産する。生成AIプロジェクト / prAIrie-dog
visional_engineering_and_design
0
320
Featured
See All Featured
Making the Leap to Tech Lead
cromwellryan
135
9.7k
The Limits of Empathy - UXLibs8
cassininazir
1
200
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
34
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
First, design no harm
axbom
PRO
1
1.1k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
61
51k
ラッコキーワード サービス紹介資料
rakko
0
1.9M
Believing is Seeing
oripsolob
0
19
Transcript
Copyright coconala Inc. All Rights Reserved. ジョインしたてのSREが 信頼性向上に取り組む (監視設計編) 2024/02/14
TechBrew in 東京 〜SRE大集合!信頼性を高める取り組み〜 株式会社ココナラ KK
Copyright coconala Inc. All Rights Reserved. Agenda 自己紹介 監視設計の取り組みに至るまで 新米SREなりの監視設計の戦い方
今回の監視設計での技術的なポイント 2 1 2 3 4 5
Copyright coconala Inc. All Rights Reserved. 自己紹介 本編にもちょっと関係する私のバックグラウンド chapter 01
3
Copyright coconala Inc. All Rights Reserved. - 2020-04、大学卒業後にSIerへ入社 - PMO
: インフラエンジニア = 7 : 3 くらいの割合で3年間働く - 2023-05にココナラにジョイン インフラ・SRE チームに所属 - 漫才師 オードリーのファン 自己紹介 1 新卒 → PMO 兼 インフラエンジニア(3年) → SRE 4
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで chapter 02 ※注釈テキストがここに入る
5
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで 2 インフラ・SREチームの役割 6
プロジェクト - 会社全体で推進する プロジェクトへの参画 - メンバー2名1組で参画す る ミッション - 中規模・大規模の 技術的課題 - 1 ~ 2 人で対応する - 計画 → 実行 → 運用整備 を対応者の主導で行う リアクティブ - 小規模の技術的課題 - トイルの削減 - 他チームからの依頼 - インフラの メンテナンス対応
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで 2 インフラ・SREチームの役割 7
プロジェクト - 会社全体で推進する プロジェクトへの参画 - メンバー2名1組で参画す る ミッション - 中規模・大規模の 技術的課題 - 1 ~ 2 人で対応する - 計画 → 実行 → 運用整備 を対応者の主導で行う リアクティブ - 小規模の技術的課題 - トイルの削減 - 他チームからの依頼 - インフラの メンテナンス対応
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで 2 監視設定およびアラートの整備・統合 8
このミッションに対して、打ち手を考え、実 装し、運用ラインに乗せる アサイン当初の私の頭の中 - 監視システムのあるべき姿って? - どうなっていたらこのミッションを達成したことになる? - ココナラの監視システムで足りてない部分・課題は? - 最短で、最大の価値を出すにはどう優先順位をつける?
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 足りない知識・知恵をバックグラウンドで補う chapter 03
9
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 とにかくインプット 10
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ココナラに今、最適な監視って? 11
ベストプラクティスは理解したけど、 そのままココナラに適用できる訳ではない...
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ココナラに今、最適な監視って? 12
ベストプラクティスは理解したけど、 そのままココナラに適用できる訳ではない... - 誰がこのダッシュボードを見るのか? - このダッシュボードの目的は何か? (Jeffery D. Smith (2022) システム運用アンチパターン 株式会社オライリー・ジャパン) これって前職で叩き込まれた5W1Hでは!?
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークをエンジニアリングに応用する 13
アプリケーション開発に RailsやGinなどのフレームワークがあるように システム・アプリケーション設計・要件定義では ビジネスフレームワークが使える \ おすすめ! / - 歴戦のエンジニアが体得している”勘”に、分析で辿り着く - リーダーや経営層が納得できる説明を用意する - 自分の頭の中を整理でき、ドキュメントとして残せる
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(ゴール設定) 14
AsIs / Tobe 分析 - 現状と理想から課題を抽出 ロジカルツリー - 課題の深掘り ロードマップ - ゴールまでの道のりを示す
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(監視設計) 15
5W1Hで、メトリクス監視の監視設計を行う - Why, Who, Whenから要件を導く Q. A. 要件 (Why) 監視システム改善の 目的は何か? - アラート抜け漏れの削減 - 抜け漏れのない状態の継続 - システム成長に伴う拡張が容易 - アラートの網羅性担保 (Who) 対象者は誰か? - インフラ・SREチーム - 習得が容易 (When) 監視のユースケース は? - 障害発生時の即時アラート発報 - インシデントの予兆検知・原因特定 - パフォーマンスチューニング - メトリクス転送・アラート発報の即時性 - カスタマイズが容易
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(監視設計) 16
5W1Hで、メトリクス監視の監視設計を行う - 要件からWhere, What, How(監視システムの姿)を明らかにする (Where) 使用する監視システム (What) 何を監視するか? (How) 実装と運用の方法 - Terraformで管理する (datadog_monitor_json と templatefile関数の利用) - Amazon CloudWatch Metric Streamsの利用 - リソース追加・削除時の 対応ドキュメントの作成
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(監視設計)
Copyright coconala Inc. All Rights Reserved. 今回の監視設計での技術的なポイント 迅速な検知と継続的な改善の下準備 chapter 04
18
Copyright coconala Inc. All Rights Reserved. 最大15分あったメトリクス転送のラグを、 3分程度まで短縮 - 2021-03-31
GA - CloudWatchのメトリクスをFirehoseでストリーミング デフォルトはdatadogからCloudWatchをポーリング - CloudWatchとdatadogのメトリクス反映の差は、 Firehoseのバッファ間隔程度 (デフォルト60秒) 今回の監視設計での技術的なポイント 4 CloudWatch Metric Streamsで即時性を担保する 19
Copyright coconala Inc. All Rights Reserved. 閾値のカーディナリティが高く、管理が複雑 になりがちなアラートの管理を楽にする 今回の監視設計での技術的なポイント 4
datadog_monitor_json とtemplatefile関数の利用 20 - Datadog Monitorの設定をjsonで管理できるリソース “datadog_monitor_json” - jsonなどのfile内変数に値を代入できるtemplatefile関数 これを組み合わせて、monitorのTerraformコード管理を楽にする 本日登壇の森さんの記事を参考にさせていただいてます! ・TerraformでDatadogモニターを実装するならdatadog_monitor_jsonを使おう ( https://zenn.dev/yuta28/articles/datadog_monitor_json_terraform )
Copyright coconala Inc. All Rights Reserved. 21 以上です!