Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
信頼性の階層の一段目を積み上げる/Monitoring Dashboard
Search
shonansurvivors
May 20, 2022
Technology
3
3.4k
信頼性の階層の一段目を積み上げる/Monitoring Dashboard
shonansurvivors
May 20, 2022
Tweet
Share
More Decks by shonansurvivors
See All by shonansurvivors
SREのキャリアから経営に近づく - Enterprise Risk Managementを基に -
shonansurvivors
1
780
Adminaで実現するISMS/SOC2運用の効率化 〜 アカウント管理編 〜
shonansurvivors
4
520
SOC2取得の全体像
shonansurvivors
4
2.3k
非エンジニアによるDevin開発のためにSREができること
shonansurvivors
0
170
SREによる隣接領域への越境とその先の信頼性
shonansurvivors
2
880
スタートアップがAWSパートナーになって得られたこと
shonansurvivors
3
1.2k
AWSで構築するCDパイプラインとその改善
shonansurvivors
5
4k
Terraformでmoduleを使わずに複数環境を構築して感じた利点
shonansurvivors
3
3.8k
クロステナントアクセスを要件とするsmartroundのマルチテナントSaaSアーキテクチャ
shonansurvivors
0
540
Other Decks in Technology
See All in Technology
Playwrightで始めるUI自動テスト入門
devops_vtj
0
250
AIとの協業で実現!レガシーコードをKotlinらしく生まれ変わらせる実践ガイド
zozotech
PRO
2
380
【AWS reInvent 2025 関西組 事前勉強会】re:Inventの“感動と興奮”を思い出してモチベ爆上げしたいです
ttelltte
0
120
ubuntu-latest から ubuntu-slim へ移行しよう!コスト削減うれしい~!
asumikam
0
430
Beyond Prompts: Building Intelligent Applications with Genkit and the Model Context Protocol
peterfriese
0
110
“それなりに”安全なWebアプリケーションの作り方
xryuseix
0
140
DMARCは導入したんだけど・・・現場のつぶやき 〜 BIMI?何それ美味しいの?
hirachan
1
180
プロダクトエンジニアとしてのマインドセットの育み方 / How to improve product engineer mindset
saka2jp
2
200
エンジニアにとってコードと並んで重要な「データ」のお話 - データが動くとコードが見える:関数型=データフロー入門
ismk
0
270
QAセントラル組織が運営する自動テストプラットフォームの課題と現状
lycorptech_jp
PRO
0
140
[2025-11-06] ベイズ最適化の基礎とデザイン支援への応用(CVIMチュートリアル)
yuki_koyama
1
260
窓口業務を生成AIにおまかせ!Bedrock Agent Coreで実現する自治体AIエージェント!
rayofhopejp
0
290
Featured
See All Featured
YesSQL, Process and Tooling at Scale
rocio
174
15k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
10
920
[RailsConf 2023] Rails as a piece of cake
palkan
57
6k
GitHub's CSS Performance
jonrohan
1032
470k
Docker and Python
trallard
46
3.6k
Speed Design
sergeychernyshev
32
1.2k
Fireside Chat
paigeccino
41
3.7k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
The Language of Interfaces
destraynor
162
25k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
2.9k
Site-Speed That Sticks
csswizardry
13
960
Transcript
株式会社スマートラウンド 山原 崇史(@shonansurvivors) JAWS-UG SRE支部 #3 信頼性の階層の一段目を積み上げる
自己紹介 株式会社スマートラウンド SRE 山原 崇史 (やまはら たかし) 経歴 SIer・銀行・Web系ベンチャー →
スマートラウンド 好きなAWSサービス AWS SSO / Organizations / Control Tower / Security Hub Twitter @shonansurvivors
会社概要 社名 株式会社スマートラウンド 代表者 砂川 大 設立 2018年5月 従業員数 約25名
本社住所 東京都渋谷区 ※バーチャルオフィスで全員フルリモート ホームページ https://jp.smartround.com (サービスLP)
事業紹介 ミッション スタートアップが可能性を最大限に発揮できる世界をつくる 課題 1. スタートアップ経営者の多くが初めての起業経験で事務作業に時間を浪費してしまう 2. 投資家の案件・投資先・ファンドの管理はいまもスプレッドシートで行われている 解決策 スタートアップにはマニュアル・テンプレート・ツール
投資家には自動更新される CRMを同時に提供 smartroundが実現する世界 多様なツールと重複するデータを一元化しスタートアップと投資家双方の業務効率をアップ
None
本日のテーマ 信頼性の階層の一段目を積み上げる SRE本に登場する「信頼性の階層」の一段目であるモニタリングを採り上げ、 前半はその一要素である ダッシュボードについて、 後半はAmazon CloudWatchによる弊社の実践例を紹介します。
話さないこと • 各種監視SaaSとの比較 • SLI/SLO • ビジネスサイドが使うことを想定したダッシュボードの話
アジェンダ 1. 信頼性の階層とモニタリング 2. モニタリングのインターフェース ◦ アラート ◦ 可視化 3.
ダッシュボードと4大シグナル 4. CloudWatchダッシュボードによる実装 5. まとめ
1. 信頼性の階層とモニタリング 「サービスの信頼性の階層」 において最も基本と位置付けられるのが モニタリング https://sre.google/sre-book/part-III-practices/ 高度 基本 👈
2. モニタリングのインターフェース 大きく以下2つが考えられ、今回は 後者に着目 インターフェース 実現したいこと 実装 アラート(警告) ・人間にアクションをうながす ・Slack等のチャットシステム
・インシデント管理システム 可視化 ・主要メトリクスを鮮度高く把握 ・長期的なトレンドの分析 ・何らかの切り口での 比較(時間帯など) ・グラフ等の各種チャート ・それらを集約したダッシュボード
3. ダッシュボードと4大シグナル SRE本によると、ダッシュボードは通常 4大シグナルを含む • レイテンシ ◦ リクエストを処理してレスポンスを返すまでにかかる時間 • トラフィック
◦ システムに対するリクエストの量 • エラー ◦ 処理に失敗したリクエストの率 • サチュレーション(飽和) ◦ サービスがどれだけ「手一杯」になっているかを示す https://sre.google/sre-book/monitoring-distributed-systems/
CloudWatchによる実装例
4.1 前提 smartroundのアーキテクチャ(抜粋) • ElasticBeanstalk ◦ ALB ◦ EC2 •
RDS • ElasitCache (Redis)
4.2 レイテンシの捕捉 • ALB TargetResponseTime • 平均のみは情報がぼかされるので 99 percentileも採用 (※平均は、代わりに
50 percentileが使えればそちらが良いかも )
4.3 トラフィックの捕捉 • ALB RequestCount
4.4 エラーの捕捉 • ALB HTTPCode_Target_5XX_Count • ALB HTTPCode_ELB_5XX_Count
4.5 主要メトリクスの配置 • CloudWatch > Dashboards おもにサチュレーション (飽和)関連
4.6 テキストウィジェットによるラベル付け
4.7 コードをコピーして他環境に複製可能 • ある環境用にダッシュボードを作成したら別環境用に ゼロから作る必要は無い (ARNなどは要書き換え) • IaC(CloudFormationやTerraform等)未導入企業でも安心
4.8 ダークモード😎
5. まとめ • 信頼性の階層の最も基本は モニタリング • モニタリング ◦ アラート(警告) ◦
可視化 ▪ 主要メトリクスを鮮度高く把握 / トレンド分析 / 様々な切り口での比較 • 4大シグナル ◦ レイテンシ / トラフィック / エラー / サチュレーション(飽和) • CloudWatch Dashboard ◦ 手軽に可視化を始められる ◦ コード化されていてIaC未導入でも複製が容易 ◦ ダークモードあり
スマートラウンドでは新しいメンバーを募集中です! 私たちと一緒にスタートアップが可能性を最大限に発揮できる世界をつくりませんか? jobs.smartround.com