Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
信頼性の階層の一段目を積み上げる/Monitoring Dashboard
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
shonansurvivors
May 20, 2022
Technology
3.5k
3
Share
信頼性の階層の一段目を積み上げる/Monitoring Dashboard
shonansurvivors
May 20, 2022
More Decks by shonansurvivors
See All by shonansurvivors
SREのキャリアから経営に近づく - Enterprise Risk Managementを基に -
shonansurvivors
2
1.5k
Adminaで実現するISMS/SOC2運用の効率化 〜 アカウント管理編 〜
shonansurvivors
4
660
SOC2取得の全体像
shonansurvivors
4
2.8k
非エンジニアによるDevin開発のためにSREができること
shonansurvivors
0
250
SREによる隣接領域への越境とその先の信頼性
shonansurvivors
2
990
スタートアップがAWSパートナーになって得られたこと
shonansurvivors
3
1.3k
AWSで構築するCDパイプラインとその改善
shonansurvivors
5
4.2k
Terraformでmoduleを使わずに複数環境を構築して感じた利点
shonansurvivors
3
4.1k
クロステナントアクセスを要件とするsmartroundのマルチテナントSaaSアーキテクチャ
shonansurvivors
0
590
Other Decks in Technology
See All in Technology
AIが盛んな時代に 技術記事を書き始めて起きた私の中での小さな変化
peintangos
0
370
試作とデモンストレーション / Prototyping and Demonstrations
ks91
PRO
0
200
いつの間にかデータエンジニア以外の業務も増えていたけど、意外と経験が役に立ってる
zozotech
PRO
0
430
PdM・Eng・QAで進めるAI駆動開発の現在地/aidd-with-pdm-eng-qa
shota_kusaba
0
180
Gaussian Splattingの実用化 - 映像制作への展開
gpuunite_official
0
130
カオナビに Suspenseを導入するまで / The Road to Suspense at kaonavi
kaonavi
1
450
そのSLO 99.9%、本当に必要ですか? 〜優先度付きSLOによる責任共有の設計思想〜 / Is that 99.9% SLO really necessary? Design philosophy of shared responsibility through prioritized SLOs
vtryo
0
540
Purview 勉強会報告 Microsoft Purview 入門しようとしてみた
masakichixo
1
330
Oracle Exadata Database Service on Cloud@Customer X11M (ExaDB-C@C) サービス概要
oracle4engineer
PRO
2
8k
Tachikawa.any 運営挨拶
daitasu
0
150
生成AIはソフトウェア開発の革命か、ソフトウェア工学の宿題再提出なのか -ソフトウェア品質特性の追加提案-
kyonmm
PRO
2
870
QAエンジニアはどうやって プロダクト議論の場に入れるのか?
moritamasami
2
410
Featured
See All Featured
Paper Plane (Part 1)
katiecoart
PRO
0
7.3k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.4k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
70
39k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.5k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
Skip the Path - Find Your Career Trail
mkilby
1
120
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
180
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
190
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
160
Making Projects Easy
brettharned
120
6.6k
Become a Pro
speakerdeck
PRO
31
5.9k
Transcript
株式会社スマートラウンド 山原 崇史(@shonansurvivors) JAWS-UG SRE支部 #3 信頼性の階層の一段目を積み上げる
自己紹介 株式会社スマートラウンド SRE 山原 崇史 (やまはら たかし) 経歴 SIer・銀行・Web系ベンチャー →
スマートラウンド 好きなAWSサービス AWS SSO / Organizations / Control Tower / Security Hub Twitter @shonansurvivors
会社概要 社名 株式会社スマートラウンド 代表者 砂川 大 設立 2018年5月 従業員数 約25名
本社住所 東京都渋谷区 ※バーチャルオフィスで全員フルリモート ホームページ https://jp.smartround.com (サービスLP)
事業紹介 ミッション スタートアップが可能性を最大限に発揮できる世界をつくる 課題 1. スタートアップ経営者の多くが初めての起業経験で事務作業に時間を浪費してしまう 2. 投資家の案件・投資先・ファンドの管理はいまもスプレッドシートで行われている 解決策 スタートアップにはマニュアル・テンプレート・ツール
投資家には自動更新される CRMを同時に提供 smartroundが実現する世界 多様なツールと重複するデータを一元化しスタートアップと投資家双方の業務効率をアップ
None
本日のテーマ 信頼性の階層の一段目を積み上げる SRE本に登場する「信頼性の階層」の一段目であるモニタリングを採り上げ、 前半はその一要素である ダッシュボードについて、 後半はAmazon CloudWatchによる弊社の実践例を紹介します。
話さないこと • 各種監視SaaSとの比較 • SLI/SLO • ビジネスサイドが使うことを想定したダッシュボードの話
アジェンダ 1. 信頼性の階層とモニタリング 2. モニタリングのインターフェース ◦ アラート ◦ 可視化 3.
ダッシュボードと4大シグナル 4. CloudWatchダッシュボードによる実装 5. まとめ
1. 信頼性の階層とモニタリング 「サービスの信頼性の階層」 において最も基本と位置付けられるのが モニタリング https://sre.google/sre-book/part-III-practices/ 高度 基本 👈
2. モニタリングのインターフェース 大きく以下2つが考えられ、今回は 後者に着目 インターフェース 実現したいこと 実装 アラート(警告) ・人間にアクションをうながす ・Slack等のチャットシステム
・インシデント管理システム 可視化 ・主要メトリクスを鮮度高く把握 ・長期的なトレンドの分析 ・何らかの切り口での 比較(時間帯など) ・グラフ等の各種チャート ・それらを集約したダッシュボード
3. ダッシュボードと4大シグナル SRE本によると、ダッシュボードは通常 4大シグナルを含む • レイテンシ ◦ リクエストを処理してレスポンスを返すまでにかかる時間 • トラフィック
◦ システムに対するリクエストの量 • エラー ◦ 処理に失敗したリクエストの率 • サチュレーション(飽和) ◦ サービスがどれだけ「手一杯」になっているかを示す https://sre.google/sre-book/monitoring-distributed-systems/
CloudWatchによる実装例
4.1 前提 smartroundのアーキテクチャ(抜粋) • ElasticBeanstalk ◦ ALB ◦ EC2 •
RDS • ElasitCache (Redis)
4.2 レイテンシの捕捉 • ALB TargetResponseTime • 平均のみは情報がぼかされるので 99 percentileも採用 (※平均は、代わりに
50 percentileが使えればそちらが良いかも )
4.3 トラフィックの捕捉 • ALB RequestCount
4.4 エラーの捕捉 • ALB HTTPCode_Target_5XX_Count • ALB HTTPCode_ELB_5XX_Count
4.5 主要メトリクスの配置 • CloudWatch > Dashboards おもにサチュレーション (飽和)関連
4.6 テキストウィジェットによるラベル付け
4.7 コードをコピーして他環境に複製可能 • ある環境用にダッシュボードを作成したら別環境用に ゼロから作る必要は無い (ARNなどは要書き換え) • IaC(CloudFormationやTerraform等)未導入企業でも安心
4.8 ダークモード😎
5. まとめ • 信頼性の階層の最も基本は モニタリング • モニタリング ◦ アラート(警告) ◦
可視化 ▪ 主要メトリクスを鮮度高く把握 / トレンド分析 / 様々な切り口での比較 • 4大シグナル ◦ レイテンシ / トラフィック / エラー / サチュレーション(飽和) • CloudWatch Dashboard ◦ 手軽に可視化を始められる ◦ コード化されていてIaC未導入でも複製が容易 ◦ ダークモードあり
スマートラウンドでは新しいメンバーを募集中です! 私たちと一緒にスタートアップが可能性を最大限に発揮できる世界をつくりませんか? jobs.smartround.com