$30 off During Our Annual Pro Sale. View Details »

信頼性の階層の一段目を積み上げる/Monitoring Dashboard

信頼性の階層の一段目を積み上げる/Monitoring Dashboard

shonansurvivors

May 20, 2022
Tweet

More Decks by shonansurvivors

Other Decks in Technology

Transcript

  1. 株式会社スマートラウンド
    山原 崇史(@shonansurvivors)
    JAWS-UG SRE支部 #3
    信頼性の階層の一段目を積み上げる

    View Slide

  2. 自己紹介
    株式会社スマートラウンド SRE
    山原 崇史 (やまはら たかし)
    経歴
     SIer・銀行・Web系ベンチャー → スマートラウンド
    好きなAWSサービス
     AWS SSO / Organizations / Control Tower / Security Hub
    Twitter
     @shonansurvivors

    View Slide

  3. 会社概要
    社名  株式会社スマートラウンド
    代表者  砂川 大
    設立  2018年5月
    従業員数  約25名
    本社住所  東京都渋谷区 ※バーチャルオフィスで全員フルリモート
    ホームページ  https://jp.smartround.com (サービスLP)

    View Slide

  4. 事業紹介
    ミッション
     スタートアップが可能性を最大限に発揮できる世界をつくる
    課題
     1. スタートアップ経営者の多くが初めての起業経験で事務作業に時間を浪費してしまう
     2. 投資家の案件・投資先・ファンドの管理はいまもスプレッドシートで行われている
    解決策
     スタートアップにはマニュアル・テンプレート・ツール
     投資家には自動更新される CRMを同時に提供
    smartroundが実現する世界
     多様なツールと重複するデータを一元化しスタートアップと投資家双方の業務効率をアップ

    View Slide

  5. View Slide

  6. 本日のテーマ
    信頼性の階層の一段目を積み上げる
     SRE本に登場する「信頼性の階層」の一段目であるモニタリングを採り上げ、
     前半はその一要素である ダッシュボードについて、
     後半はAmazon CloudWatchによる弊社の実践例を紹介します。 

    View Slide

  7. 話さないこと
    ● 各種監視SaaSとの比較
    ● SLI/SLO
    ● ビジネスサイドが使うことを想定したダッシュボードの話

    View Slide

  8. アジェンダ
    1. 信頼性の階層とモニタリング
    2. モニタリングのインターフェース
    ○ アラート
    ○ 可視化
    3. ダッシュボードと4大シグナル
    4. CloudWatchダッシュボードによる実装
    5. まとめ

    View Slide

  9. 1. 信頼性の階層とモニタリング
    「サービスの信頼性の階層」 において最も基本と位置付けられるのが モニタリング
    https://sre.google/sre-book/part-III-practices/
    高度
    基本
    👈

    View Slide

  10. 2. モニタリングのインターフェース
    大きく以下2つが考えられ、今回は 後者に着目
    インターフェース 実現したいこと 実装
    アラート(警告) ・人間にアクションをうながす ・Slack等のチャットシステム
    ・インシデント管理システム
    可視化 ・主要メトリクスを鮮度高く把握
    ・長期的なトレンドの分析
    ・何らかの切り口での 比較(時間帯など)
    ・グラフ等の各種チャート
    ・それらを集約したダッシュボード

    View Slide

  11. 3. ダッシュボードと4大シグナル
    SRE本によると、ダッシュボードは通常 4大シグナルを含む
    ● レイテンシ
    ○ リクエストを処理してレスポンスを返すまでにかかる時間
    ● トラフィック
    ○ システムに対するリクエストの量
    ● エラー
    ○ 処理に失敗したリクエストの率
    ● サチュレーション(飽和)
    ○ サービスがどれだけ「手一杯」になっているかを示す
    https://sre.google/sre-book/monitoring-distributed-systems/

    View Slide

  12. CloudWatchによる実装例

    View Slide

  13. 4.1 前提
    smartroundのアーキテクチャ(抜粋)
    ● ElasticBeanstalk
    ○ ALB
    ○ EC2
    ● RDS
    ● ElasitCache (Redis)

    View Slide

  14. 4.2 レイテンシの捕捉
    ● ALB TargetResponseTime
    ● 平均のみは情報がぼかされるので 99 percentileも採用 (※平均は、代わりに
    50 percentileが使えればそちらが良いかも
    )

    View Slide

  15. 4.3 トラフィックの捕捉
    ● ALB RequestCount

    View Slide

  16. 4.4 エラーの捕捉
    ● ALB HTTPCode_Target_5XX_Count
    ● ALB HTTPCode_ELB_5XX_Count

    View Slide

  17. 4.5 主要メトリクスの配置
    ● CloudWatch > Dashboards おもにサチュレーション (飽和)関連

    View Slide

  18. 4.6 テキストウィジェットによるラベル付け

    View Slide

  19. 4.7 コードをコピーして他環境に複製可能
    ● ある環境用にダッシュボードを作成したら別環境用に ゼロから作る必要は無い (ARNなどは要書き換え)
    ● IaC(CloudFormationやTerraform等)未導入企業でも安心

    View Slide

  20. 4.8 ダークモード😎

    View Slide

  21. 5. まとめ
    ● 信頼性の階層の最も基本は モニタリング
    ● モニタリング
    ○ アラート(警告)
    ○ 可視化
    ■ 主要メトリクスを鮮度高く把握 / トレンド分析 / 様々な切り口での比較
    ● 4大シグナル
    ○ レイテンシ / トラフィック / エラー / サチュレーション(飽和)
    ● CloudWatch Dashboard
    ○ 手軽に可視化を始められる
    ○ コード化されていてIaC未導入でも複製が容易
    ○ ダークモードあり

    View Slide

  22. スマートラウンドでは新しいメンバーを募集中です!
    私たちと一緒にスタートアップが可能性を最大限に発揮できる世界をつくりませんか?
    jobs.smartround.com

    View Slide