Upgrade to Pro — share decks privately, control downloads, hide ads and more …

信頼性の階層の一段目を積み上げる/Monitoring Dashboard

信頼性の階層の一段目を積み上げる/Monitoring Dashboard

0b238801605070def81a98cfe8061aee?s=128

shonansurvivors

May 20, 2022
Tweet

More Decks by shonansurvivors

Other Decks in Technology

Transcript

  1. 株式会社スマートラウンド 山原 崇史(@shonansurvivors) JAWS-UG SRE支部 #3 信頼性の階層の一段目を積み上げる

  2. 自己紹介 株式会社スマートラウンド SRE 山原 崇史 (やまはら たかし) 経歴  SIer・銀行・Web系ベンチャー →

    スマートラウンド 好きなAWSサービス  AWS SSO / Organizations / Control Tower / Security Hub Twitter  @shonansurvivors
  3. 会社概要 社名  株式会社スマートラウンド 代表者  砂川 大 設立  2018年5月 従業員数  約25名

    本社住所  東京都渋谷区 ※バーチャルオフィスで全員フルリモート ホームページ  https://jp.smartround.com (サービスLP)
  4. 事業紹介 ミッション  スタートアップが可能性を最大限に発揮できる世界をつくる 課題  1. スタートアップ経営者の多くが初めての起業経験で事務作業に時間を浪費してしまう  2. 投資家の案件・投資先・ファンドの管理はいまもスプレッドシートで行われている 解決策  スタートアップにはマニュアル・テンプレート・ツール

     投資家には自動更新される CRMを同時に提供 smartroundが実現する世界  多様なツールと重複するデータを一元化しスタートアップと投資家双方の業務効率をアップ
  5. None
  6. 本日のテーマ 信頼性の階層の一段目を積み上げる  SRE本に登場する「信頼性の階層」の一段目であるモニタリングを採り上げ、  前半はその一要素である ダッシュボードについて、  後半はAmazon CloudWatchによる弊社の実践例を紹介します。 

  7. 話さないこと • 各種監視SaaSとの比較 • SLI/SLO • ビジネスサイドが使うことを想定したダッシュボードの話

  8. アジェンダ 1. 信頼性の階層とモニタリング 2. モニタリングのインターフェース ◦ アラート ◦ 可視化 3.

    ダッシュボードと4大シグナル 4. CloudWatchダッシュボードによる実装 5. まとめ
  9. 1. 信頼性の階層とモニタリング 「サービスの信頼性の階層」 において最も基本と位置付けられるのが モニタリング https://sre.google/sre-book/part-III-practices/ 高度 基本 👈

  10. 2. モニタリングのインターフェース 大きく以下2つが考えられ、今回は 後者に着目 インターフェース 実現したいこと 実装 アラート(警告) ・人間にアクションをうながす ・Slack等のチャットシステム

    ・インシデント管理システム 可視化 ・主要メトリクスを鮮度高く把握 ・長期的なトレンドの分析 ・何らかの切り口での 比較(時間帯など) ・グラフ等の各種チャート ・それらを集約したダッシュボード
  11. 3. ダッシュボードと4大シグナル SRE本によると、ダッシュボードは通常 4大シグナルを含む • レイテンシ ◦ リクエストを処理してレスポンスを返すまでにかかる時間 • トラフィック

    ◦ システムに対するリクエストの量 • エラー ◦ 処理に失敗したリクエストの率 • サチュレーション(飽和) ◦ サービスがどれだけ「手一杯」になっているかを示す https://sre.google/sre-book/monitoring-distributed-systems/
  12. CloudWatchによる実装例

  13. 4.1 前提 smartroundのアーキテクチャ(抜粋) • ElasticBeanstalk ◦ ALB ◦ EC2 •

    RDS • ElasitCache (Redis)
  14. 4.2 レイテンシの捕捉 • ALB TargetResponseTime • 平均のみは情報がぼかされるので 99 percentileも採用 (※平均は、代わりに

    50 percentileが使えればそちらが良いかも )
  15. 4.3 トラフィックの捕捉 • ALB RequestCount

  16. 4.4 エラーの捕捉 • ALB HTTPCode_Target_5XX_Count • ALB HTTPCode_ELB_5XX_Count

  17. 4.5 主要メトリクスの配置 • CloudWatch > Dashboards おもにサチュレーション (飽和)関連

  18. 4.6 テキストウィジェットによるラベル付け

  19. 4.7 コードをコピーして他環境に複製可能 • ある環境用にダッシュボードを作成したら別環境用に ゼロから作る必要は無い (ARNなどは要書き換え) • IaC(CloudFormationやTerraform等)未導入企業でも安心

  20. 4.8 ダークモード😎

  21. 5. まとめ • 信頼性の階層の最も基本は モニタリング • モニタリング ◦ アラート(警告) ◦

    可視化 ▪ 主要メトリクスを鮮度高く把握 / トレンド分析 / 様々な切り口での比較 • 4大シグナル ◦ レイテンシ / トラフィック / エラー / サチュレーション(飽和) • CloudWatch Dashboard ◦ 手軽に可視化を始められる ◦ コード化されていてIaC未導入でも複製が容易 ◦ ダークモードあり
  22. スマートラウンドでは新しいメンバーを募集中です! 私たちと一緒にスタートアップが可能性を最大限に発揮できる世界をつくりませんか? jobs.smartround.com