Slide 1

Slide 1 text

1

Slide 2

Slide 2 text

モダンな監視を今こそ実装する

Slide 3

Slide 3 text

自己紹介 吉井 亮 ネクストモード株式会社 Twitter: @YoshiiRyo1 経歴: FE ~ SES ~ ERP Consul ~ Classmethod ~ Now 好きな言葉: 「No human labor is no human error」

Slide 4

Slide 4 text

4 本日の内容  re:Invent 2020 監視系アップデート  監視アンチパターン  モダンな監視  注目のアップデート

Slide 5

Slide 5 text

5 re:Invent 2020 監視系アップデート CloudWatch Lambda Insightsが一般利用開始に EC2がNWパフォーマンスメトリクス取得をサポート Amazon AppFlowがLookout for Metricsに対応 AWS IoT SiteWise plugin for Grafanaを発表

Slide 6

Slide 6 text

6 re:Invent 2020 監視系アップデート AWS IoT Device Defenderのカスタムメトリクス AWS IoT Events/SiteWiseでアラームに対応 Amazon Managed Service for Prometheusを発 表 Amazon Managed Service for Grafanaを発表

Slide 7

Slide 7 text

7 re:Invent 2020 監視系アップデート AWS Personal Health Dashboardが情報の集約に 対応 AWS Cost Anomaly Detectionが一般利用開始に

Slide 8

Slide 8 text

8 re:Invent より前発表 監視系アップデート RDS Performance Insightのアップデート RDS for PostgreSQLのSQLレベルメトリクス 性能データをセグメント化するためのディメンションを追加 プレビュー版 AWS Distro for OpenTelemetry 発表

Slide 9

Slide 9 text

9 SPECIAL THANKS BlackBelt 2020 年 AWS re:Invent 速報 Part3 https://d1.awsstatic.com/webinars/jp/pdf/se rvices/20201221_BlackBelt2020_reinvent202 0digest_wk3_public_A.pdf

Slide 10

Slide 10 text

10 監視アンチパターン

Slide 11

Slide 11 text

11 監視アンチパターン ☹ 画一的なしきい値 サーバー負荷を考慮せず、HW リソースに対し 80% Warning, 90% Fatal のようなしきい値を設定してしまっている ログは「 *error* || *warn*」でひっかけ

Slide 12

Slide 12 text

12 監視アンチパターン ☹ ツール依存 一つの統合監視ツールで全てを視ようとしている シェルスクリプトでカスタムメトリクスを量産 無理してしなくていいですよ

Slide 13

Slide 13 text

13 監視アンチパターン ☹ 怒涛の通知 起こさなくていい通知で深夜起こされる 通知が多すぎて見たくない、見れない せめて Notice と Action Required 別けましょう

Slide 14

Slide 14 text

14 監視アンチパターン ☹ 通知の後の行動を忘れている 通知飛ばしたいいけど、何をしてよいのか? 通知と対になる復旧手順書がほしい 問題ないことを確認したらそのまま しばらくすると同じ通知が来る 通知を減らす活動が必要

Slide 15

Slide 15 text

15 監視アンチパターン ☹ サーバー追加は手動 監視対象にエージェント、監視する側には定義追加 システムのスケールに監視が追いつかない

Slide 16

Slide 16 text

16 モダンな監視

Slide 17

Slide 17 text

17 モダンな監視の要素  ツールの組み合わせ  ユーザー視点  サービスを使う  監視対象の動的追加  継続的な改善がある

Slide 18

Slide 18 text

18 ツールの組み合わせ • サービスの観測性 • ServiceLens, Synthetic など • 分散アプリケーションの分析やデバッグ • X-Ray, 主要 SaaS など • インフラのメトリクス • ログ分析 • ネットワーク分析

Slide 19

Slide 19 text

19 ユーザー視点 「ユーザーが困る事象は何か?」という観点 • サービス停止 • レスポンスの低下や無反応

Slide 20

Slide 20 text

20 サービスを使う 監視サーバーは直接的な利益を産まない 監視サーバーのバージョンアップ辛い・・・ AWS 提供のマネージドサービス、または、 特化した SaaS を使う

Slide 21

Slide 21 text

21 監視対象の動的追加 サービスを起動したらそのまま監視対象 コンテナ → サイドカー EC2 → ユーザーデータ、Golden Image など

Slide 22

Slide 22 text

22 継続的な改善がある 取得メトリクスの見直し、更新 監視対象ログファイルの見直し、更新 しきい値の見直し、追加、廃止 復旧の自動化 手順の更新

Slide 23

Slide 23 text

23 注目のアップデート

Slide 24

Slide 24 text

24 注目のアップデート Amazon Managed Service for Prometheus Amazon Managed Service for Grafana https://aws.amazon.com/jp/blogs/aws/reinvent-2020-liveblog-werner-vogels-keynote/ より引用

Slide 25

Slide 25 text

25 まだ Preview です Amazon Managed Service for Prometheus (AMP) is in open preview. The preview is open to all AWS accounts and you do not need to request access. Features may be added or changed before announcing General Availability. The preview currently supports the following Regions: •US East (Ohio) •US East (N. Virginia) •US West (Oregon) •Europe (Frankfurt) •Europe (Ireland) Amazon Managed Service for Grafana (AMG) is in preview. If you want to use this service while it is in preview, register at https://pages.awscloud.com/grafanaPreview.html. Features may be added or changed before announcing General Availability. The preview currently supports the following Regions: ・US East (N. Virginia) ・Europe (Ireland)

Slide 26

Slide 26 text

26 Q. Prometheus とは? Prometheusは、 アクティブなエコシステムを備えたオープンソースの システム監視およびアラートツールキット。 マイクロサービス (kubernetes, ECS等) の メトリクス収集に特に強みがある。

Slide 27

Slide 27 text

27 Prometheus Architecture https://prometheus.io/docs/introduction/overview/ より引用

Slide 28

Slide 28 text

28 様々な Exporter Prometheus 公式 or 3rd party の Exporter を 追加することで監視対象を増やす https://prometheus.io/docs/instrumenting/exporters/ • Node exporter (official) • MySQL server exporter (official) • JMX exporter (official) • 他多数

Slide 29

Slide 29 text

29 Q. Grafana とは? 一言で表すと Data Visualization ツール。 Prometheus で収集したメトリクスを Grafana で加工してグラフィカルに表示。 アラートを飛ばすことも可能。

Slide 30

Slide 30 text

30 出来合いのダッシュボードを使う ・ダッシュボード https://grafana.com/grafana/dashboards ・プラグイン https://grafana.com/grafana/plugins 一から作らなくても済む 公開されているものを積極的に使う

Slide 31

Slide 31 text

31 想像する構成 ECS EKS その他AWSリソース CloudWatch Developer SRE CloudWatch Logs metrics logging CloudWatch ServiceLens Insight 系 X-Ray tracing alert alert

Slide 32

Slide 32 text

32 tracing https://observability.workshop.aws/ja/servicelens/_explore_servicelens.html より引用

Slide 33

Slide 33 text

33 logging https://observability.workshop.aws/ja/logsinsights/_start.html より引用

Slide 34

Slide 34 text

34 34