Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Monitoringについてあれこれ語ろう - A Feedback from Cloud N...

Monitoringについてあれこれ語ろう - A Feedback from Cloud Native Deep Dive

Rancher Meetup #18で発表した資料です。
Monitoring、Logging、Alertingについてディスカッションした結果をまとめて共有しました。

Kazuto Kusama

March 19, 2019
Tweet

More Decks by Kazuto Kusama

Other Decks in Technology

Transcript

  1. Cloud Native Deep Dive • 従来ながらの講義形式は取らない • あらかじめ決められたテーマについて、全員参加で ディスカッションを行う •

    ディスカッションを通じて、実戦で使える知識と経験を深め ていく • 参加登録時にはアンケート回答が必須。 アンケート未回答者は参加不可。
  2. ツール • Datadog • Mackerel • Wavefront • Stackdriver •

    CloudWatch • Prometheus • Elasticsearch • Zabbix • Sysdig SaaS IaaS Provided Self Hosted
  3. 監視する対象 • Baremetal • VM • Container • Security •

    Networking • Backend • Frontend • Business KPI ・・・他にもいろいろ • Pod • Node • Cluster
  4. みんなの課題 • Dashboardの作り方 ◦ JSONのレビュー大変 ▪ GrafanaならDashboard Shopあるが・・・ ◦ できる限りコード管理したい

    ▪ Grafanaでexportするたびに形が変わっててキツい • Jsonnetで生成⇒Grafanaに反映 を試そう • (Prometheusの場合) Prometheus Operator良い ◦ 最初からいい感じに作り込まれている ◦ 必要ならば自分で拡張することも出来る
  5. よくある構成 対象 対象 対象 Collector Collector Collector Aggregator Log Platform

    ログ収集 集約 パース タギング フィルタリング 保存 インデックス化 検索 可視化
  6. ツール • Fluentd • Fluentbit • LogStash • Splunk •

    Elasticsearch • CloudWatch Logging • Stackdriver • S3 • GCS • DWH Collector Log Platform
  7. みんなの課題 • ロギングはカネがかかる!! ◦ SaaS高い ▪ ログ量に比例してガンガン金がかかる ◦ Self Hostedにしてもかなりの運用・インフラコストかかる

    ▪ 最終的には監視対象と同じくらいのインフラリソースがログ基 盤だけで必要になることも ◦ 結局は金
  8. みんなの課題 • Aggregatorの運用辛すぎ ◦ とにかくここが死ぬ ◦ ログの保存量を制御することは出来るが、 ログの流量を制御するのは難しい ▪ アプリ側が大量のログ吐くとすぐ死ぬ

    ▪ Collector側で工夫する?⇒収集すべきものとしないものの判 断難しい ◦ パースやフィルタリングなどをやりやすい場所 ▪ でも処理に比例して負荷が増す • 死
  9. みんなの課題 • 閾値の根拠は? • 通知先 ◦ Slack ◦ Chatwork ◦

    Pagerduty ◦ メール • オンコール担当は誰か ◦ アプリのログはアプリ開発者に ◦ 基盤のログは基盤運用チームに
  10. それぞれ共通する課題 • コード化・自動化 ◦ Toilは極限まで減らす意識を持つこと ◦ 監視ルールは育てていくもの • 対応する人・組織・ロール ◦

    できる限り自動化が前提 ◦ 単にコールを受けるだけのロールは悪手になりやすい • OSSか商用製品かManaged Serviceか ◦ ケースバイケース ◦ 無理に自前主義に走るのは考え物