監視ってなんだっけ_.pdf

監視ってなんだっけ？ WG運用監視勉強会#1 株式会社ウィルゲート小林良太郎（@ryota_hnk）

Contents 2 計測するということ監視のアンチパターン監視のデザインパターン筋のいい監視 RED/USE Method SLO/SLI/SLA Observability
それっぽいまとめ目指すところ 1 2 3

計測するということ RED/USE Method SLO/SLI/SLA Observability

計測するということ • DevOpsのエモいチェックリストを作りました • 監視についても書きました。以下引用 ◦ 運用チームは、システムやサービスの正常性と状態を絶えず明確に把握しておく必要があります。状態を監視するための外部の正常性エンドポイントをセットアップすると共
に、運用上のメトリックをインストルメント化するようアプリケーションをコーディングしてください。システムの枠を越えてイベントを相互に関連付けることができる一般的かつ一貫性のあるスキーマを使用しましょう。 Red Method 、USE Method 、The Four Golden Signals は、システムの正常性と状態を追跡する標準的な手法です。

The Four Golden Signals 5

The Four Golden Signals • 以下の4つのメトリクス ◦ Latency(The time it
takes to service a request) ◦ Traffic(A measure of how much demand is being placed on your system) ◦ Errors(The rate of requests that fail) ◦ Saturation(How "full" your service is) • ユーザーが直接利用するシステムで、メトリクスを4つだけ計測できるなら、この4つに集中してください。 https://landing.google.com/sre/sre-book/chapters/monitoring-distributed-systems/#xref_monitoring_ golden-signals

SLA/SLO/SLI 7

SLI/SLO/SLA • SLI ◦ サービスレベルの指標(Indicator)の略 ◦ サービスレベルの性質に関して定義された指標（エラー率やリクエストのレイテンシ） ◦ 可用性も含まれる
• SLO ◦ サービスレベル目標(Objective)の略 ◦ 開発側のゴールに設定することができる ▪ 例）平均レイテンシ100ミリ秒以下 https://www.oreilly.co.jp/books/9784873117911/

SLI/SLO/SLA • SLA ◦ サービスレベルの合意(Agreement)の略 ◦ ユーザとの間で結ぶ、明示的あるいは暗黙の契約であり、その中に含まれるSLOを満たした場合（あるいは満たせなかった場合）に関する規定が含まれている ◦
公表する場合はSLOより低い値にすることが多い https://www.oreilly.co.jp/books/9784873117911/

SLI/SLO/SLA • 実践的な話 ◦ SLAを持っているか否かに関わらず、SLIやSLOを定義し、その下でサービスを管理する事には意義がある ◦ モニタリングで追跡できるメトリクスのすべてをSLIにするべきではない ◦
ユーザとやり取りをするサーバシステムでは可用性、レイテンシ、スループットに注意 ▪ 可用性はユーザがそのサービスを利用できる時間の比率 https://www.oreilly.co.jp/books/9784873117911/

USE Method 11

USE Method • 以下の頭文字 ◦ Utilization (% time that the
resource was busy) ◦ Saturation (amount of work resource has to do, often queue length) ◦ Errors (count of error events) • サーバやNWに用いられることが多い ◦ CPU、メモリの使用率 ◦ ストレージの容量、Read/Writeキューの長さ ◦ messageログに出ているエラー • 確かに有用なんだけど、もうちょっとサービス指向のが欲しい The RED Method: How to Instrument Your Services https://grafana.com/blog/2018/08/02/the-red-method-how-to-instrument-your-services/

RED Method 13

RED Method • 以下の頭文字 ◦ Rate (the number of requests
per second) ◦ Errors (the number of those requests that are failing) ◦ Duration (the amount of time those requests take) • USE Method に比べてBlackbox的 • Webサービスの外形監視と相性が良い。こういう値の方が気になりませんか？ ◦ 毎分当たりのリクエスト数 ◦ 5xxエラーの数 ◦ どのくらいの時間でリクエストを捌いてるのか The RED Method: How to Instrument Your Services https://grafana.com/blog/2018/08/02/the-red-method-how-to-instrument-your-services/

RED Method サービスに関わる誰もがエラー率、リクエスト率、そしてそれらのリクエストのレイテンシの分布を理解する必要があります。サービス監視の観点に一貫性を持たすことができ、開発側が意図していないコードのへの問い合わせも行えます。 15
The RED Method: How to Instrument Your Services https://grafana.com/blog/2018/08/02/the-red-method-how-to-instrument-your-services/

RED Method RED Methodはユーザの満足度を示す優れた指標です。エラー率が高い場合、それは基本的にユーザーに影響があり、ページ読み込みエラーが発生します。表示時間が長いとWebサイトの表示が遅くなります。これらは、意味のあるアラートを作成し、SLA
を測定するための優れた測定基準です。 16 The RED Method: How to Instrument Your Services https://grafana.com/blog/2018/08/02/the-red-method-how-to-instrument-your-services/

RED Method Rate Errors Duration SLI/SLO/SLA Service Level Indicator Service
Level Objective Service Level Agreement Four Golden Signals Latency Traffic Errors Saturation USE Method Utilization Saturation Errors 17 いったん振り返ろう

計測するということ HWやNWに適した監視ユーザに近い監視目標にすべき指標契約に盛り込む指標様々な事に応用できるが、監視できていることが前提になっているさらに一歩踏み込んだ Observabilityという考えが注目されている
18

Observability 19

Observability • testing is for known knowns • monitoring is
for known unknowns • observability is for unknown unknowns – Jez Humble 20 The Future of Monitoring (2/2): The Rise of Observability https://blog.paessler.com/the-future-of-monitoring-the-rise-of-observability

Observability • クラウドネイティブ技術は、パブリッククラウド、プライベートクラウド、ハイブリッドクラウドなどの近代的でダイナミックな環境において、スケーラブルなアプリケーションを構築および実行するための能力を組織にもたらす • このアプローチの代表例に、コンテナ、サービスメッシュ、マイクロサービス、イミュータブルインフラストラクチャ、および宣言型APIがある
• これらの手法により、回復性、管理力、および可観測性のある疎結合システムが実現できる • これらを堅牢な自動化と組み合わせることで、エンジニアはインパクトのある変更を最小限の労力で頻繁かつ予測どおりに行うことができるようになる CNCF Cloud Native Deﬁnition v1.0 https://github.com/cncf/toc/blob/master/DEFINITION.md

Observability for developers: How to get from here to there

Observability for developers • Devやops/SRE間や、その中でも発生しがちなギャップを埋めようねというお話 • 従来のmonitoringは既知の不具合のチェックを繰り返す
• observabilityはシステムを生き物のように扱い、厳密に定義されたカウンタというよりかは計測できる機構を兼ね備えている • 未知の望ましくない振る舞いや外れ値を引き出す事が出来る 23 Observability for developers: How to get from here to there https://conferences.oreilly.com/velocity/vl-ca/public/schedule/detail/74780

Observability for developers • ログを構造化データとして扱うようにし、ログを検索するのではなく、解析しましょう • 複雑さを増したシステムのログは、人間が扱える規模ではなく
なってきている • 外れ値を特定するには、まず可視化が必要 24 Observability for developers: How to get from here to there https://conferences.oreilly.com/velocity/vl-ca/public/schedule/detail/74780

Observability • 「観測可能な」システムの設計および構築の目標は、本番環境で実行したときに担当のオペレーターが、好ましくない振る舞い（サービスのダウンタイム、エラー、反応の遅延など）を検知し、根本原因を特定するための効果的な方法（詳細なイベントログ、リソース使用に関する細かい情報、アプリケーションのトレースなど）で実用的な情報を得られるようにすることです。 • 可観測性の3つの柱。これらを統合的に見れるツールが重要
◦ メトリック（Prometheus、CloudWatch） ◦ アプリケーションのトレース（Sentry、New Relic） ◦ ログ（Elasticsearch、Loki、Promtail） ◦ 可視化（Kibana、Grafana） https://www.elastic.co/jp/blog/observability-with-the-elastic-stack

Observability • テストは既知のことを確認 • 監視は未知を既知にする • 可観測性を上げて、未知で分からないことも認識できるようにする仕組みが重要 26
The Future of Monitoring (2/2): The Rise of Observability https://blog.paessler.com/the-future-of-monitoring-the-rise-of-observability テスト監視可観測性

Observability • 複雑さを増したシステムに対して「なんかおかしくね？」を確認、共有できる仕組み • 「おかしくね？」や障害の原因を解析する事が出来る仕組み • 監視と可観測性のために以下の
ツールを使っている ◦ Prometheus ◦ Loki ◦ Grafana ◦ Promtail 27 The Future of Monitoring (2/2): The Rise of Observability https://blog.paessler.com/the-future-of-monitoring-the-rise-of-observability テスト監視可観測性

監視と DevOps • 作って終わりではない世界 • 絶えず、内的/外的変化に対応していく必要がある ◦ KPI ◦
SLI/SLO/SLA ◦ RED/USE Method ◦ Observability 28

監視と DevOps • Willgateが使っているツール ◦ Google Analytics ◦ Grafana ◦
Loki ◦ Prometheus ◦ Sentry ◦ New Relic ◦ Sitespeed.io ◦ Google Data Studio 29

監視と DevOps • Willgateが使っているツール ◦ Google Analytics ◦ Grafana ◦
Loki ◦ Prometheus ◦ Sentry ◦ New Relic ◦ Sitespeed.io ◦ Google Data Studio 30

筋のいい監視監視のアンチパターン監視のデザインパターン

監視のアンチパターン 32

ツールありき

ツールありき • ツールは手段です。導入それ自体を目的にしてはいけません • ツールを導入することで解決する問題はありません • 何を監視したいのかハッキリさせましょう
• MackerelやDatadogなんかのSaaSも全然あり • 全てをいい感じに監視するツールはありません • 銀の弾丸はありません

甘美な響き -統合監視-

甘美な響き -統合監視- • 人は1つのダッシュボードに情報を集約させたくなります • そこにこだわらなくても良いです • 色んなツールを使いこなした方がいいです • 『監視』は複雑な問題をまとめたもの
• 用途に応じてツールを使い分け、情報を共有しましょう

何でも通知を出す

なんでも通知を出す • その通知は担当者を叩き起こす必要はありますか • 多すぎる通知は人を麻痺させます • 対応が必要なものを通知するようにしましょう • 3段階に分けて通知の仕方を整理しましょう ◦
Error（すぐ対応して欲しい） ◦ Warning（認識しておく必要あり） ◦ Info（定期的に見るくらい）

監視の専門家に任せる

監視の専門家に任せる • 完全な悪手です • 弊社に監視の専門家はいません • 目線は人によって違います監視とかよく分かんないからインフラの人に…

監視の仕組みを作ったのは誰か企画・営業アプリ開発インフラエンジニア

監視の仕組みを作ったのは誰か企画・営業アプリ開発インフラエンジニア KPI…MAU …LTV…CV 昨日リリースした機能でエラー起きてないかな CPU使用率
メモリ使用率サーバの死活

監視の仕組みを作ったのは誰か企画・営業アプリ開発インフラエンジニア • 自分の責任範囲や興味を中心に見がち、ツールを用意しがち ◦ それが良く動くと情報共有、悪く動くとサイロ化 • プロダクトに関わる全員が監視に責任を持つ必要がある
• 監視は役割ではなくスキル KPI…MAU …LTV…CV 昨日リリースした機能でエラー起きてないかな CPU使用率メモリ使用率サーバの死活

ツール依存銀の弾丸はない統合監視色んな道具を使いこなせ何でも通知を出す人はマヒする専門家に任せる監視はスキル 44 いったん
振り返ろう

監視のデザインパターン 45

ユーザーファースト

RED Method（再掲） RED Methodはユーザの満足度を示す優れた指標です。エラー率が高い場合、それは基本的にユーザーに影響があり、ページ読み込みエラーが発生します。表示時間が長いとWebサイトの表示が遅くなります。これらは、意味のあるアラートを作成し、SLA
を測定するための優れた測定基準です。 47 The RED Method: How to Instrument Your Services https://grafana.com/blog/2018/08/02/the-red-method-how-to-instrument-your-services/

ユーザに近いところから監視 • 全体を俯瞰で見て、ユーザに近いところから監視 ◦ LBのエラー率 ◦ LBのアクセスレート ◦
LBのレイテンシ Load Balancer DBサーバ APサーバ監視優先度

ユーザに近いところから監視 • 全体を俯瞰で見て、ユーザに近いところから監視 ◦ LBのエラー率 ◦ LBのアクセスレート ◦
LBのレイテンシ • その中でも重要なものを決めてSLIとし、計測を開始する • 計測結果からSLOを決めて改善 • SLOを適時見直してシステムパフォーマンスを改善していく今月の目標 LBのレイテンシ10ms→5msに短縮！ LBのエラー率5%未満！

監視の幅を広げる • その次は各インターフェースを見るようにする • 各インターフェースのRED Method が見られると良い • そこにSLI/SLOを定めてもよい
• ログやサーバのリソースといった内部の状態と関連付けて見られるように整備していく Load Balancer DBサーバ APサーバ監視優先度

• 監視はシステムに対する継続的なテスト • 『収集→可視化→保存→通知→解析』の流れを意識して作る ◦ ログを集約してエラーを飛ばそう ◦ ダッシュボードを週1のMTGで見直そう • 異常検知だけでなく、システム改善の足掛かりとして使う
監視の仕組みを作りたい

• 大先輩たちがユーザに近いところから、何を監視しているのか確認 • 何が正常で何が異常なのか • 異常が起きている場合はどうしたらいいのか • いつかは自分で原因特定、解決 • 監視データをもとに、どうしたらユーザの満足に近づけるか考える
• 監視環境において改善点はないか監視の事を勉強したいぐらふが…たくさん… 研ぎ澄まされて通知が来る直前に起きるようになったインフラエンジニア不要とツイッターでイキる新人中堅ベテラン

目指すところ組織の壁を超えるまとめ

コラボレーション

監視の仕組みを作ったのは誰か（再掲）企画・営業アプリ開発インフラエンジニア • 自分の責任範囲や興味を中心に見がち、ツールを用意しがち ◦ それが良く動くと情報共有、悪く動くとサイロ化 • プロダクトに関わる全員が監視に責任を持つ必要がある
• 監視は役割ではなくスキル KPI…MAU …LTV…CV 昨日リリースした機能でエラー起きてないかな CPU使用率メモリ使用率サーバの死活

組織の枠を超える企画・営業アプリ開発インフラエンジニア • 逆に考えるんだ、『全員がそれぞれの分野の専門家』と考えるんだ ◦ 企画営業のプロ ◦ アプリ開発のプロ
◦ インフラのプロ KPI…MAU …LTV…CV 昨日リリースした機能でエラー起きてないかな CPU使用率メモリ使用率サーバの死活

我々は何がしたいのか企画・営業アプリ開発インフラエンジニア

我々は何がしたいのか • 働かなくても、死ぬまで毎月1000万振り込まれ続けたい • 良いサービスを提供し社会に貢献し、5000兆円欲しい企画・営業アプリ開発インフラエンジニア

我々は何がしたいのか • 働かなくても、死ぬまで毎月1000万振り込まれ続けたい • 良いサービスを提供し社会に貢献し、5000兆円欲しい • PVやMAUといったビジネス上のKPIは、エンジニアも把握した方が良い • 共有する情報が多いとシンドイので、分かりやすい数字から ◦
ビジネス→開発へは、「その事業のドライバーとなっている数字」 ◦ 開発→ビジネスへは、「そのKPIと相関がありそうなSLI/SLO」 • それらを共有できる仕組みを整える • 無理やり1つのツールやダッシュボードに収めようとしない企画・営業アプリ開発インフラエンジニア

組織の枠を超える • それぞれが5000兆円のためにやれるがあるはず ◦ キャンペーン ◦ パフォーマンス改善 ◦ 運用コスト最適化 •
監視システムは、組織を加速させるための情報共有ツール ◦ 異常検知だけでなく、改善の効果測定ツールとして使う ◦ SLOを分かりやすい数字にすることで、共有しやすくなる ◦ SLOとKPIの相関が確認できれば、運用保守は攻めになれる

組織の枠を超える • DevOpsのエモいチェックリストから抜粋

まとめ

まとめ • 様々な情報、様々な観点 ◦ USE/RED Method ◦ SLI/SLO/SLA ◦ Observability
• ツールは加速装置だが、あくまで手段 ◦ 通知出せばいいと思ってないか ◦ 監視は役割ではなくスキル ◦ ユーザに近いところから監視 • 組織の壁を超える ◦ 全員で5000兆円を狙う ◦ KPIとSLOの相関を検証できるか

ご清聴ありがとうございました

監視ってなんだっけ_.pdf

監視ってなんだっけ_.pdf

More Decks by ryotaro kobayashi

Other Decks in Technology

Featured

Transcript