OpenShift Monitoring - 自律化したPrometheus運用 -

自律化した運用

本日のアジェンダコンテナのモニタリングの仕組み

コンテナのモニタリング

可観測性は複雑であるため、クラスタ内の問題の原因を特定することは困難です。特定のノードに何か問題があるだけでなく、コンテナイメージの不具合、動作の異常、の接続性など、その原因は多岐にわたります。サーバーやアプリに入って調査せずとも、システムの状態を把握すること

クラウドネイティブな監視従来の監視クラウドネイティブな監視動的に監視を運用できることがメリット

データを累積すること。一貫性を有し、それぞれが一つの論理的計量ユニット、あるいは一定時間内のヒストグラムに表す。シングルリクエストの範囲内にて情報処理を行うこと。いかなるデータも、全てシステムの単一トランザクションにバンディングされる。
いくつかの離散した(非連続の)ことがらを、データとして記述すること。データ量

▶ イベントの集計した結果が時間とともにどのように変化しているかを示す ▶ よく使われるメトリクスは、リクエスト数やリクエストの処理にかかったレスポンスタイム、リソース使用量など ▶ コンテキストをフィルタリングすることで、
データ量や処理範囲を調整する

▶ つのリクエストの範囲で関数呼び出しなどの複数のイベントを記録し、ボトルネックがどこにあるのかを示すスタックトレース ▶プロセスをまたぐものは、分散トレーシングと呼ばれる ▶ サンプリングによってデータ量を保ちつつ、パフォーマンスに及ぼす影響を適正
化する

▶ イベントのコンテキストの一部を記録アクセスログ ▶ 特定のイベントにどのような問題があるのかを正確に特定できる ▶ 収集結果を保存するために大量のストレージと帯域が必要になる

の ▶ ▶ ▶ が示すに準拠

の仕組み

とは型のメトリクス監視側から各メトリクスを定期的に取得する監視サーバは監視対象をすべて把握しているため、監視対象からデータが取得できなかった場合には異常があると気づくことが容易多くのを提供による時系列データ検索クラウドよりサービスの情報を取得できる
保管済みデータに対して集計クエリを発行できる社によって開発され、化されたプロダクト。現在はによってメンテナンスされている。

型のメトリクス監視が監視対象のデータを取得監視対象から監視用データを送信したい場合はに送信 scrape_configs: - job_name: 'node_exporter'
static_configs: - targets: [‘targethost:9100'] を通してデータを直接取得

$ curl https://[‘target exporter’]/metrics

• ごとにつの値を返す • 時間幅に渡るデータをそれぞれ含んでいる時系列の集合 • 単純な浮動小数点数の数値 • 単純な文字列の値
のデータは以下の種類が規定されている。 ## Match Label {} node_load5{instance=‘XXX.XXX.XXX.XXX‘} 0.25 便利な統計関数がある • • • 期間中の平均値に対する現在値の割合を返す。 • 与えられたの中で、値の変化が何回起こったかをカウント。 • 与えられたの絶対値を返す。 • 結果を昇順でソートする。 ## 直近1時間のデータを表示する node_load5[1h] ## 直近1時間のデータを表示する node_load5[1h]

route: receiver: 'containers_notification' receivers: - name: 'containers_notification' slack_configs: - api_url:
'[[YOUR SLACK WEBHOOK]]' channel: '#general' text: "{{ .CommonAnnotations.summary }}" send_resolved: true は、以下を含む受信アラートを管理するコンポーネントです。 •アラートの非通知 •アラートの抑制 •アラートの集約 •アラートの重複排除グループ化 • 、、、などにアラートを通知

の全体像が監視対象のデータを取得定期的に全てのからリソース情報を収集。監視したデータは内のに保持される。のメトリクスを可視化するツール
監視対象から監視用データを送信したい場合はに送信からのアラートに関する情報を受け取って通知する

いままで人が対応してきた運用をが自律的に行う

とによって、の監視設定、運用を自律化する。

展開を定義します。は常にと一致するデプロイメントが実行されていることを確認します。を監視する方法を宣言的に指定します。は、定義に基づい
ての設定を自動的に生成します。を監視する方法を宣言的に指定します。は、定義に基づいての設定を自動的に生成します。展開を定義します。オペレーターは常に、と一致するデプロイメントが実行されていることを確認します。オブジェクトは宣言的にデプロイメントの望ましい状態を記述し、はによって監視されるターゲットのセットを記述します。必要なルールファイルを定義します。これは、アラートおよび記録ルールを含むインスタンスによってロードできます。インスタンス管理メトリクス取得対象設定通知ルール設定インスタンス管理

インスタンス管理のを動的に定義します。は常に、に一致するが実行されていることを確認します。 apiVersion: monitoring.coreos.com/v1 kind:
Prometheus metadata: generation: 2 labels: prometheus: k8s name: k8s namespace: openshift-monitoring spec: nodeSelector: kubernetes.io/os: linux serviceAccountName: prometheus-k8s replicas: 2 listenLocal: true serviceMonitorSelector: {} resources: requests: cpu: 200m memory: 1Gi

メトリクス取得対象設定 apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: name: example-app labels: team:
frontend spec: selector: matchLabels: app: example-app endpoints: - port: web を監視する方法を宣言的に指定します。は、定義に基づいての設定を自動的に生成します。

の監視とはアプリケーション固有のメトリクス収集セッション数、リクエストレスポンスタイム、データ容量オブジェクトのメトリクス収集数、のリソース利用量、のラベルノードのメトリクス収集の、
、 ▶ ▶ ▶ アプリケーションもノードもな設計全て動的に監視が行われなければいけない。

コンポーネント説明スタックの中心的なコンポーネントです。これは、デプロイされたモニタリングコンポーネントおよびリソースを制御し、それらを最新の状態に保ちます。およびインスタンスを作成し、設定、管理します。また、ラベルのクエリーに基づいてモニタリングターゲットの設定を自動生成します。は、システムおよびサービスのモニタリングシステムであり、モニタリングスタックのベースとなります。
アダプターは、のクラスターリソースメトリクスを公開します。リソースメトリクスはおよびメモリーの使用率です。サービスは、によって送信されるアラートを処理します。は、オブジェクトをが使用できるメトリクスに変換します。は、メトリクスを収集するためにすべてのノードにデプロイされるエージェントです。は、メトリクスの分析および可視化のためのダッシュボードを提供します。モニタリングスタックおよびダッシュボードと共に提供されるインスタンスは読み取り専用です。

オブジェクトのメトリクス収集数、のリソース利用量、のラベルノードのメトリクス収集の、、 ▶ ▶
によって管理されたが「」「」に接続を行い、オブジェクト、ノードのメトリクスを収集する。

の設定内の global: evaluation_interval: 30s scrape_interval: 30s external_labels: prometheus: openshift-monitoring/k8s
prometheus_replica: prometheus-k8s-0 rule_files: - /etc/prometheus/rules/prometheus-k8s-rulefiles- 0/*.yaml scrape_configs: - job_name: openshift-apiserver-operator/openshift- apiserver-operator/0 - job_name: openshift-apiserver/openshift-apiserver/0 - job_name: openshift-authentication- operator/authentication-operator/0 - job_name: openshift-authentication/oauth- openshift/0 - job_name: openshift-cloud-credential- operator/cloud-credential-operator/0 … 初期設定の「」にてが決まっている

から取得したオブジェクトのステート情報は、のに表示される。

「」は、固有のオブジェクトのメトリクスを取得します。 • • • • • •
例

から取得したノードのステート情報は、のに表示される。

による可視化で提供されるインスタンスは、そのダッシュボードとともに読み取り専用です。カスタマイズしたい場合は、が提供するコミュニティ版のを導入してください。対象外です。

作成 apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring
data: config.yaml: | prometheusK8s: volumeClaimTemplate: metadata: name: localpvc spec: storageClassName: local-storage resources: requests: storage: 40Gi $ oc -n openshift-monitoring create configmap cluster-monitoring-config $ oc -n openshift-monitoring edit configmap cluster-monitoring-config の設定は、を設定する。 data: config.yaml: | <component>: <configuration_for_the_component> 設定をにで記載例のローカル永続ストレージを要求

の一覧のによって、項目ほどのアラートルールが設定されています。

の設定 global: resolve_timeout: 5m route: group_wait: 30s routes: - receiver:
watchdog repeat_interval: 5m match: alertname: Watchdog - receiver: team-frontend-page match: severity: critical receivers: - name: default - name: watchdog - name: team-frontend-page pagerduty_configs: - service_key: "your-key" ## Export Secret $ oc -n openshift-monitoring get secret alertmanager- main --template='{{ index .data "alertmanager.yaml" }}' |base64 -d > alertmanager.yaml ## Edit Secret $ vi alertmanager.yaml ## Replace Secret $ oc -n openshift-monitoring create secret generic alertmanager-main --from-file=alertmanager.yaml --dry- run -o=yaml | oc -n openshift-monitoring replace secret --filename=- 継続的に実行されるアラートが同梱されています。は、などの通知プロバイダーに、アラートの通知を送信できます。例に通知を送信

の変更可能な設定例・の指定ノードへの移動・への容認の割り当て・永続ストレージの設定の設定、メトリクスデータの保持期間変更など・の設定
の追加など参照：

対象外の操作・追加のオブジェクトをに作成する。・予期しないオブジェクト、またはオブジェクトの作成。・によるの
を停止する。・を他のリソースで使用。・新規の追加。・のリソース、インスタンスの変更。に設定されているルールのカスタマイズは対象外クラスタの監視対象は、に委ねられている

の監視とはアプリケーション固有のメトリクス収集セッション数、リクエストレスポンスタイム、データ容量オブジェクトのメトリクス収集数、のリソース利用量、のラベルノードのメトリクス収集の、
、 ▶ ▶ ▶ アプリケーションもノードもな設計全て動的に監視が行われなければいけない。

とは異なるを配置し、それにを設定することで、アプリケーションのメトリクスを収集する。ただし、アプリケーション用の用メトリクスは事前に設定が必要。アプリケーション固有のメトリクス収集セッション数、リクエストレスポンスタイム、データ容量
▶

apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring data:
config.yaml: | techPreviewUserWorkload: enabled: true $ oc -n openshift-monitoring edit configmap cluster-monitoring-config $ oc -n openshift-user-workload-monitoring get pod NAME READY STATUS RESTARTS AGE prometheus-operator-85bbb7b64d-7jwjd 1/1 Running 0 3m24s prometheus-user-workload-0 5/5 Running 1 3m13s prometheus-user-workload-1 5/5 Running 1 3m13s のから個別サービスモニタリングの有効化とメトリクス取得用が起動

apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: labels: k8s-app: prometheus-example-monitor name: prometheus-example-monitor
namespace: ns1 spec: endpoints: - interval: 30s port: web scheme: http selector: matchLabels: app: prometheus-example-app サービスを行っているにを定義することで、アプリケーションモニタリング用のメトリクス設定が行える。

# HELP http_requests_total Count of all HTTP requests # TYPE
http_requests_total counter http_requests_total{code="200",method="get"} 2 # HELP version Version information about this binary # TYPE version gauge version{version="v0.1.0"} 1 にて参照権限を与えられたメンバーのみが、からメトリクス情報を参照できる。の情報

の挙動をモニタリングは、を活用して、システムコールをキャプチャし、アプリケーションの異常な振る舞いを検出できる仕組み。 ▶ ののプロジェクト ▶ で使用可能なが提供
▶ オープンソースとして提供 ▶ 社によって商用プロダクトとしても利用可能

によるモニタリングは、のシステムコールの実行を検出してルールに基づいて警告できます。たとえば、は次のようなコンテナランタイムの操作を検出できます。・コンテナ内でのシェルの実行・サーバープロセスが予期しない子プロセスの生成・機密ファイル
などの読み取り・非デバイスファイルなどへの書き込み・特定バイナリによる、ネットワーク接続の確立など - rule: Disallowed SSH Connection desc: Detect any new ssh connection to a host other than those in an allowed group of hosts condition: (inbound_outbound) and ssh_port and not allowed_ssh_hosts output: Disallowed SSH Connection (command=%proc.cmdline connection=%fd.name user=%user.name container_id=%container.id image=%container.image.repository) priority: NOTICE tags: [network, mitre_remote_service]

をベースに視覚的にを作成できます。ランタイムルールは、特定の、、などにフィルターを適用でき、複数のクラスタ環境を統合的に管理できます。

まとめ

いままで人が対応してきた運用をが自律的に行う

徹底解説無料プレゼント「徹底解説」抜粋版無料プレゼント以下よりダウンロードください。

OpenShift Monitoring - 自律化したPrometheus運用 -

OpenShift Monitoring - 自律化したPrometheus運用 -

More Decks by Shingo.Kitayama

Other Decks in Technology

Featured

Transcript