OpenShift Monitoring - 自律化したPrometheus運用 -

Slide 1

Slide 1 text

自律化した運用

Slide 2

Slide 2 text

No content

Slide 3

Slide 3 text

本日のアジェンダコンテナのモニタリングの仕組み

Slide 4

Slide 4 text

コンテナのモニタリング

Slide 5

Slide 5 text

可観測性は複雑であるため、クラスタ内の問題の原因を特定することは困難です。特定のノードに何か問題があるだけでなく、コンテナイメージの不具合、動作の異常、の接続性など、その原因は多岐にわたります。サーバーやアプリに入って調査せずとも、システムの状態を把握すること

Slide 6

Slide 6 text

クラウドネイティブな監視従来の監視クラウドネイティブな監視動的に監視を運用できることがメリット

Slide 7

Slide 7 text

データを累積すること。一貫性を有し、それぞれが一つの論理的計量ユニット、あるいは一定時間内のヒストグラムに表す。シングルリクエストの範囲内にて情報処理を行うこと。いかなるデータも、全てシステムの単一トランザクションにバンディングされる。いくつかの離散した(非連続の)ことがらを、データとして記述すること。データ量

Slide 8

Slide 8 text

▶ イベントの集計した結果が時間とともにどのように変化しているかを示す ▶ よく使われるメトリクスは、リクエスト数やリクエストの処理にかかったレスポンスタイム、リソース使用量など ▶ コンテキストをフィルタリングすることで、データ量や処理範囲を調整する

Slide 9

Slide 9 text

▶ つのリクエストの範囲で関数呼び出しなどの複数のイベントを記録し、ボトルネックがどこにあるのかを示すスタックトレース ▶プロセスをまたぐものは、分散トレーシングと呼ばれる ▶ サンプリングによってデータ量を保ちつつ、パフォーマンスに及ぼす影響を適正化する

Slide 10

Slide 10 text

▶ イベントのコンテキストの一部を記録アクセスログ ▶ 特定のイベントにどのような問題があるのかを正確に特定できる ▶ 収集結果を保存するために大量のストレージと帯域が必要になる

Slide 11

Slide 11 text

の ▶ ▶ ▶ が示すに準拠

Slide 12

Slide 12 text

の仕組み

Slide 13

Slide 13 text

とは型のメトリクス監視側から各メトリクスを定期的に取得する監視サーバは監視対象をすべて把握しているため、監視対象からデータが取得できなかった場合には異常があると気づくことが容易多くのを提供による時系列データ検索クラウドよりサービスの情報を取得できる保管済みデータに対して集計クエリを発行できる社によって開発され、化されたプロダクト。現在はによってメンテナンスされている。

Slide 14

Slide 14 text

型のメトリクス監視が監視対象のデータを取得監視対象から監視用データを送信したい場合はに送信 scrape_configs: - job_name: 'node_exporter' static_configs: - targets: [‘targethost:9100'] を通してデータを直接取得

Slide 15

Slide 15 text

$ curl https://[‘target exporter’]/metrics

Slide 16

Slide 16 text

• ごとにつの値を返す • 時間幅に渡るデータをそれぞれ含んでいる時系列の集合 • 単純な浮動小数点数の数値 • 単純な文字列の値のデータは以下の種類が規定されている。 ## Match Label {} node_load5{instance=‘XXX.XXX.XXX.XXX‘} 0.25 便利な統計関数がある • • • 期間中の平均値に対する現在値の割合を返す。 • 与えられたの中で、値の変化が何回起こったかをカウント。 • 与えられたの絶対値を返す。 • 結果を昇順でソートする。 ## 直近1時間のデータを表示する node_load5[1h] ## 直近1時間のデータを表示する node_load5[1h]

Slide 17

Slide 17 text

route: receiver: 'containers_notification' receivers: - name: 'containers_notification' slack_configs: - api_url: '[[YOUR SLACK WEBHOOK]]' channel: '#general' text: "{{ .CommonAnnotations.summary }}" send_resolved: true は、以下を含む受信アラートを管理するコンポーネントです。 •アラートの非通知 •アラートの抑制 •アラートの集約 •アラートの重複排除グループ化 • 、、、などにアラートを通知

Slide 18

Slide 18 text

の全体像が監視対象のデータを取得定期的に全てのからリソース情報を収集。監視したデータは内のに保持される。のメトリクスを可視化するツール監視対象から監視用データを送信したい場合はに送信からのアラートに関する情報を受け取って通知する

Slide 19

Slide 19 text

いままで人が対応してきた運用をが自律的に行う

Slide 20

Slide 20 text

とによって、の監視設定、運用を自律化する。

Slide 21

Slide 21 text

展開を定義します。は常にと一致するデプロイメントが実行されていることを確認します。を監視する方法を宣言的に指定します。は、定義に基づいての設定を自動的に生成します。を監視する方法を宣言的に指定します。は、定義に基づいての設定を自動的に生成します。展開を定義します。オペレーターは常に、と一致するデプロイメントが実行されていることを確認します。オブジェクトは宣言的にデプロイメントの望ましい状態を記述し、はによって監視されるターゲットのセットを記述します。必要なルールファイルを定義します。これは、アラートおよび記録ルールを含むインスタンスによってロードできます。インスタンス管理メトリクス取得対象設定通知ルール設定インスタンス管理

Slide 22

Slide 22 text

インスタンス管理のを動的に定義します。は常に、に一致するが実行されていることを確認します。 apiVersion: monitoring.coreos.com/v1 kind: Prometheus metadata: generation: 2 labels: prometheus: k8s name: k8s namespace: openshift-monitoring spec: nodeSelector: kubernetes.io/os: linux serviceAccountName: prometheus-k8s replicas: 2 listenLocal: true serviceMonitorSelector: {} resources: requests: cpu: 200m memory: 1Gi

Slide 23

Slide 23 text

メトリクス取得対象設定 apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: name: example-app labels: team: frontend spec: selector: matchLabels: app: example-app endpoints: - port: web を監視する方法を宣言的に指定します。は、定義に基づいての設定を自動的に生成します。

Slide 24

Slide 24 text

の監視とはアプリケーション固有のメトリクス収集セッション数、リクエストレスポンスタイム、データ容量オブジェクトのメトリクス収集数、のリソース利用量、のラベルノードのメトリクス収集の、、 ▶ ▶ ▶ アプリケーションもノードもな設計全て動的に監視が行われなければいけない。

Slide 25

Slide 25 text

No content

Slide 26

Slide 26 text

Slide 27

Slide 27 text

コンポーネント説明スタックの中心的なコンポーネントです。これは、デプロイされたモニタリングコンポーネントおよびリソースを制御し、それらを最新の状態に保ちます。およびインスタンスを作成し、設定、管理します。また、ラベルのクエリーに基づいてモニタリングターゲットの設定を自動生成します。は、システムおよびサービスのモニタリングシステムであり、モニタリングスタックのベースとなります。アダプターは、のクラスターリソースメトリクスを公開します。リソースメトリクスはおよびメモリーの使用率です。サービスは、によって送信されるアラートを処理します。は、オブジェクトをが使用できるメトリクスに変換します。は、メトリクスを収集するためにすべてのノードにデプロイされるエージェントです。は、メトリクスの分析および可視化のためのダッシュボードを提供します。モニタリングスタックおよびダッシュボードと共に提供されるインスタンスは読み取り専用です。

Slide 28

Slide 28 text

オブジェクトのメトリクス収集数、のリソース利用量、のラベルノードのメトリクス収集の、、 ▶ ▶ によって管理されたが「」「」に接続を行い、オブジェクト、ノードのメトリクスを収集する。

Slide 29

Slide 29 text

の設定内の global: evaluation_interval: 30s scrape_interval: 30s external_labels: prometheus: openshift-monitoring/k8s prometheus_replica: prometheus-k8s-0 rule_files: - /etc/prometheus/rules/prometheus-k8s-rulefiles- 0/*.yaml scrape_configs: - job_name: openshift-apiserver-operator/openshift- apiserver-operator/0 - job_name: openshift-apiserver/openshift-apiserver/0 - job_name: openshift-authentication- operator/authentication-operator/0 - job_name: openshift-authentication/oauth- openshift/0 - job_name: openshift-cloud-credential- operator/cloud-credential-operator/0 … 初期設定の「」にてが決まっている

Slide 30

Slide 30 text

から取得したオブジェクトのステート情報は、のに表示される。

Slide 31

Slide 31 text

「」は、固有のオブジェクトのメトリクスを取得します。 • • • • • • 例

Slide 32

Slide 32 text

から取得したノードのステート情報は、のに表示される。

Slide 33

Slide 33 text

による可視化で提供されるインスタンスは、そのダッシュボードとともに読み取り専用です。カスタマイズしたい場合は、が提供するコミュニティ版のを導入してください。対象外です。

Slide 34

Slide 34 text

作成 apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring data: config.yaml: | prometheusK8s: volumeClaimTemplate: metadata: name: localpvc spec: storageClassName: local-storage resources: requests: storage: 40Gi $ oc -n openshift-monitoring create configmap cluster-monitoring-config $ oc -n openshift-monitoring edit configmap cluster-monitoring-config の設定は、を設定する。 data: config.yaml: | : 設定をにで記載例のローカル永続ストレージを要求

Slide 35

Slide 35 text

の一覧のによって、項目ほどのアラートルールが設定されています。

Slide 36

Slide 36 text

の設定 global: resolve_timeout: 5m route: group_wait: 30s routes: - receiver: watchdog repeat_interval: 5m match: alertname: Watchdog - receiver: team-frontend-page match: severity: critical receivers: - name: default - name: watchdog - name: team-frontend-page pagerduty_configs: - service_key: "your-key" ## Export Secret $ oc -n openshift-monitoring get secret alertmanager- main --template='{{ index .data "alertmanager.yaml" }}' |base64 -d > alertmanager.yaml ## Edit Secret $ vi alertmanager.yaml ## Replace Secret $ oc -n openshift-monitoring create secret generic alertmanager-main --from-file=alertmanager.yaml --dry- run -o=yaml | oc -n openshift-monitoring replace secret --filename=- 継続的に実行されるアラートが同梱されています。は、などの通知プロバイダーに、アラートの通知を送信できます。例に通知を送信

Slide 37

Slide 37 text

の変更可能な設定例・の指定ノードへの移動・への容認の割り当て・永続ストレージの設定の設定、メトリクスデータの保持期間変更など・の設定の追加など参照：

Slide 38

Slide 38 text

対象外の操作・追加のオブジェクトをに作成する。・予期しないオブジェクト、またはオブジェクトの作成。・によるのを停止する。・を他のリソースで使用。・新規の追加。・のリソース、インスタンスの変更。に設定されているルールのカスタマイズは対象外クラスタの監視対象は、に委ねられている

Slide 39

Slide 39 text

No content

Slide 40

Slide 40 text

Slide 41

Slide 41 text

とは異なるを配置し、それにを設定することで、アプリケーションのメトリクスを収集する。ただし、アプリケーション用の用メトリクスは事前に設定が必要。アプリケーション固有のメトリクス収集セッション数、リクエストレスポンスタイム、データ容量 ▶

Slide 42

Slide 42 text

apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring data: config.yaml: | techPreviewUserWorkload: enabled: true $ oc -n openshift-monitoring edit configmap cluster-monitoring-config $ oc -n openshift-user-workload-monitoring get pod NAME READY STATUS RESTARTS AGE prometheus-operator-85bbb7b64d-7jwjd 1/1 Running 0 3m24s prometheus-user-workload-0 5/5 Running 1 3m13s prometheus-user-workload-1 5/5 Running 1 3m13s のから個別サービスモニタリングの有効化とメトリクス取得用が起動

Slide 43

Slide 43 text

apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: labels: k8s-app: prometheus-example-monitor name: prometheus-example-monitor namespace: ns1 spec: endpoints: - interval: 30s port: web scheme: http selector: matchLabels: app: prometheus-example-app サービスを行っているにを定義することで、アプリケーションモニタリング用のメトリクス設定が行える。

Slide 44

Slide 44 text

# HELP http_requests_total Count of all HTTP requests # TYPE http_requests_total counter http_requests_total{code="200",method="get"} 2 # HELP version Version information about this binary # TYPE version gauge version{version="v0.1.0"} 1 にて参照権限を与えられたメンバーのみが、からメトリクス情報を参照できる。の情報

Slide 45

Slide 45 text

の挙動をモニタリングは、を活用して、システムコールをキャプチャし、アプリケーションの異常な振る舞いを検出できる仕組み。 ▶ ののプロジェクト ▶ で使用可能なが提供 ▶ オープンソースとして提供 ▶ 社によって商用プロダクトとしても利用可能

Slide 46

Slide 46 text

によるモニタリングは、のシステムコールの実行を検出してルールに基づいて警告できます。たとえば、は次のようなコンテナランタイムの操作を検出できます。・コンテナ内でのシェルの実行・サーバープロセスが予期しない子プロセスの生成・機密ファイルなどの読み取り・非デバイスファイルなどへの書き込み・特定バイナリによる、ネットワーク接続の確立など - rule: Disallowed SSH Connection desc: Detect any new ssh connection to a host other than those in an allowed group of hosts condition: (inbound_outbound) and ssh_port and not allowed_ssh_hosts output: Disallowed SSH Connection (command=%proc.cmdline connection=%fd.name user=%user.name container_id=%container.id image=%container.image.repository) priority: NOTICE tags: [network, mitre_remote_service]

Slide 47

Slide 47 text

をベースに視覚的にを作成できます。ランタイムルールは、特定の、、などにフィルターを適用でき、複数のクラスタ環境を統合的に管理できます。

Slide 48

Slide 48 text

まとめ

Slide 49

Slide 49 text

いままで人が対応してきた運用をが自律的に行う

Slide 50

Slide 50 text

徹底解説無料プレゼント「徹底解説」抜粋版無料プレゼント以下よりダウンロードください。

Slide 51

Slide 51 text

No content