オンプレミスのOpenShift基盤構築事例からの監視運用方法

Slide 1

Slide 1 text

オンプレミスのOpenShift基盤構築事例から学ぶ監視運⽤⽅法可観測性を⾼めるモニタリング／ロギング情報を既存の監視体系に連携 2023/07/28 OpenShift Lounge+ "TALKs" 〜 Ops/Monitoring編〜 Tetsushi Ayukawa

Slide 21

Slide 21 text

21 監視項⽬監視対象監視項⽬監視⽅法 ocコマンド or メトリクス備考 Application アプリ監視(アプリケーション固有メトリクス) Thanos API (user-workload- monitoring) Applicationが公開するメトリクス Applicationによる Kubernetes クラスター監視(Cluster Operator) ocコマンド oc get co (oc get clusteroperator) 「AVAILABLE」列が「False」、「PROGRESSING」列が「True」、「DEGRADED」列が「True」のいずれかの場合に異常ノード監視(Nodeステータス) ocコマンド oc get node 「Status」列が「NotReady」の場合に異常 Pod監視(Podステータス) ocコマンド oc get pod 「Status」列が「Running」かつ「READY」列の分⺟(Pod内コンテナ数)と分⼦(正常起動したコンテナ数)が⼀致している場合に正常リソース監視(ディスク使⽤率 (PV) Thanos API kubelet_volume_stats_used_bytes kubelet_volume_stats_capacity_bytes node、pvc、namespace単位のディスク使⽤率(%)を計算 (この例ではlocal-storage operatorでlocalvolumeを作成し、各nodeに割り当てられた仮想ディスクをPVとして使⽤しているため、「node」単位にも表⽰) Node リソース監視(CPU使⽤率) ocコマンド oc adm top node node単位の「CPU%」列の値 (より詳細なメトリクスを監視したい場合はThanos APIも検討) リソース監視(メモリー使⽤率) ocコマンド oc adm top node node単位の「MEMORY%」列の値 (より詳細なメトリクスを監視したい場合はThanos APIも検討) リソース監視(ディスク使⽤率 (OS)) Thanos API node_filesystem_avail_bytes node_filesystem_size_bytes node、(RHCOSの)mountpoint単位のディスク使⽤率(%)を計算 ※他の項⽬(I/Oなど)や、より詳細な項⽬を監視する要件がある場合は、該当項⽬のメトリクスを調査し、Thanos API経由でメトリクスを取得して監視することを検討 ※今後のスクリプトのメンテナンス性も考慮し、ocコマンドで取得可能な項⽬は、Thanos API経由でメトリクスを取得せず、ocコマンドで情報を取得

Slide 22

Slide 22 text

22 監視項⽬監視対象監視項⽬監視⽅法 ocコマンド or メトリクス備考 Application アプリ監視(アプリケーション固有メトリクス) Thanos API (user-workload- monitoring) Applicationが公開するメトリクス Applicationによる Kubernetes クラスター監視(Cluster Operator) ocコマンド oc get co (oc get clusteroperator) 「AVAILABLE」列が「False」、「PROGRESSING」列が「True」、「DEGRADED」列が「True」のいずれかの場合に異常ノード監視(Nodeステータス) ocコマンド oc get node 「Status」列が「NotReady」の場合に異常 Pod監視(Podステータス) ocコマンド oc get pod 「Status」列が「Running」かつ「READY」列の分⺟(Pod内コンテナ数)と分⼦(正常起動したコンテナ数)が⼀致している場合に正常リソース監視(ディスク使⽤率 (PV) Thanos API kubelet_volume_stats_used_bytes kubelet_volume_stats_capacity_bytes node、pvc、namespace単位のディスク使⽤率(%)を計算 (この例ではlocal-storage operatorでlocalvolumeを作成し、各nodeに割り当てられた仮想ディスクをPVとして使⽤しているため、「node」単位にも表⽰) Node リソース監視(CPU使⽤率) ocコマンド oc adm top node node単位の「CPU%」列の値 (より詳細なメトリクスを監視したい場合はThanos APIも検討) リソース監視(メモリー使⽤率) ocコマンド oc adm top node node単位の「MEMORY%」列の値 (より詳細なメトリクスを監視したい場合はThanos APIも検討) リソース監視(ディスク使⽤率 (OS)) Thanos API node_filesystem_avail_bytes node_filesystem_size_bytes node、(RHCOSの)mountpoint単位のディスク使⽤率(%)を計算 ※他の項⽬(I/Oなど)や、より詳細な項⽬を監視する要件がある場合は、該当項⽬のメトリクスを調査し、Thanos API経由でメトリクスを取得して監視することを検討 ※今後のスクリプトのメンテナンス性も考慮し、ocコマンドで取得可能な項⽬は、Thanos API経由でメトリクスを取得せず、ocコマンドで情報を取得 ocコマンド

Slide 26

Slide 26 text

26 監視項⽬監視対象監視項⽬監視⽅法 ocコマンド or メトリクス備考 Application アプリ監視(アプリケーション固有メトリクス) Thanos API (user-workload- monitoring) Applicationが公開するメトリクス Applicationによる Kubernetes クラスター監視(Cluster Operator) ocコマンド oc get co (oc get clusteroperator) 「AVAILABLE」列が「False」、「PROGRESSING」列が「True」、「DEGRADED」列が「True」のいずれかの場合に異常ノード監視(Nodeステータス) ocコマンド oc get node 「Status」列が「NotReady」の場合に異常 Pod監視(Podステータス) ocコマンド oc get pod 「Status」列が「Running」かつ「READY」列の分⺟(Pod内コンテナ数)と分⼦(正常起動したコンテナ数)が⼀致している場合に正常リソース監視(ディスク使⽤率 (PV) Thanos API kubelet_volume_stats_used_bytes kubelet_volume_stats_capacity_bytes node、pvc、namespace単位のディスク使⽤率(%)を計算 (この例ではlocal-storage operatorでlocalvolumeを作成し、各nodeに割り当てられた仮想ディスクをPVとして使⽤しているため、「node」単位にも表⽰) Node リソース監視(CPU使⽤率) ocコマンド oc adm top node node単位の「CPU%」列の値 (より詳細なメトリクスを監視したい場合はThanos APIも検討) リソース監視(メモリー使⽤率) ocコマンド oc adm top node node単位の「MEMORY%」列の値 (より詳細なメトリクスを監視したい場合はThanos APIも検討) リソース監視(ディスク使⽤率 (OS)) Thanos API node_filesystem_avail_bytes node_filesystem_size_bytes node、(RHCOSの)mountpoint単位のディスク使⽤率(%)を計算 ※他の項⽬(I/Oなど)や、より詳細な項⽬を監視する要件がある場合は、該当項⽬のメトリクスを調査し、Thanos API経由でメトリクスを取得して監視することを検討 ※今後のスクリプトのメンテナンス性も考慮し、ocコマンドで取得可能な項⽬は、Thanos API経由でメトリクスを取得せず、ocコマンドで情報を取得 Thanos API

Slide 35

Slide 35 text

35 監視項⽬監視対象監視項⽬監視⽅法 ocコマンド or メトリクス備考 Application アプリ監視(アプリケーション固有メトリクス) Thanos API (user-workload- monitoring) Applicationが公開するメトリクス Applicationによる Kubernetes クラスター監視(Cluster Operator) ocコマンド oc get co (oc get clusteroperator) 「AVAILABLE」列が「False」、「PROGRESSING」列が「True」、「DEGRADED」列が「True」のいずれかの場合に異常ノード監視(Nodeステータス) ocコマンド oc get node 「Status」列が「NotReady」の場合に異常 Pod監視(Podステータス) ocコマンド oc get pod 「Status」列が「Running」かつ「READY」列の分⺟(Pod内コンテナ数)と分⼦(正常起動したコンテナ数)が⼀致している場合に正常リソース監視(ディスク使⽤率 (PV) Thanos API kubelet_volume_stats_used_bytes kubelet_volume_stats_capacity_bytes node、pvc、namespace単位のディスク使⽤率(%)を計算 (この例ではlocal-storage operatorでlocalvolumeを作成し、各nodeに割り当てられた仮想ディスクをPVとして使⽤しているため、「node」単位にも表⽰) Node リソース監視(CPU使⽤率) ocコマンド oc adm top node node単位の「CPU%」列の値 (より詳細なメトリクスを監視したい場合はThanos APIも検討) リソース監視(メモリー使⽤率) ocコマンド oc adm top node node単位の「MEMORY%」列の値 (より詳細なメトリクスを監視したい場合はThanos APIも検討) リソース監視(ディスク使⽤率 (OS)) Thanos API node_filesystem_avail_bytes node_filesystem_size_bytes node、(RHCOSの)mountpoint単位のディスク使⽤率(%)を計算 ※他の項⽬(I/Oなど)や、より詳細な項⽬を監視する要件がある場合は、該当項⽬のメトリクスを調査し、Thanos API経由でメトリクスを取得して監視することを検討 ※今後のスクリプトのメンテナンス性も考慮し、ocコマンドで取得可能な項⽬は、Thanos API経由でメトリクスを取得せず、ocコマンドで情報を取得 Thanos API

Slide 58

Slide 58 text

58 ロギング(OpenShift) Elasticsearch APIからログを取得 "2022-04-11T17:20:09.039187+00:00","liberty-test","mylibertyapp-ibm-websphe-0","{""type"":""liberty_message"",""host"":""mylibertyapp-ibm-websphe- 0.mylibertyapp-ibm-websphe.liberty- test.svc.cluster.local"",""ibm_userDir"":""¥/opt¥/ibm¥/wlp¥/usr¥/"",""ibm_serverName"":""defaultServer"",""message"":""CWWKF0008I: Feature update completed in 1.509 seconds."",""ibm_threadId"":""0000002d"",""ibm_datetime"":""2022-04- 11T17:20:09.038+0000"",""ibm_messageId"":""CWWKF0008I"",""module"":""com.ibm.ws.kernel.feature.internal.FeatureManager"",""loglevel"":""INFO"",""ibm_sequ ence"":""1649697609038_000000000002D""}" "2022-04-11T17:20:09.039474+00:00","liberty-test","mylibertyapp-ibm-websphe-0","{""type"":""liberty_message"",""host"":""mylibertyapp-ibm-websphe- 0.mylibertyapp-ibm-websphe.liberty- test.svc.cluster.local"",""ibm_userDir"":""¥/opt¥/ibm¥/wlp¥/usr¥/"",""ibm_serverName"":""defaultServer"",""message"":""CWWKF0011I: The defaultServer server is ready to run a smarter planet. The defaultServer server started in 2.445 seconds."",""ibm_threadId"":""0000002d"",""ibm_datetime"":""2022-04- 11T17:20:09.039+0000"",""ibm_messageId"":""CWWKF0011I"",""module"":""com.ibm.ws.kernel.feature.internal.FeatureManager"",""loglevel"":""AUDIT"",""ibm_seq uence"":""1649697609039_000000000002E""}" "2022-04-11T17:20:20.272646+00:00","liberty-test","mylibertyapp-ibm-websphe-0","{""type"":""liberty_accesslog"",""host"":""mylibertyapp-ibm-websphe- 0.mylibertyapp-ibm-websphe.liberty- test.svc.cluster.local"",""ibm_userDir"":""¥/opt¥/ibm¥/wlp¥/usr¥/"",""ibm_serverName"":""defaultServer"",""ibm_remoteHost"":""10.131.2.1"",""ibm_requestP rotocol"":""HTTP¥/1.1"",""ibm_requestHost"":""10.131.2.83"",""ibm_bytesReceived"":13283,""ibm_requestMethod"":""GET"",""ibm_requestPort"":""9080"",""ibm_ elapsedTime"":1291,""ibm_responseCode"":200,""ibm_uriPath"":""¥/"",""ibm_userAgent"":""kube-probe¥/1.19"",""ibm_datetime"":""2022-04- 11T17:20:20.272+0000"",""ibm_sequence"":""1649697620271_0000000000003""}" "2022-04-11T17:20:06.461657+00:00","liberty-test","mylibertyapp-ibm-websphe-0","" "2022-04-11T17:20:07.453593+00:00","liberty-test","mylibertyapp-ibm-websphe-0","{""type"":""liberty_message"",""host"":""mylibertyapp-ibm-websphe- 0.mylibertyapp-ibm-websphe.liberty- test.svc.cluster.local"",""ibm_userDir"":""¥/opt¥/ibm¥/wlp¥/usr¥/"",""ibm_serverName"":""defaultServer"",""message"":""CWWKG0093A: Processing configuration drop-ins resource: ¥/opt¥/ibm¥/wlp¥/usr¥/servers¥/defaultServer¥/configDropins¥/defaults¥/keystore.xml"",""ibm_threadId"":""00000024"",""ibm_datetime"":""2022-04- 11T17:20:07.451+0000"",""ibm_messageId"":""CWWKG0093A"",""module"":""com.ibm.ws.config.xml.internal.ServerXMLConfiguration"",""loglevel"":""AUDIT"",""ibm _sequence"":""1649697607451_0000000000002""}" Elasticsearch APIからログを取得するスクリプトの出⼒例 (例) 上述で取得した値を元に、監視、または保管⽤のログファイルを作成 (要件に応じてカスタマイズしたログファイル)

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text