prob_code: k8s

prob_code: k8s @proelbtn

自己紹介 • 名前：えると（@proelbtn） • 所属：電気通信大学セキュリティ情報学プログラム 3年 • 今年の役割：インフラリーダー

問題の様子を見に行こう！

🤔🤔🤔

問題 : Prometheusが壊れちゃった。。。概要あなたはトラブルシューティングコンテストの運営です。本戦当日、目が覚めて問題展開状況を確認するダッシュボードを見に行ったところ、メトリクスが取れていませんでした。前提条件現在保存されているメトリクスを消してはいけない。初期条件ダッシュボードを確認すると、2021/03/06
02:16以降のメトリクスが見れない。終了条件ダッシュボードからメトリクスを見れるようにする。

とりあえずログを見ろ

$ kubectl get logs -n monitoring … ... level=warn ts=2021-03-05T18:06:31.492Z
caller=scrape.go:972 component="scrape manager" scrape_pool=blackbox-exporter target="http://blackbox-exporter.monitoring.svc.cluster.local:9115/pro be?module=icmp&target=10.5.15.194" msg="append failed" err="write to WAL: log samples: write /etc/prometheus-data/wal/00001007: disk quota exceeded" level=warn ts=2021-03-05T18:06:31.492Z caller=scrape.go:987 component="scrape manager" scrape_pool=blackbox-exporter target="http://blackbox-exporter.monitoring.svc.cluster.local:9115/pro be?module=icmp&target=10.5.15.194" msg="appending scrape report failed" err="write to WAL: log samples: write /etc/prometheus-data/wal/00001007: disk quota exceeded"

さてどう解決するか？ • 少なくなったら足すだけや！ ◦ PVCを編集してスケールアップしたい ◦ そもそもできるの？

$ kubectl get sc NAME PROVISIONER RECLAIMPOLICY VOLUMEBINDINGMODE ALLOWVOLUMEEXPANSION AGE
csi-cephfs rook-ceph.cephfs.csi.ceph.com Retain Immediate true 11d

ALLOWVOLUMEEXPANSION=true

さてどう解決するか？ • 少なくなったら足すだけや！ ◦ PVCを編集してスケールアップしたい ◦ そもそもできるの？ ◦ おっしゃ！後はやるだけや！

$ nvim prometheus-pvc.yaml $ kubectl apply -f .

Ignoring the PVC: didn't find a plugin capable of expanding
the volume; waiting for an external controller to process this PVC.

🤔🤔🤔🤔🤔

さてどう解決するか？ • 少なくなったら足すだけや！ ◦ 足せなかった。。。

$ kubectl delete -f .

😇😇😇

問題 : Prometheusが壊れちゃった。。。概要あなたはトラブルシューティングコンテストの運営です。本戦当日、目が覚めて問題展開状況を確認するダッシュボードを見に行ったところ、メトリクスが取れていませんでした。そしてPVCを削除しました。前提条件現在保存されているメトリクスを消してはいけない。初期条件
ダッシュボードを確認すると、2021/03/06 02:16以降のメトリクスが見れない。終了条件ダッシュボードからメトリクスを見れるようにする。

さてどう解決するか？ • 少なくなったら足すだけや！ ◦ 足せなかった。。。 • どうにかしてデータを復旧させなければならない

$ kubectl get sc NAME PROVISIONER RECLAIMPOLICY VOLUMEBINDINGMODE ALLOWVOLUMEEXPANSION AGE
csi-cephfs rook-ceph.cephfs.csi.ceph.com Retain Immediate true 11d

RECLAIMPOLICY=Retain

さてどう解決するか？ • 少なくなったら足すだけや！ ◦ 足せなかった。。。 • 実は、PVは残っているのでは。。。？

$ kubectl get pv NAME CAPACITY ACCESS MODES RECLAIM POLICY
STATUS CLAIM STORAGECLASS REASON AGE pvc-dfb6cde7-e3d0-4e6a-b46d-4ac5dd3d97fb 20Gi RWX Retain Released monitoring/prometheus-pvc csi-cephfs 8d

PV自体は消えていなさそう！

でも、どうやって解決するか？

正しく作られている時の状況 Persistent Volume Claim Storage Class Persistent Volume storageClassName claimRef
volumeName

今の状況 Persistent Volume Claim Storage Class Persistent Volume claimRef

$ kubectl edit pv pvc-dfb6cde7-e3d0-4e6a-b46d-4ac5dd3d97fb

$ cat pvc.yaml kind: PersistentVolumeClaim apiVersion: v1 metadata: namespace: monitoring
name: prometheus-pvc-old spec: accessModes: - ReadWriteMany resources: requests: storage: 20Gi volumeName: "pvc-dfb6cde7-e3d0-4e6a-b46d-4ac5dd3d97fb" storageClassName: csi-cephfs

$ cat ds.yaml apiVersion: apps/v1 kind: Deployment ... containers: -
name: data-access image: ubuntu:18.04 command: ["/bin/sh"] args: ["-c", "while true; do echo hello; sleep 10; done"] volumeMounts: - name: prometheus-data-old mountPath: /old - name: prometheus-data mountPath: /new volumes: - name: prometheus-data-old persistentVolumeClaim: claimName: prometheus-pvc-old - name: prometheus-data persistentVolumeClaim: claimName: prometheus-pvc

$ cp -r /old/* /new $ chown -R 65534:65534 /new

🎉🎉🎉🎉🎉

教訓 • ちゃんとストレージのサイジングをしないとだめ ◦ ログやメトリクスは無くなると困る ◦ 1日の収集量とretentionの設定から計算する ◦ 多少の余力を持ってサイジングする

教訓 • ちゃんとストレージのサイジングをしないとだめ ◦ ログやメトリクスは無くなると困る ◦ 1日の収集量とretentionの設定から計算する ◦ 多少の余力を持ってサイジングする •
書かれているからといって使えるとは限らない ◦ 必要な要件をちゃんと確認する必要があった

教訓 • ちゃんとストレージのサイジングをしないとだめ ◦ ログやメトリクスは無くなると困る ◦ 1日の収集量とretentionの設定から計算する ◦ 多少の余力を持ってサイジングする •
書かれているからといって使えるとは限らない ◦ 必要な要件をちゃんと確認する必要があった • 監視基盤が死んだ時の手段を用意しておく ◦ Prometheusが死んだアラートが上がらなかった

教訓

prob_code: k8s

prob_code: k8s

More Decks by proelbtn

Other Decks in Technology

Featured

Transcript