Prometheus Shardingのためにミニマルに始めるThanos

1 Prometheus Shardingのためにミニマルに始めるThanos akichan 2023.03.16 Kubernetes Meetup Tokyo #56

2 Prometheus Shardingのためにミニマルに始めるThanos 自己紹介 akichan やってること • k8sクラスタ運用（オンプレ&EKS） • 運用課題解決のためのk8sカスタム
コントローラーの開発 • 開発環境やデプロイ周りをよくする活動 @ch11aki @ch1aki GMOペパボ株式会社技術部プラットフォームグループ SRE

3 • プライベートクラウド上の k8sクラスタでローカル時系列データベースのPrometheusを運用 ◦ 内製のクラスタ管理ツール（ NKE）によってk8sクラスタを管理 ◦ NKEではPrometheusと基本的なスクレイピング設定・アラートルールが提供される
• クラスタ規模の成長（1000 Pod以上、100 node以上）に合わせ、Prometheusの負荷も増加 ◦ メモリ使用率が特に増加 → 頻繁にOOMで停止 ◦ Prometheusサーバー専用nodeの垂直スケールも限界が見えてきた • Progressive DeliveryでPrometheusを参照しているため、Prometheusが落ちるとリリースにも影響がでて困る GMOペパボのとあるサービス Prometheus Shardingのためにミニマルに始めるThanos

4 • 取得するメトリクスの種類や頻度を減らす ◦ 現状とっているのは厳選されたメトリクスで大きくは減らせなかった ◦ 取得間隔を減らすのもあまり効果は無かった（圧縮が効いているので種類を減らすより効果が薄いらしい？） • 水平スケール
◦ 垂直シャーディング ▪ 用途ごと（ex. ネットワーク/アプリケーション）にPrometheusサーバーを分割する方法 ▪ 複数台の用途の異なるPrometheusを意識した管理が手間 ◦ 水平シャーディング（採用） ▪ 複数のスクレイプ用Prometheusを設ける ▪ Prometheus Opetatorでは設定一つでシャーディング可能！ • shard podが増える • Scrapeルールもいい感じに分けてくれる Prometheusのメモリ使用率を下げるためにできること Prometheus Shardingのためにミニマルに始めるThanos apiVersion: monitoring.coreos.com/v1 kind: Prometheus metadata: name: prometheus spec: shards: 2 # ←これだけ！ ...

5 ローカルストレージの場合、それぞれの shardにメトリクスが分散して保存 • クエリが実行されるshardによって異なる結果が返ってくる（見るたびにグラフが変わる） • 個々のshardに保存されるメトリクスだけではアラートルールが正しく評価
されない可能性（複数種のメトリクスの合計の評価など）シャーディング時の注意事項 Prometheus Shardingのためにミニマルに始めるThanos Thanos等を使ってグローバルにクエリすることが推奨されている https://github.com/prometheus-operator/prometheus-operator/blob/main/D ocumentation/user-guides/shards-and-replicas.md Prometheus Server shard-1 TSDB App -1 App -2 App -3 Grafana svc shard-1のTSDBに含まれるメトリクス shard-2のTSDBに含まれるメトリクスクエリが実行される Prometheus Serverによって異なる結果 Query Scrape Alert Manager Prometheus Server shard-2 TSDB 個々のshardが保持するメトリクスは全体の一部。ルールが正しく評価されない可能性 Push Alert

6 Prometheus Shardingのためにミニマルに始めるThanos • Prometheusをスケーリングするための複数のコンポーネントから成る ◦ Query: 複数のPrometheus サーバーにクエリ投げて結果を
集約 ◦ Ruler: Queryにクエリ投げて、アラートルールを評価 ◦ Sidecar: StoreAPIを喋り PrometheusのデータをQuerier に提供するプロキシ ◦ etc… • 一部機能だけを利用可能（外部オブジェクトストレージ等は必須ではない） Thanos（https://thanos.io/）引用: https://thanos.io/tip/thanos/quick-tutorial.md/

7 Prometheus Shardingのためにミニマルに始めるThanos 直面しているローカルストレージ&Sharding時の課題の解決にはQuery&Rulerがあれば十分と判断 • 社内では保存期間がローカルストレージで十分なケースが多い • オブジェクトストレージ利用の追加コストが不要
だと導入しやすい sharding時の課題のミニマルな解決 Prometheus Server shard-1 TSDB App -1 App -2 App -3 Grafana headless svc Query Scrape Alert Manager Prometheus Server shard-2 TSDB Push Alert Thanos Query Thanos Sidecar Thanos Sidecar Query Query Query Query Prometheus servers を見つける Thanos Ruler アラート評価クエリ

8 • Thanos Sidecar/Rulerは Prometheus Operatorで導入可 ◦ Sidecarは数行追加だけ ◦ RulerはPrometheusRuleリソースを
流用できる • QueryはThanos Operator使うほどで無かったので素朴にDeploymentで追加 • Grafana等はPrometheusの代わりに Thanos Queryを参照するよう変更 Thanos Sidecar/Query/Rulerの導入 Prometheus Shardingのためにミニマルに始めるThanos apiVersion: monitoring.coreos.com/v1 kind: Prometheus metadata: name: prometheus spec: ... thanos: image: quay.io/thanos/thanos:v0.28.1 apiVersion: monitoring.coreos.com/v1 kind: ThanosRuler metadata: name: thanos-ruler spec: image: quay.io/thanos/thanos:v0.28.1 ruleSelector: matchLabels: role: alert-rules queryEndpoints: - dnssrv+_http._tcp.thanos-querier alertmanagersUrl: - http://alertmanager-example:9093

9 Prometheus Shardingのためにミニマルに始めるThanos • 負荷が分散され、OOMで落ちることがなくなった🎉 • クエリも整合性のある結果を返せていて、使い勝手も大きくは変わらなかった Sharding&Thanos導入の結果

10 Prometheus Shardingのためにミニマルに始めるThanos • Promehteusの負荷をshardingで分散してOOMで落ちる問題を解消できた • Prometheus OperatorでShardingもThanos（Sidecar/Ruler）導入もすぐできた • リモートストレージを利用しない必要最小限の構成でもThanosを活用できた
まとめ Prometheusのドキュメントにある通り、ローカルストレージはそもそも耐久性のある長期ストレージを意図して設計されたものではない。ちゃんと保存するならリモートストレージを検討したほうがいい。注意⚠

Thank You!! 11

Prometheus Shardingのためにミニマルに始めるThanos

Prometheus Shardingのためにミニマルに始めるThanos

ch1aki

More Decks by ch1aki

Other Decks in Technology

Featured

Transcript

1 Prometheus Shardingのためにミニマルに始めるThanos akichan 2023.03.16 Kubernetes Meetup Tokyo #56

2 Prometheus Shardingのためにミニマルに始めるThanos 自己紹介 akichan やってること • k8sクラスタ運用（オンプレ&EKS） • 運用課題解決のためのk8sカスタム

6 Prometheus Shardingのためにミニマルに始めるThanos • Prometheusをスケーリングするための複数のコンポーネントから成る ◦ Query: 複数のPrometheus サーバーにクエリ投げて結果を

8 • Thanos Sidecar/Rulerは Prometheus Operatorで導入可 ◦ Sidecarは数行追加だけ ◦ RulerはPrometheusRuleリソースを

9 Prometheus Shardingのためにミニマルに始めるThanos • 負荷が分散され、OOMで落ちることがなくなった🎉 • クエリも整合性のある結果を返せていて、使い勝手も大きくは変わらなかった Sharding&Thanos導入の結果

Thank You!! 11