次世代のログ基盤 Grafana Lokiを始めよう! / prometheus-meetup-tokyo-3-lets-start-the-loki

Ce4810046c3b25ff4dfce9cac2dbd4dd?s=47 uesyn
January 15, 2020

次世代のログ基盤 Grafana Lokiを始めよう! / prometheus-meetup-tokyo-3-lets-start-the-loki

Ce4810046c3b25ff4dfce9cac2dbd4dd?s=128

uesyn

January 15, 2020
Tweet

Transcript

  1. 4.

    Lokiとは? • Log Aggregation System ◦ Horizontally-Scalable ◦ Highly-Available ◦

    Multi-tenant • Grafana Labsが主体となって開発 ◦ Grafana連携 • OSS ◦ https://github.com/grafana/loki ◦ 最新はv1.2.0(2020/1/14時点)
  2. 6.

    Lokiについて • Like Prometheus, but for logs ◦ ログ検索には以下のように行う ▪

    ログに付与されたラベルによるフィルタリング ▪ さらに結果をgrepのように絞り込み • ログをシンプルに扱う ◦ ログを保存時する時、形態素解析のようなテキスト処理はしない ◦ Prometheusのようにラベルを付与してログを保存
  3. 8.

    Lokiの概要 Ω Promtail App Log Service Discovery Systemd Journal Node

    ラベル+ログ Log Log Cortexっぽい アーキテクチャ Prometheusっぽい コンフィグ Label + Logを送信
  4. 9.

    Ω Lokiの概要 Promtail App Log Service Discovery Systemd Journal Node

    ラベル+ログ Log Log Cortexっぽい アーキテクチャ Prometheusっぽい コンフィグ 前半パート(@uesyn) 後半パート(@kameneko1004) Label + Logを送信
  5. 11.

    lokiのアーキテクチャ • ほぼCortexのアーキテクチャ ◦ https://github.com/cortexproject/cortex • 主なコンポーネント ◦ Distributor ◦

    Ingester ◦ Chunk Store ◦ Querier ◦ Table Manager Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients Consul or etcd
  6. 12.

    lokiのアーキテクチャ • ほぼCortexのアーキテクチャ ◦ https://github.com/cortexproject/cortex • 主なコンポーネント ◦ Distributor ◦

    Ingester ◦ Chunk Store ◦ Querier ◦ Table Manager Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients • 受信したログをIngesterへ送信 • 冗長化構成の時は複数のIngesterへ • どのIngesterへ送信するかはConsul(or etcd)を参照 Consul or etcd
  7. 13.

    lokiのアーキテクチャ • ほぼCortexのアーキテクチャ ◦ https://github.com/cortexproject/cortex • 主なコンポーネント ◦ Distributor ◦

    Ingester ◦ Chunk Store ◦ Querier ◦ Table Manager Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients • ログを永続ストレージへ保存 • Ingester毎に受け付けるログが決まっている ◦ Consul(or etcd)に情報を保持 • セミステートフルなコンポーネント ◦ 直近のログを持つ Consul or etcd
  8. 14.

    lokiのアーキテクチャ • ほぼCortexのアーキテクチャ ◦ https://github.com/cortexproject/cortex • 主なコンポーネント ◦ Distributor ◦

    Ingester ◦ Chunk Store ◦ Querier ◦ Table Manager Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients • IndexとChunkの2種類のストレージ ◦ 外部(または内部)のストレージを利用 Consul or etcd
  9. 15.

    Chunk Storeの補足 • loki自体はDBではない • 2種類のChunk Store ◦ Index: ログ検索のための転置インデックス

    ◦ Chunk: 実際のログを保持 • 利用可能なDB Index ◦ Local ◦ DynamoDB ◦ Bigtable ◦ Cassandra Chunk ◦ Local ◦ Cloud Storage ◦ S3 Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients Consul or etcd
  10. 16.

    lokiのアーキテクチャ • ほぼCortexのアーキテクチャ ◦ https://github.com/cortexproject/cortex • 主なコンポーネント ◦ Distributor ◦

    Ingester ◦ Chunk Store ◦ Querier ◦ Table Manager Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients • ログの検索に応じる • IngesterやChunk Storeからログを取得 Consul or etcd
  11. 17.

    lokiのアーキテクチャ • ほぼCortexのアーキテクチャ ◦ https://github.com/cortexproject/cortex • 主なコンポーネント ◦ Distributor ◦

    Ingester ◦ Chunk Store ◦ Querier ◦ Table Manager Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients • 保存するログのretentionを管理 • 一部Chunk Storeには非対応 Consul or etcd
  12. 18.

    lokiのアーキテクチャ • ほぼCortexのアーキテクチャ ◦ https://github.com/cortexproject/cortex • 主なコンポーネント ◦ Distributor ◦

    Ingester ◦ Chunk Store ◦ Querier ◦ Table Manager Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients Consul or etcd
  13. 20.

    Lokiとは? • Log Aggregation System ◦ Horizontally-Scalable ◦ Highly-Available ◦

    Multi-tenant • Grafana Labsが主体となって開発 ◦ Grafana連携 • OSS ◦ https://github.com/grafana/loki ◦ 最新はv1.2.0(2019/1/14時点) 再掲
  14. 21.

    マルチテナント • テナントを識別するHTTPヘッダを付与することで実現 ◦ X-Scope-OrgID: <tenant ID> • Loki自体にテナントの認証の仕組みは含まれていない ◦

    Nginx + Basic AuthやOAuth2 Proxyのようなリバースプロキシを用意する必要がある ◦ 上記のヘッダは認証リバースプロキシでセットされるべき(と書いてありました) Reverse Proxy Promtail Distributor Ingester Querier
  15. 22.

    Lokiとは? • Log Aggregation System ◦ Horizontally-Scalable ◦ Highly-Available ◦

    Multi-tenant • Grafana Labsが主体となって開発 ◦ Grafana連携 • OSS ◦ https://github.com/grafana/loki ◦ 最新はv1.2.0(2019/1/14時点) 再掲
  16. 38.

    promtail.yaml server: http_listen_port: 9080 grpc_listen_port: 0 positions: filename: /tmp/positions.yaml clients:

    - url: http://localhost:3100/loki /api/v1/push scrape_configs: - job_name: system static_configs: - targets: - localhost labels: job: varlogs __path__: /var/log/*log
  17. 39.

    promtail.yaml server: http_listen_port: 9080 grpc_listen_port: 0 positions: filename: /tmp/positions.yaml clients:

    - url: http://localhost:3100/loki /api/v1/push scrape_configs: - job_name: system static_configs: - targets: - localhost labels: job: varlogs __path__: /var/log/*log Promtail本体に関する設定
  18. 40.

    promtail.yaml server: http_listen_port: 9080 grpc_listen_port: 0 positions: filename: /tmp/positions.yaml clients:

    - url: http://localhost:3100/loki /api/v1/push scrape_configs: - job_name: system static_configs: - targets: - localhost labels: job: varlogs __path__: /var/log/*log Positionファイルに関する設定
  19. 41.

    promtail.yaml server: http_listen_port: 9080 grpc_listen_port: 0 positions: filename: /tmp/positions.yaml clients:

    - url: http://localhost:3100/loki /api/v1/push scrape_configs: - job_name: system static_configs: - targets: - localhost labels: job: varlogs __path__: /var/log/*log Lokiのインスタンスへの 接続に関する設定
  20. 42.

    promtail.yaml server: http_listen_port: 9080 grpc_listen_port: 0 positions: filename: /tmp/positions.yaml clients:

    - url: http://localhost:3100/loki /api/v1/push scrape_configs: - job_name: system static_configs: - targets: - localhost labels: job: varlogs __path__: /var/log/*log ターゲットの検出に関する設定
  21. 43.

    scrape_configs: scrape_configs: - job_name: system static_configs: - targets: - localhost

    labels: job: varlogs __path__: /var/log/*log もっともシンプルな構成
  22. 44.

    scrape_configs: scrape_configs: - job_name: system static_configs: - targets: - localhost

    labels: job: varlogs __path__: /var/log/*log もっともシンプルな構成 __path__に指定したパスを参照する localhost の /var/log/*log な ログをスクレイプ
  23. 46.

    scrape_configs: scrape_configs: - job_name: kubernetes-pods kubernetes_sd_configs: - role: pod relabel_configs:

    - source_labels: - __meta_kubernetes_pod_label_app target_label: app - source_labels: - __meta_kubernetes_pod_node_name target_label: hostname relabel_configs でラベルを加工
  24. 47.

    scrape_configs: scrape_configs: - job_name: kubernetes-pods kubernetes_sd_configs: - role: pod relabel_configs:

    - source_labels: - __meta_kubernetes_pod_uid - __meta_kubernetes_pod_container_name replacement:/var/log/pods/*$1/*.log separator: / target_label: __path__ PodのUIDやコンテナ名から ログファイルをスクレイプ
  25. 49.

    ログからアラートを生成 • pipeline_stages • 取得したログの値を加工・参照する ◦ LogLevel をラベルのValueに ◦ HTTPのステータスコードを

    ラベルのValueに pipeline_stages - match: selector: '{name="jaeger-agent"}' stages: - json: expressions: level: level components: components - labels: level: components:
  26. 50.

    - job_name: kubernetes-pods-name kubernetes_sd_configs: .... pipeline_stages: - match: selector: '{name="promtail"}'

    stages: - regex: expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' - labels: level: component: - timestamp: format: RFC3339Nano source: timestamp 例1
  27. 51.

    - job_name: kubernetes-pods-name kubernetes_sd_configs: .... pipeline_stages: - match: selector: '{name="promtail"}'

    stages: - regex: expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' - labels: level: component: - timestamp: format: RFC3339Nano source: timestamp 例1 selector で元となるログを指定 → LogQuery
  28. 52.

    - job_name: kubernetes-pods-name kubernetes_sd_configs: .... pipeline_stages: - match: selector: '{name="promtail"}'

    stages: - regex: expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' - labels: level: component: - timestamp: format: RFC3339Nano source: timestamp 例1 各Stageごとに加工を行う
  29. 53.

    - job_name: kubernetes-pods-name kubernetes_sd_configs: .... pipeline_stages: - match: selector: '{name="promtail"}'

    stages: - regex: expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' - labels: level: component: - timestamp: format: RFC3339Nano source: timestamp 例1 regex: ログストリームに対して正規表現で値を取得
  30. 54.

    # 正規表現 expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' # ログ level=info ts=2020-01-14T23:44:05.12674019Z caller=tailer.go:77 component=tailer

    msg="start tailing file" path=/var/log/pods/monitoring_prometheus-k8s-0_a993e0a4-e7a2-44bb-8716-c92d4 d24a1e5/prometheus-config-reloader/0.log 例1 regex: ログストリームに対して正規表現で値を取得
  31. 55.

    # 正規表現 expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' # ログ level=info ts=2020-01-14T23:44:05.12674019Z caller=tailer.go:77 component=tailer

    msg="start tailing file" path=/var/log/pods/monitoring_prometheus-k8s-0_a993e0a4-e7a2-44bb-8716-c92d4 d24a1e5/prometheus-config-reloader/0.log 例1 level を参照して…
  32. 56.

    # 正規表現 expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' # ログ level=info ts=2020-01-14T23:44:05.12674019Z caller=tailer.go:77 component=tailer

    msg="start tailing file" path=/var/log/pods/monitoring_prometheus-k8s-0_a993e0a4-e7a2-44bb-8716-c92d4 d24a1e5/prometheus-config-reloader/0.log 例1 かっこ内の正規表現に一致する値を 変数 <level> に格納
  33. 57.

    # 正規表現 expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' # ログ level=info ts=2020-01-14T23:44:05.12674019Z caller=tailer.go:77 component=tailer

    msg="start tailing file" path=/var/log/pods/monitoring_prometheus-k8s-0_a993e0a4-e7a2-44bb-8716-c92d4 d24a1e5/prometheus-config-reloader/0.log 例1 ts を参照して…
  34. 58.

    # 正規表現 expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' # ログ level=info ts=2020-01-14T23:44:05.12674019Z caller=tailer.go:77 component=tailer

    msg="start tailing file" path=/var/log/pods/monitoring_prometheus-k8s-0_a993e0a4-e7a2-44bb-8716-c92d4 d24a1e5/prometheus-config-reloader/0.log 例1 かっこ内の正規表現に一致する値を 変数 <timestamp> に格納
  35. 59.

    - job_name: kubernetes-pods-name kubernetes_sd_configs: .... pipeline_stages: - match: selector: '{name="promtail"}'

    stages: - regex: expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' - labels: level: component: - timestamp: format: RFC3339Nano source: timestamp 例1 label: 変数の値はラベルに置換可能
  36. 60.

    # 正規表現 expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' # ログ level=info ts=2020-01-14T23:44:05.12674019Z caller=tailer.go:77 component=tailer

    msg="start tailing file" path=/var/log/pods/monitoring_prometheus-k8s-0_a993e0a4-e7a2-44bb-8716-c92d4 d24a1e5/prometheus-config-reloader/0.log 例1 label: level=info timestamp=2020-01-14T2… が格納される
  37. 61.

    - job_name: kubernetes-pods-name kubernetes_sd_configs: .... pipeline_stages: - match: selector: '{name="promtail"}'

    stages: - regex: expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' - labels: level: component: - timestamp: format: RFC3339Nano source: timestamp 例1 timestamp: 指定の方法でタイムスタンプを指定
  38. 63.

    - match: selector: '{name="sample-app"}' stages: - json: expressions: remote: remote_ip

    status: status - labels: remote: status: 例2 正規表現以外にも、 - json - docker - cri などを指定可能
  39. 64.

    - match: selector: '{name="sample-app"}' stages: - json: expressions: remote: remote_ip

    status: status - labels: remote: status: {"time":"2020-01-15T09:33:38.375111489Z","id":"","remote_ip":"10.42.29.199","host" :"10.42.38.19:8080","method":"GET","uri":"/health","user_agent":"Go-http-client/1. 1","status":200,"error":"","latency":42187,"latency_human":"42.187 µs","bytes_in":0,"bytes_out":2} 例2 json であれば、 ログ上のKeyを直接指定可能
  40. 65.

    - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3
  41. 66.

    - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 ‘panic’ が含まれるログを抽出
  42. 67.

    - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 metrics: カスタムメトリクスを定義
  43. 68.

    - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 メトリクス名
  44. 69.

    - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 メトリクスのタイプ
  45. 70.

    - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 説明
  46. 71.

    - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 メトリクスを変化させる 変数を指定
  47. 72.

    - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 対象の変数にマッチしたら 行うアクションを指定 ← inc: インクリメント
  48. 73.

    - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 promtail/metricsで ‘promtail_custom_’ から始まる メトリクスが生成される
  49. 74.

    - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 promtail/metricsで ‘promtail_custom_’ から始まる メトリクスが生成される promtail_custom_panic_total