次世代のログ基盤 Grafana Lokiを始めよう! / prometheus-meetup-tokyo-3-lets-start-the-loki

Ce4810046c3b25ff4dfce9cac2dbd4dd?s=47 uesyn
January 15, 2020

次世代のログ基盤 Grafana Lokiを始めよう! / prometheus-meetup-tokyo-3-lets-start-the-loki

Ce4810046c3b25ff4dfce9cac2dbd4dd?s=128

uesyn

January 15, 2020
Tweet

Transcript

  1. 次世代のログ基盤 Grafana Loki を始めよう! Loki : @uesyn Promtail: @kameneko1004

  2. Profile 上村 真也 • 所属: ゼットラボ株式会社 • Twitter: @uesyn •

    今回からこのMeetupの運営へ入りました
  3. ゼットラボ株式会社 / Z Lab Corporation • 2015年に設立されたヤフー株式会社の100%子会社 • ヤフーのインフラ課題に対して R&D

    でソリューション提供 • Kubernetes as a Service を開発・提供
  4. Lokiとは? • Log Aggregation System ◦ Horizontally-Scalable ◦ Highly-Available ◦

    Multi-tenant • Grafana Labsが主体となって開発 ◦ Grafana連携 • OSS ◦ https://github.com/grafana/loki ◦ 最新はv1.2.0(2020/1/14時点)
  5. デモ 動かなかったら この動画再生します https://www.youtube.com/watch?time_continue=5&v=7n342UsAMo0

  6. Lokiについて • Like Prometheus, but for logs ◦ ログ検索には以下のように行う ▪

    ログに付与されたラベルによるフィルタリング ▪ さらに結果をgrepのように絞り込み • ログをシンプルに扱う ◦ ログを保存時する時、形態素解析のようなテキスト処理はしない ◦ Prometheusのようにラベルを付与してログを保存
  7. Lokiを動かす https://github.com/grafana/loki/blob/master/production/README.md#running-loki

  8. Lokiの概要 Ω Promtail App Log Service Discovery Systemd Journal Node

    ラベル+ログ Log Log Cortexっぽい アーキテクチャ Prometheusっぽい コンフィグ Label + Logを送信
  9. Ω Lokiの概要 Promtail App Log Service Discovery Systemd Journal Node

    ラベル+ログ Log Log Cortexっぽい アーキテクチャ Prometheusっぽい コンフィグ 前半パート(@uesyn) 後半パート(@kameneko1004) Label + Logを送信
  10. Grafana loki

  11. lokiのアーキテクチャ • ほぼCortexのアーキテクチャ ◦ https://github.com/cortexproject/cortex • 主なコンポーネント ◦ Distributor ◦

    Ingester ◦ Chunk Store ◦ Querier ◦ Table Manager Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients Consul or etcd
  12. lokiのアーキテクチャ • ほぼCortexのアーキテクチャ ◦ https://github.com/cortexproject/cortex • 主なコンポーネント ◦ Distributor ◦

    Ingester ◦ Chunk Store ◦ Querier ◦ Table Manager Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients • 受信したログをIngesterへ送信 • 冗長化構成の時は複数のIngesterへ • どのIngesterへ送信するかはConsul(or etcd)を参照 Consul or etcd
  13. lokiのアーキテクチャ • ほぼCortexのアーキテクチャ ◦ https://github.com/cortexproject/cortex • 主なコンポーネント ◦ Distributor ◦

    Ingester ◦ Chunk Store ◦ Querier ◦ Table Manager Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients • ログを永続ストレージへ保存 • Ingester毎に受け付けるログが決まっている ◦ Consul(or etcd)に情報を保持 • セミステートフルなコンポーネント ◦ 直近のログを持つ Consul or etcd
  14. lokiのアーキテクチャ • ほぼCortexのアーキテクチャ ◦ https://github.com/cortexproject/cortex • 主なコンポーネント ◦ Distributor ◦

    Ingester ◦ Chunk Store ◦ Querier ◦ Table Manager Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients • IndexとChunkの2種類のストレージ ◦ 外部(または内部)のストレージを利用 Consul or etcd
  15. Chunk Storeの補足 • loki自体はDBではない • 2種類のChunk Store ◦ Index: ログ検索のための転置インデックス

    ◦ Chunk: 実際のログを保持 • 利用可能なDB Index ◦ Local ◦ DynamoDB ◦ Bigtable ◦ Cassandra Chunk ◦ Local ◦ Cloud Storage ◦ S3 Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients Consul or etcd
  16. lokiのアーキテクチャ • ほぼCortexのアーキテクチャ ◦ https://github.com/cortexproject/cortex • 主なコンポーネント ◦ Distributor ◦

    Ingester ◦ Chunk Store ◦ Querier ◦ Table Manager Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients • ログの検索に応じる • IngesterやChunk Storeからログを取得 Consul or etcd
  17. lokiのアーキテクチャ • ほぼCortexのアーキテクチャ ◦ https://github.com/cortexproject/cortex • 主なコンポーネント ◦ Distributor ◦

    Ingester ◦ Chunk Store ◦ Querier ◦ Table Manager Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients • 保存するログのretentionを管理 • 一部Chunk Storeには非対応 Consul or etcd
  18. lokiのアーキテクチャ • ほぼCortexのアーキテクチャ ◦ https://github.com/cortexproject/cortex • 主なコンポーネント ◦ Distributor ◦

    Ingester ◦ Chunk Store ◦ Querier ◦ Table Manager Distributor Ingester Querier Chunk Store (Index) Chunk Store (Chunks) Promtail Table Manager fluentd その他 Clients Consul or etcd
  19. lokiのコンポーネントについて • 様々なコンポーネントがあるが、全て同一の実行バイナリ ◦ シングルプロセスで全てのコンポーネントを動かすことも可能

  20. Lokiとは? • Log Aggregation System ◦ Horizontally-Scalable ◦ Highly-Available ◦

    Multi-tenant • Grafana Labsが主体となって開発 ◦ Grafana連携 • OSS ◦ https://github.com/grafana/loki ◦ 最新はv1.2.0(2019/1/14時点) 再掲
  21. マルチテナント • テナントを識別するHTTPヘッダを付与することで実現 ◦ X-Scope-OrgID: <tenant ID> • Loki自体にテナントの認証の仕組みは含まれていない ◦

    Nginx + Basic AuthやOAuth2 Proxyのようなリバースプロキシを用意する必要がある ◦ 上記のヘッダは認証リバースプロキシでセットされるべき(と書いてありました) Reverse Proxy Promtail Distributor Ingester Querier
  22. Lokiとは? • Log Aggregation System ◦ Horizontally-Scalable ◦ Highly-Available ◦

    Multi-tenant • Grafana Labsが主体となって開発 ◦ Grafana連携 • OSS ◦ https://github.com/grafana/loki ◦ 最新はv1.2.0(2019/1/14時点) 再掲
  23. Grafanaからログの検索 • ExploreでデータソースをLokiに指定すると利用可能

  24. Grafana連携~ダッシュボードでログを表示~ • Log Panelが Grafana v6.4+ で利用可能 ◦ document: https://grafana.com/docs/grafana/latest/features/panels/logs/

  25. Grafana連携~Automatic Annotations~ • ログを動的にPanelへAnnotationとして付与可能 https://grafana.com/blog/2019/12/09/how-to-do-automatic-annotations-with-grafana-and-loki/

  26. かめねこ SAKURA internet Inc. Evangelist, Infrastracture @kameneko1004

  27. Promtailとは?

  28. https://grafana.com/blog/2018/12/12/loki-prometheus-inspired-open-source-logging-for-cloud-natives/

  29. https://grafana.com/blog/2018/12/12/loki-prometheus-inspired-open-source-logging-for-cloud-natives/ これ

  30. Promtailとは? • 各Node上でPodなどのログを収集するエージェント • Kubernetes以外やコンテナ以外もOK

  31. Promtailとは? 特徴 Like Prometheus, but for logs.

  32. Promtailとは? Like Prometheus, but for logs. ScrapeConfigs Relabeling 特徴 ServiceDiscovery

  33. Promtailとは? Like Prometheus, but for logs. ScrapeConfigs Relabeling Prometheusのノウハウがそのまま使える 特徴

    ServiceDiscovery
  34. Promtailとは? 役割 1. ターゲットからログを収集してLokiに転送 2. ログからアラートを生成

  35. 1. ターゲットからログを収集してLokiに転送

  36. 1. ターゲットからログを収集してLokiに転送 promtail.yaml

  37. promtail.yaml • ServiceDiscovery で自動的にターゲットのログを追跡 ◦ ScrapeConfigs で定義 • Relabeling でログストリームにラベルを付与する

  38. promtail.yaml server: http_listen_port: 9080 grpc_listen_port: 0 positions: filename: /tmp/positions.yaml clients:

    - url: http://localhost:3100/loki /api/v1/push scrape_configs: - job_name: system static_configs: - targets: - localhost labels: job: varlogs __path__: /var/log/*log
  39. promtail.yaml server: http_listen_port: 9080 grpc_listen_port: 0 positions: filename: /tmp/positions.yaml clients:

    - url: http://localhost:3100/loki /api/v1/push scrape_configs: - job_name: system static_configs: - targets: - localhost labels: job: varlogs __path__: /var/log/*log Promtail本体に関する設定
  40. promtail.yaml server: http_listen_port: 9080 grpc_listen_port: 0 positions: filename: /tmp/positions.yaml clients:

    - url: http://localhost:3100/loki /api/v1/push scrape_configs: - job_name: system static_configs: - targets: - localhost labels: job: varlogs __path__: /var/log/*log Positionファイルに関する設定
  41. promtail.yaml server: http_listen_port: 9080 grpc_listen_port: 0 positions: filename: /tmp/positions.yaml clients:

    - url: http://localhost:3100/loki /api/v1/push scrape_configs: - job_name: system static_configs: - targets: - localhost labels: job: varlogs __path__: /var/log/*log Lokiのインスタンスへの 接続に関する設定
  42. promtail.yaml server: http_listen_port: 9080 grpc_listen_port: 0 positions: filename: /tmp/positions.yaml clients:

    - url: http://localhost:3100/loki /api/v1/push scrape_configs: - job_name: system static_configs: - targets: - localhost labels: job: varlogs __path__: /var/log/*log ターゲットの検出に関する設定
  43. scrape_configs: scrape_configs: - job_name: system static_configs: - targets: - localhost

    labels: job: varlogs __path__: /var/log/*log もっともシンプルな構成
  44. scrape_configs: scrape_configs: - job_name: system static_configs: - targets: - localhost

    labels: job: varlogs __path__: /var/log/*log もっともシンプルな構成 __path__に指定したパスを参照する localhost の /var/log/*log な ログをスクレイプ
  45. scrape_configs: scrape_configs: - job_name: kubernetes-pods kubernetes_sd_configs: - role: pod ServiceDiscovery

    も当然利用可能
  46. scrape_configs: scrape_configs: - job_name: kubernetes-pods kubernetes_sd_configs: - role: pod relabel_configs:

    - source_labels: - __meta_kubernetes_pod_label_app target_label: app - source_labels: - __meta_kubernetes_pod_node_name target_label: hostname relabel_configs でラベルを加工
  47. scrape_configs: scrape_configs: - job_name: kubernetes-pods kubernetes_sd_configs: - role: pod relabel_configs:

    - source_labels: - __meta_kubernetes_pod_uid - __meta_kubernetes_pod_container_name replacement:/var/log/pods/*$1/*.log separator: / target_label: __path__ PodのUIDやコンテナ名から ログファイルをスクレイプ
  48. ログからアラートを生成

  49. ログからアラートを生成 • pipeline_stages • 取得したログの値を加工・参照する ◦ LogLevel をラベルのValueに ◦ HTTPのステータスコードを

    ラベルのValueに pipeline_stages - match: selector: '{name="jaeger-agent"}' stages: - json: expressions: level: level components: components - labels: level: components:
  50. - job_name: kubernetes-pods-name kubernetes_sd_configs: .... pipeline_stages: - match: selector: '{name="promtail"}'

    stages: - regex: expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' - labels: level: component: - timestamp: format: RFC3339Nano source: timestamp 例1
  51. - job_name: kubernetes-pods-name kubernetes_sd_configs: .... pipeline_stages: - match: selector: '{name="promtail"}'

    stages: - regex: expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' - labels: level: component: - timestamp: format: RFC3339Nano source: timestamp 例1 selector で元となるログを指定 → LogQuery
  52. - job_name: kubernetes-pods-name kubernetes_sd_configs: .... pipeline_stages: - match: selector: '{name="promtail"}'

    stages: - regex: expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' - labels: level: component: - timestamp: format: RFC3339Nano source: timestamp 例1 各Stageごとに加工を行う
  53. - job_name: kubernetes-pods-name kubernetes_sd_configs: .... pipeline_stages: - match: selector: '{name="promtail"}'

    stages: - regex: expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' - labels: level: component: - timestamp: format: RFC3339Nano source: timestamp 例1 regex: ログストリームに対して正規表現で値を取得
  54. # 正規表現 expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' # ログ level=info ts=2020-01-14T23:44:05.12674019Z caller=tailer.go:77 component=tailer

    msg="start tailing file" path=/var/log/pods/monitoring_prometheus-k8s-0_a993e0a4-e7a2-44bb-8716-c92d4 d24a1e5/prometheus-config-reloader/0.log 例1 regex: ログストリームに対して正規表現で値を取得
  55. # 正規表現 expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' # ログ level=info ts=2020-01-14T23:44:05.12674019Z caller=tailer.go:77 component=tailer

    msg="start tailing file" path=/var/log/pods/monitoring_prometheus-k8s-0_a993e0a4-e7a2-44bb-8716-c92d4 d24a1e5/prometheus-config-reloader/0.log 例1 level を参照して…
  56. # 正規表現 expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' # ログ level=info ts=2020-01-14T23:44:05.12674019Z caller=tailer.go:77 component=tailer

    msg="start tailing file" path=/var/log/pods/monitoring_prometheus-k8s-0_a993e0a4-e7a2-44bb-8716-c92d4 d24a1e5/prometheus-config-reloader/0.log 例1 かっこ内の正規表現に一致する値を 変数 <level> に格納
  57. # 正規表現 expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' # ログ level=info ts=2020-01-14T23:44:05.12674019Z caller=tailer.go:77 component=tailer

    msg="start tailing file" path=/var/log/pods/monitoring_prometheus-k8s-0_a993e0a4-e7a2-44bb-8716-c92d4 d24a1e5/prometheus-config-reloader/0.log 例1 ts を参照して…
  58. # 正規表現 expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' # ログ level=info ts=2020-01-14T23:44:05.12674019Z caller=tailer.go:77 component=tailer

    msg="start tailing file" path=/var/log/pods/monitoring_prometheus-k8s-0_a993e0a4-e7a2-44bb-8716-c92d4 d24a1e5/prometheus-config-reloader/0.log 例1 かっこ内の正規表現に一致する値を 変数 <timestamp> に格納
  59. - job_name: kubernetes-pods-name kubernetes_sd_configs: .... pipeline_stages: - match: selector: '{name="promtail"}'

    stages: - regex: expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' - labels: level: component: - timestamp: format: RFC3339Nano source: timestamp 例1 label: 変数の値はラベルに置換可能
  60. # 正規表現 expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' # ログ level=info ts=2020-01-14T23:44:05.12674019Z caller=tailer.go:77 component=tailer

    msg="start tailing file" path=/var/log/pods/monitoring_prometheus-k8s-0_a993e0a4-e7a2-44bb-8716-c92d4 d24a1e5/prometheus-config-reloader/0.log 例1 label: level=info timestamp=2020-01-14T2… が格納される
  61. - job_name: kubernetes-pods-name kubernetes_sd_configs: .... pipeline_stages: - match: selector: '{name="promtail"}'

    stages: - regex: expression: '.*level=(?P<level>[a-zA-Z]+).*ts=(?P<timestamp>[T\d-:.Z]*)' - labels: level: component: - timestamp: format: RFC3339Nano source: timestamp 例1 timestamp: 指定の方法でタイムスタンプを指定
  62. - match: selector: '{name="sample-app"}' stages: - json: expressions: remote: remote_ip

    status: status - labels: remote: status: 例2
  63. - match: selector: '{name="sample-app"}' stages: - json: expressions: remote: remote_ip

    status: status - labels: remote: status: 例2 正規表現以外にも、 - json - docker - cri などを指定可能
  64. - match: selector: '{name="sample-app"}' stages: - json: expressions: remote: remote_ip

    status: status - labels: remote: status: {"time":"2020-01-15T09:33:38.375111489Z","id":"","remote_ip":"10.42.29.199","host" :"10.42.38.19:8080","method":"GET","uri":"/health","user_agent":"Go-http-client/1. 1","status":200,"error":"","latency":42187,"latency_human":"42.187 µs","bytes_in":0,"bytes_out":2} 例2 json であれば、 ログ上のKeyを直接指定可能
  65. - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3
  66. - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 ‘panic’ が含まれるログを抽出
  67. - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 metrics: カスタムメトリクスを定義
  68. - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 メトリクス名
  69. - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 メトリクスのタイプ
  70. - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 説明
  71. - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 メトリクスを変化させる 変数を指定
  72. - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 対象の変数にマッチしたら 行うアクションを指定 ← inc: インクリメント
  73. - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 promtail/metricsで ‘promtail_custom_’ から始まる メトリクスが生成される
  74. - match: selector: '{app="some-app"} != "info"' stages: - regex: expression:

    ".*(?P<panic>panic: .*)" - metrics: - panic_total: type: Counter description: "total count of panic" source: panic config: action: inc 例3 promtail/metricsで ‘promtail_custom_’ から始まる メトリクスが生成される promtail_custom_panic_total
  75. カスタムメトリクスを元にアラート • Prometheusから [promtail-host]:3101/metrics をスクレイプする • スクレイプしたメトリクスを元に、アラートを生成する

  76. DEMO 可能であれば…( ˘ω˘)

  77. ドキュメント https://github.com/grafana/loki/tree/master/docs/clients/promtail

  78. Thank you! Let’s Logging.