ログ監視システムにおける時間ベース遅延の可視化 / Apache Kafka Meetup Japan

by CyberAgent

Embed

Start on current slide

Slide 1

Slide 1 text

ログ監視システムにおける時間ベース遅延の可視化大平哲也

Slide 2

Slide 2 text

1. 自己紹介 2. 秋葉原ラボの紹介 3. オフセットを用いた遅延計測の問題点 4. 時間ベース遅延の可視化 5. オフセットの地点のデータ取得の高速化 6. 遅延の可視化 7. まとめ発表の流れ

Slide 3

Slide 3 text

大平哲也 (おおだいらてつや) 内定者期間中に秋葉原ラボでログ遅延監視ツールの開発今年度入社。只今研修中最近興味のある分野：ストリーム処理、Dataflow、進化計算趣味：コーヒー、自転車、電子工作自己紹介だいら @tdaira_

Slide 4

Slide 4 text

「データを活用」してサービスと会社の発展に寄与する秋葉原ラボについて

Slide 5

Slide 5 text

サイバーエージェントで扱うサービス

Slide 6

Slide 6 text

不正なログをフィルタリングして後続へ流すシステム許容可能な遅延時間内にフィルタリングを行う必要があるログの品質管理システム Input topic NG topic OK topic Validator ログ転送システム DWH サーチエンジンサイバーエージェントにおけるデータの品質管理について https://www.slideshare.net/cyberagent/cwt2016

Slide 7

Slide 7 text

KafkaのOffsetの管理パーティション Offsetによりどこまで各 Consumerが値を読み取ったかが管理されている Offsetの遅延 [Lag] = [最新レコードのOffset] - [ConsumerのOffset] Consumer Aのラグ [Lag] = 12 - 9 = 3 Consumer Bのラグ [Lag] = 12 - 11 = 1

Slide 8

Slide 8 text

オフセットはKafkaのコマンドラインツールやkafka-manager等の監視ツールで確認することができるオフセットの確認作業 Consumerの Offset 最新レコードの Offset Offsetの遅延

Slide 9

Slide 9 text

古いログがどれくらい溜まっているかわからないログが溜まる原因を切り分けられないオフセットを用いた遅延計測の問題点 Input topic Validator ログ転送システムログの流量が増えた Validatorの処理能力が落ちた

Slide 10

Slide 10 text

ログの流量増えた場合 18:16 18:20 18:25 18:30 18:16 18:17 18:18 18:19 18:26 18:27 18:29 18:30 18:20 18:22 18:25 流量：大流量：小同じ処理速度でも流量が多い場合Lagが広がる CURRENT-OFFSET Lag：3 Lag：10 CURRENT-OFFSET LOG-END-OFFSET LOG-END-OFFSET

Slide 11

Slide 11 text

Consumerの処理速度が落ちた場合 17:20 17:33 18:10 18:30 17:40 17:55 同一流量同じ流量でも処理速度が落ちた場合Lagが広がる 17:20 17:33 18:10 18:30 17:40 17:55 処理速度：低処理速度：高 Lag：3 Lag：5 CURRENT-OFFSET CURRENT-OFFSET LOG-END-OFFSET LOG-END-OFFSET

Slide 12

Slide 12 text

● 経験則でオフセットの遅延から遅延時刻を推定 ● メッセージを手動で取得し、タイムスタンプを一つずつ確認遅延への対応時間ベースでログの遅延を監視したい

Slide 13

Slide 13 text

Kafkaの概要このメッセージと現在時刻の差が知りたい P：Partition C：Consumer Partition

Slide 14

Slide 14 text

時間ベースの遅延計算 ①オフセット情報の一覧を取得 ②各パーティションからのオフセット地点のメッセージを取得 ③現在時刻とtimestampの差を計算 0 1 2 3 81 82 ・・・ 83 84 0 1 2 3 53 54 ・・・ 55 56 0 1 2 3 77 78 ・・・ 79 80 offset offset offset Partition1 Partition2 Partition3 Partition1: 81 Partition2: 54 Partition3: 80 Partition1: {“timestamp”: “2019-01-01 11:23”, ”data”: ...} Partition2: {“timestamp”: “2019-01-01 11:18”, ”data”: ...} Partition3: {“timestamp”: “2019-01-01 12:10”, ”data”: ...} Partition1: now - [2019-01-01 11:23] = 520 sec Partition2: now - [2019-01-01 11:18] = 820 sec Partition3: now - [2019-01-01 11:30] = 100 sec

Slide 15

Slide 15 text

Consumerグループ一覧の問い合わせ ↓ Consumerグループが読んでいるパーティションの取り出し ↓ パーティションのOffsetを問い合わせ ↓ パーティションにメッセージを問い合わせ ↓ メッセージからタイムスタンプを取りだして遅延を計算 ↓ 一覧にして出力プログラム上の処理の流れ

Slide 16

Slide 16 text

実行結果はConsumerGroupのパーティションごとに出力実行結果 > sbt “runMain command.LagReaderCommand -b [boot-strap-server] -c consumer_group" ConsumerGroup TopicPartition Lag consumer_group 0 10sec consumer_group 1 45sec consumer_group 2 15sec 最終的にこれを全パーティション分取得して監視したい

Slide 17

Slide 17 text

一つ一つのパーティションを順番に読んでいくとデータの取り出しに時間がかかる（パーティション数が100程度のstg環境で17分）実行時間の問題点複数パーティションから同時購読を行い高速化

Slide 18

Slide 18 text

複数パーティションをまとめて購読しデータ取得流量の関係で一度に全てのパーティションのメッセージを取得することができない複数パーティション同時購読の課題 Partition1 Partition2 Partition3 Partition4 Consumer グループ : メッセージ流量の多いパーティションに偏る

Slide 19

Slide 19 text

複数Consumerグループが同一のパーティションを参照することがあるので一つのパーティションから異なるオフセットのメッセージを取り出す必要がある複数回シークを行う必要があり非効率複数パーティション同時購読の課題 0 1 2 3 81 82 ・・・ 83 84 offset1 Partition offset2 Consumer グループ1 offset1: 81 Consumer グループ2 offset1: 83

Slide 20

Slide 20 text

Consumerグループ一覧の問い合わせ ↓ Consumerが読んでいるパーティションの取り出し ↓ パーティションのOffsetを問い合わせ ↓ パーティションにメッセージを問い合わせ ↓ メッセージからタイムスタンプを取りだして遅延を計算 ↓ 一覧にして出力プログラム上の処理の流れ（修正前）

Slide 21

Slide 21 text

Consumerグループ一覧の問い合わせ ↓ Consumerが読んでいるパーティションの取り出し ↓ パーティションのOffsetを問い合わせ ↓ Offsetの重複排除 ↓ パーティションに並列に問い合わせ ↓ メッセージを取得できなかったパーティションがないか確認 ↓ メッセージからタイムスタンプを取りだして遅延を計算 ↓ 一覧にして出力プログラム上の処理の流れ（修正後）

Slide 22

Slide 22 text

Consumerグループ2 - Topic1 Partition1: 100 - Topic2 Partition1: 150 - Topic2 Partition2: 220 Consumerグループ1 - Topic2 Partition1: 80 - Topic2 Partition2: 300 Consumerグループ3 - Topic1 Partition1: 130 オフセット情報の一覧を取得この単位でまとめて問い合わせできない Partition1 Partition1 Partition2 Consumer グループ2 Consumer グループ1 Kafka Cluster Consumerグループ一覧の取得 Consumerグループに対応するパーティションの Offsetを取り出すパーティションの重複排除 Consumerグループ1 Consumerグループ2 Consumerグループ3 Consumerグループ2 - Topic2 Partition1: 150 - Topic2 Partition2: 220 Consumerグループ3 - Topic1 Partition1: 130 Consumerグループ1 - Topic2 Partition1: 80 - Topic2 Partition2: 300 Consumerグループ2 - Topic1 Partition1: 100 重複しない単位でまとめ直す Consumer グループ3 Topic2 Topic1

Slide 23

Slide 23 text

Slide 24

Slide 24 text

並列にメッセージを取得重複排除後のオフセット Consumerグループ1 - Partition2: 80 - Partition4: 300 Consumerグループ2 - Partition1: 100 Partition1 Partition2 Partition3 Partition4 メッセージを取得 Kafka Cluster 問い合わせ1回目 Partition1 Partition2 Partition3 Partition4 メッセージを取得 Kafka Cluster 問い合わせ2回目取得できなかったパーティションからメッセージを取得

Slide 25

Slide 25 text

Slide 26

Slide 26 text

7分半→1分半へ高速化比率にすると1/5程度の時間に短縮 1分半ほどの実行時間であれば常時回しておけば遅延監視には十分な速度高速化結果

Slide 27

Slide 27 text

取得したデータは常時監視したいのでPrometheusで可視化遅延の可視化遅延計算プログラム常時各パーティションの遅延を計測蓄積されたデータの取得 (Exporter) consumer1 partition0 100sec consumer1 partition1 200sec consumer2 partition0 180sec consumer3 partition0 50sec ・・・

Slide 28

Slide 28 text

Prometheusの画面オフセットベース時間ベース時刻ログのオフセットログの遅延時間最大の遅延は 23時35分の70万最大の遅延は 0時0分の25分時刻オフセットベースで遅延が広がったタイミングよりもあとで、時間ベースでの遅延が広がっている

Slide 29

Slide 29 text

● 時間ベースの遅延を可視化 ● 複数パーティションの同時購読より遅延取得を高速化 ● Prometheusで常時遅延の監視を実現まとめ