ログ監視システムにおける時間ベース遅延の可視化 / Apache Kafka Meetup Japan

ログ監視システムにおける時間ベース遅延の可視化大平哲也

1. 自己紹介 2. 秋葉原ラボの紹介 3. オフセットを用いた遅延計測の問題点 4. 時間ベース遅延の可視化 5. オフセットの地点のデータ取得の高速化
6. 遅延の可視化 7. まとめ発表の流れ

大平哲也 (おおだいらてつや) 内定者期間中に秋葉原ラボでログ遅延監視ツールの開発今年度入社。只今研修中最近興味のある分野：ストリーム処理、Dataflow、進化計算趣味：コーヒー、自転車、電子工作自己紹介だいら
@tdaira_

「データを活用」してサービスと会社の発展に寄与する秋葉原ラボについて

サイバーエージェントで扱うサービス

不正なログをフィルタリングして後続へ流すシステム許容可能な遅延時間内にフィルタリングを行う必要があるログの品質管理システム Input topic NG topic OK topic Validator
ログ転送システム DWH サーチエンジンサイバーエージェントにおけるデータの品質管理について https://www.slideshare.net/cyberagent/cwt2016

KafkaのOffsetの管理パーティション Offsetによりどこまで各 Consumerが値を読み取ったかが管理されている Offsetの遅延 [Lag] = [最新レコードのOffset]
- [ConsumerのOffset] Consumer Aのラグ [Lag] = 12 - 9 = 3 Consumer Bのラグ [Lag] = 12 - 11 = 1

オフセットはKafkaのコマンドラインツールやkafka-manager等の監視ツールで確認することができるオフセットの確認作業 Consumerの Offset 最新レコードの Offset Offsetの遅延

古いログがどれくらい溜まっているかわからないログが溜まる原因を切り分けられないオフセットを用いた遅延計測の問題点 Input topic Validator ログ転送システムログの流量が増えた
Validatorの処理能力が落ちた

ログの流量増えた場合 18:16 18:20 18:25 18:30 18:16 18:17 18:18 18:19 18:26
18:27 18:29 18:30 18:20 18:22 18:25 流量：大流量：小同じ処理速度でも流量が多い場合Lagが広がる CURRENT-OFFSET Lag：3 Lag：10 CURRENT-OFFSET LOG-END-OFFSET LOG-END-OFFSET

Consumerの処理速度が落ちた場合 17:20 17:33 18:10 18:30 17:40 17:55 同一流量同じ流量でも処理速度が落ちた場合Lagが広がる 17:20
17:33 18:10 18:30 17:40 17:55 処理速度：低処理速度：高 Lag：3 Lag：5 CURRENT-OFFSET CURRENT-OFFSET LOG-END-OFFSET LOG-END-OFFSET

• 経験則でオフセットの遅延から遅延時刻を推定 • メッセージを手動で取得し、タイムスタンプを一つずつ確認遅延への対応時間ベースでログの遅延を監視したい

Kafkaの概要このメッセージと現在時刻の差が知りたい P：Partition C：Consumer Partition

時間ベースの遅延計算 ①オフセット情報の一覧を取得 ②各パーティションからのオフセット地点のメッセージを取得 ③現在時刻とtimestampの差を計算 0 1 2 3 81
82 ・・・ 83 84 0 1 2 3 53 54 ・・・ 55 56 0 1 2 3 77 78 ・・・ 79 80 offset offset offset Partition1 Partition2 Partition3 Partition1: 81 Partition2: 54 Partition3: 80 Partition1: {“timestamp”: “2019-01-01 11:23”, ”data”: ...} Partition2: {“timestamp”: “2019-01-01 11:18”, ”data”: ...} Partition3: {“timestamp”: “2019-01-01 12:10”, ”data”: ...} Partition1: now - [2019-01-01 11:23] = 520 sec Partition2: now - [2019-01-01 11:18] = 820 sec Partition3: now - [2019-01-01 11:30] = 100 sec

Consumerグループ一覧の問い合わせ ↓ Consumerグループが読んでいるパーティションの取り出し ↓ パーティションのOffsetを問い合わせ ↓ パーティションにメッセージを問い合わせ ↓ メッセージからタイムスタンプを取りだして遅延を計算 ↓
一覧にして出力プログラム上の処理の流れ

実行結果はConsumerGroupのパーティションごとに出力実行結果 > sbt “runMain command.LagReaderCommand -b [boot-strap-server] -c consumer_group"
ConsumerGroup TopicPartition Lag consumer_group 0 10sec consumer_group 1 45sec consumer_group 2 15sec 最終的にこれを全パーティション分取得して監視したい

一つ一つのパーティションを順番に読んでいくとデータの取り出しに時間がかかる（パーティション数が100程度のstg環境で17分）実行時間の問題点複数パーティションから同時購読を行い高速化

複数パーティションをまとめて購読しデータ取得流量の関係で一度に全てのパーティションのメッセージを取得することができない複数パーティション同時購読の課題 Partition1 Partition2 Partition3 Partition4 Consumer グループ :
メッセージ流量の多いパーティションに偏る

複数Consumerグループが同一のパーティションを参照することがあるので一つのパーティションから異なるオフセットのメッセージを取り出す必要がある複数回シークを行う必要があり非効率複数パーティション同時購読の課題 0 1 2 3 81 82
・・・ 83 84 offset1 Partition offset2 Consumer グループ1 offset1: 81 Consumer グループ2 offset1: 83

Consumerグループ一覧の問い合わせ ↓ Consumerが読んでいるパーティションの取り出し ↓ パーティションのOffsetを問い合わせ ↓ パーティションにメッセージを問い合わせ ↓ メッセージからタイムスタンプを取りだして遅延を計算 ↓
一覧にして出力プログラム上の処理の流れ（修正前）

Consumerグループ一覧の問い合わせ ↓ Consumerが読んでいるパーティションの取り出し ↓ パーティションのOffsetを問い合わせ ↓ Offsetの重複排除 ↓ パーティションに並列に問い合わせ ↓
メッセージを取得できなかったパーティションがないか確認 ↓ メッセージからタイムスタンプを取りだして遅延を計算 ↓ 一覧にして出力プログラム上の処理の流れ（修正後）

Consumerグループ2 - Topic1 Partition1: 100 - Topic2 Partition1: 150 -
Topic2 Partition2: 220 Consumerグループ1 - Topic2 Partition1: 80 - Topic2 Partition2: 300 Consumerグループ3 - Topic1 Partition1: 130 オフセット情報の一覧を取得この単位でまとめて問い合わせできない Partition1 Partition1 Partition2 Consumer グループ2 Consumer グループ1 Kafka Cluster Consumerグループ一覧の取得 Consumerグループに対応するパーティションの Offsetを取り出すパーティションの重複排除 Consumerグループ1 Consumerグループ2 Consumerグループ3 Consumerグループ2 - Topic2 Partition1: 150 - Topic2 Partition2: 220 Consumerグループ3 - Topic1 Partition1: 130 Consumerグループ1 - Topic2 Partition1: 80 - Topic2 Partition2: 300 Consumerグループ2 - Topic1 Partition1: 100 重複しない単位でまとめ直す Consumer グループ3 Topic2 Topic1

Consumerグループ一覧の問い合わせ ↓ Consumerが読んでいるパーティションの取り出し ↓ パーティションのOffsetを問い合わせ ↓ Offsetの重複排除 ↓ パーティションに並列に問い合わせ ↓
メッセージを取得できなかったパーティションがないか確認 ↓ メッセージからタイムスタンプを取りだして遅延を計算 ↓ 一覧にして出力プログラム上の処理の流れ（修正後）

並列にメッセージを取得重複排除後のオフセット Consumerグループ1 - Partition2: 80 - Partition4: 300 Consumerグループ2
- Partition1: 100 Partition1 Partition2 Partition3 Partition4 メッセージを取得 Kafka Cluster 問い合わせ1回目 Partition1 Partition2 Partition3 Partition4 メッセージを取得 Kafka Cluster 問い合わせ2回目取得できなかったパーティションからメッセージを取得

7分半→1分半へ高速化比率にすると1/5程度の時間に短縮 1分半ほどの実行時間であれば常時回しておけば遅延監視には十分な速度高速化結果

取得したデータは常時監視したいのでPrometheusで可視化遅延の可視化遅延計算プログラム常時各パーティションの遅延を計測蓄積されたデータの取得 (Exporter) consumer1 partition0
100sec consumer1 partition1 200sec consumer2 partition0 180sec consumer3 partition0 50sec ・・・

Prometheusの画面オフセットベース時間ベース時刻ログのオフセットログの遅延時間最大の遅延は 23時35分の70万最大の遅延は 0時0分の25分
時刻オフセットベースで遅延が広がったタイミングよりもあとで、時間ベースでの遅延が広がっている

• 時間ベースの遅延を可視化 • 複数パーティションの同時購読より遅延取得を高速化 • Prometheusで常時遅延の監視を実現まとめ

ログ監視システムにおける時間ベース遅延の可視化 / Apache Kafka Meetup J...

ログ監視システムにおける時間ベース遅延の可視化 / Apache Kafka Meetup Japan

CyberAgent
PRO

More Decks by CyberAgent

Other Decks in Technology

Featured

Transcript

ログ監視システムにおける時間ベース遅延の可視化大平哲也

1. 自己紹介 2. 秋葉原ラボの紹介 3. オフセットを用いた遅延計測の問題点 4. 時間ベース遅延の可視化 5. オフセットの地点のデータ取得の高速化

大平哲也 (おおだいらてつや) 内定者期間中に秋葉原ラボでログ遅延監視ツールの開発今年度入社。只今研修中最近興味のある分野：ストリーム処理、Dataflow、進化計算趣味：コーヒー、自転車、電子工作自己紹介だいら

「データを活用」してサービスと会社の発展に寄与する秋葉原ラボについて

サイバーエージェントで扱うサービス

不正なログをフィルタリングして後続へ流すシステム許容可能な遅延時間内にフィルタリングを行う必要があるログの品質管理システム Input topic NG topic OK topic Validator

KafkaのOffsetの管理パーティション Offsetによりどこまで各 Consumerが値を読み取ったかが管理されている Offsetの遅延 [Lag] = [最新レコードのOffset]

オフセットはKafkaのコマンドラインツールやkafka-manager等の監視ツールで確認することができるオフセットの確認作業 Consumerの Offset 最新レコードの Offset Offsetの遅延

古いログがどれくらい溜まっているかわからないログが溜まる原因を切り分けられないオフセットを用いた遅延計測の問題点 Input topic Validator ログ転送システムログの流量が増えた

ログの流量増えた場合 18:16 18:20 18:25 18:30 18:16 18:17 18:18 18:19 18:26

Consumerの処理速度が落ちた場合 17:20 17:33 18:10 18:30 17:40 17:55 同一流量同じ流量でも処理速度が落ちた場合Lagが広がる 17:20

• 経験則でオフセットの遅延から遅延時刻を推定 • メッセージを手動で取得し、タイムスタンプを一つずつ確認遅延への対応時間ベースでログの遅延を監視したい

Kafkaの概要このメッセージと現在時刻の差が知りたい P：Partition C：Consumer Partition

時間ベースの遅延計算 ①オフセット情報の一覧を取得 ②各パーティションからのオフセット地点のメッセージを取得 ③現在時刻とtimestampの差を計算 0 1 2 3 81

実行結果はConsumerGroupのパーティションごとに出力実行結果 > sbt “runMain command.LagReaderCommand -b [boot-strap-server] -c consumer_group"

一つ一つのパーティションを順番に読んでいくとデータの取り出しに時間がかかる（パーティション数が100程度のstg環境で17分）実行時間の問題点複数パーティションから同時購読を行い高速化

複数パーティションをまとめて購読しデータ取得流量の関係で一度に全てのパーティションのメッセージを取得することができない複数パーティション同時購読の課題 Partition1 Partition2 Partition3 Partition4 Consumer グループ :

Consumerグループ一覧の問い合わせ ↓ Consumerが読んでいるパーティションの取り出し ↓ パーティションのOffsetを問い合わせ ↓ Offsetの重複排除 ↓ パーティションに並列に問い合わせ ↓

Consumerグループ2 - Topic1 Partition1: 100 - Topic2 Partition1: 150 -

Consumerグループ一覧の問い合わせ ↓ Consumerが読んでいるパーティションの取り出し ↓ パーティションのOffsetを問い合わせ ↓ Offsetの重複排除 ↓ パーティションに並列に問い合わせ ↓

並列にメッセージを取得重複排除後のオフセット Consumerグループ1 - Partition2: 80 - Partition4: 300 Consumerグループ2

並列にメッセージを取得重複排除後のオフセット Consumerグループ1 - Partition2: 80 - Partition4: 300 Consumerグループ2

7分半→1分半へ高速化比率にすると1/5程度の時間に短縮 1分半ほどの実行時間であれば常時回しておけば遅延監視には十分な速度高速化結果

取得したデータは常時監視したいのでPrometheusで可視化遅延の可視化遅延計算プログラム常時各パーティションの遅延を計測蓄積されたデータの取得 (Exporter) consumer1 partition0

Prometheusの画面オフセットベース時間ベース時刻ログのオフセットログの遅延時間最大の遅延は 23時35分の70万最大の遅延は 0時0分の25分

• 時間ベースの遅延を可視化 • 複数パーティションの同時購読より遅延取得を高速化 • Prometheusで常時遅延の監視を実現まとめ