Kafka x Spark Streamingの実用例の紹介

Kafka x Spark Streamingの実用例の紹介株式会社 MicroAd 松宮康二 1

自己紹介 • 松宮康二 (まっつーと呼ばれていますが・・) • 社会人もうすぐ3年目 • インターネット広告の配信システムを作ってます ◦
いわゆるアドテクという業界 • 主にScalaを書いてます ◦ 1.5年くらい • 会社ではスクラムマスターという役割を担っています． • たまにQiitaに記事を書いてます ◦ https://qiita.com/mattsu6 • 最近はSparkを使ってます 2 @mattsu6666

今日のテーマ Kafka x Spark Streamingでアクセスログをリアルタイムに整形・加工・蓄積してみた！ 3

そもそもSpark Streamingって？ • 分散ストリーム処理基盤 ◦ 無限に生成され続けるデータをリアルタイムに処理し続けること (ストリーム処理) • メッセージキューやログ収集ツールがインプットになる •
他のストリーム処理基盤 ◦ Twitter Heron, Apache Storm, Akka Streams, Kafka Streams, Apache Beamなど http://mogile.web.fc2.com/spark/spark200/streaming-programming-guide.html 4

利用したケース • ビジネス要望「色んなサイトのアクセスログをリアルタイムに分析したい！」 • アクセスログは大量に発生するのでパフォーマンス要件はシビア ◦ 数万QPSが要求される • アクセスログを整形・加工する必要がある
◦ 様々なDBとやりとりする必要がある色々検討した結果Spark Streamingによるストリーム処理を採用 5

Apache KafkaとSpark Streamingの連携 • Spark Streamingの入力ソースにはKafkaを採用 • SparkのパッケージにKafka連携が含まれているため，連携しやすい ◦ https://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration.html
• めちゃ簡単に分散ストリーム処理を実現出来ます！ 6 様々なサーバから Kafkaに一旦集めるログ収集サーバログ収集サーバログ収集サーバアクセスログアクセスログの重複排除・整形・加工など

2種類の連携方式 - レシーバを利用する方法 • 古い連携方法(Spark 1.3以前かつKafka0.8 ~ 0.10) • Zookeeperを介してオフセットを管理する
• ブローカと直接通信する方法(DirectStream. Kafka 0.10以降が対応) 7 ドライバエグゼキュータエグゼキュータレシーバレシーバ 1. Kafkaからデータを取得 2. オフセットをZookeeperに保存 (Kafka’s high level API ) エントリポイントアプリの制御実際に処理するプロセス

2種類の連携方式 - レシーバを利用する方法 • 受け取ったデータをHDFSに書き込むことでAt least onceを実現 ◦ 障害発生時はHDFSに書き込まれたログを元に復旧 8
ドライバエグゼキュータエグゼキュータレシーバレシーバ 1. Kafkaからデータを取得 3. オフセットをZookeeperに保存 (Kafka’s high level API ) HDFS 2. 取得したデータをHDFSに保存受信するデータと Zookeeperのオフセットに不一致が生じることがある

2種類の連携方式 - ブローカと直接通信する方法 • 新しい連携方法(Spark 1.3以降かつKafka0.10以降) • エグゼキュータとKafkaブローカが直接通信する方法 ◦ DirectStreamと呼ばれる
• 現状はexperimentalとなっており，仕様変更が発生する可能性有り 9 9 ドライバエグゼキュータエグゼキュータ 1. Kafkaからデータを取得定期的にオフセットを通知 2. オフセット情報を通知 Zookeeperを利用しないためオフセットの不一致が発生しない！ Exactly onceを実現できる！オフセットはスパーク内で管理

DirectStreamのメリット • KafkaのDirectStreamを用いると分散ストリーム処理が実装しやすい • KafkaのパーティションとSparkのエグゼキュータが自動的に1対1で紐づく 10 パーティション1 パーティション2 パーティション3 エグゼキュータ
エグゼキュータエグゼキュータ Kafkaのパーティションの数だけ並列数が増加するため構成がシンプル！デメリットとしてはZookeeperにオフセットを記録しないので Zookeeperベースの監視ツールが機能しなくなる模様・・

DirectStreamのメリット • さらに，パーティション毎に独立して処理ができるため，シャッフルを発生を最小限に抑えられる 11 パーティション1 パーティション2 パーティション3 エグゼキュータエグゼキュータ
エグゼキュータサイトAのアクセスログサイトBのアクセスログサイトCのアクセスログ例えばサイト毎に時系列を担保してログを出力したいとか過去のアクセスログを参照して処理 (ウィンドウ集計処理)したい場合に有効

DirectStreamでない場合・・ • パーティションとエグゼキュータをマッピングしていないので自分で作り込む必要がある 12 パーティション1 パーティション2 パーティション3 エグゼキュータサイト毎に分割する処
理が必要 (groupBy) エグゼキュータエグゼキュータエグゼキュータ

実装例 13 val sparkConf = new SparkConf().setMaster("local").setAppName("test-spark") val ssc =
new StreamingContext(sparkConf, Seconds(10)) val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -> classOf[StringDeserializer], "value.deserializer" -> classOf[StringDeserializer], "enable.auto.commit" -> (false: java.lang.Boolean) ) val topics = Array("random") val kafkaStream = KafkaUtils.createDirectStream[String, String](ssc, PreferConsistent, Subscribe[String, String](topics, kafkaParams)) // アクション kafkaStream.foreachRDD { rdd => // パーティション毎にループする // 何か処理を書く } ssc.start() ssc.awaitTermination() Kafkaのパーティション数に応じて勝手に分散処理します

おわりに • KafkaとSpark Streamingを利用してアクセスログの整形・加工・蓄積をやってみました(本LTではKafkaとSpark Streamingの連携方法を説明) • Spark StreamingでKafkaのDirectStreamを活用すると分散ストリーム処理が書きやすくなります
• 明日はScala Matsuriに行ってきます！ • 会社にScala書く人が少なく寂しいのでScalaのお友達が欲しい... 14

Kafka x Spark Streamingの実用例の紹介

Kafka x Spark Streamingの実用例の紹介

mattsu

More Decks by mattsu

Other Decks in Programming

Featured

Transcript

Kafka x Spark Streamingの実用例の紹介株式会社 MicroAd 松宮康二 1

自己紹介 • 松宮康二 (まっつーと呼ばれていますが・・) • 社会人もうすぐ3年目 • インターネット広告の配信システムを作ってます ◦

今日のテーマ Kafka x Spark Streamingでアクセスログをリアルタイムに整形・加工・蓄積してみた！ 3

そもそもSpark Streamingって？ • 分散ストリーム処理基盤 ◦ 無限に生成され続けるデータをリアルタイムに処理し続けること (ストリーム処理) • メッセージキューやログ収集ツールがインプットになる •

Apache KafkaとSpark Streamingの連携 • Spark Streamingの入力ソースにはKafkaを採用 • SparkのパッケージにKafka連携が含まれているため，連携しやすい ◦ https://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration.html

2種類の連携方式 - レシーバを利用する方法 • 古い連携方法(Spark 1.3以前かつKafka0.8 ~ 0.10) • Zookeeperを介してオフセットを管理する

2種類の連携方式 - レシーバを利用する方法 • 受け取ったデータをHDFSに書き込むことでAt least onceを実現 ◦ 障害発生時はHDFSに書き込まれたログを元に復旧 8

2種類の連携方式 - ブローカと直接通信する方法 • 新しい連携方法(Spark 1.3以降かつKafka0.10以降) • エグゼキュータとKafkaブローカが直接通信する方法 ◦ DirectStreamと呼ばれる

DirectStreamのメリット • さらに，パーティション毎に独立して処理ができるため，シャッフルを発生を最小限に抑えられる 11 パーティション1 パーティション2 パーティション3 エグゼキュータエグゼキュータ

DirectStreamでない場合・・ • パーティションとエグゼキュータをマッピングしていないので自分で作り込む必要がある 12 パーティション1 パーティション2 パーティション3 エグゼキュータサイト毎に分割する処

実装例 13 val sparkConf = new SparkConf().setMaster("local").setAppName("test-spark") val ssc =