ストリーム処理でAkka Schedulerを活用してみた話

08a574558ea4b7bea8e53a331f6288ab?s=47 mattsu
March 17, 2018

ストリーム処理でAkka Schedulerを活用してみた話

下記で発表した資料です (LT枠)
第5回Reactive System Meetup in 西新宿 https://reactive-shinjuku.connpass.com/event/79769/?utm_campaign=&utm_source=notifications&utm_medium=email&utm_content=title_link #reactive_shinjuku

08a574558ea4b7bea8e53a331f6288ab?s=128

mattsu

March 17, 2018
Tweet

Transcript

  1. ストリーム処理で Akka Schedulerを活用してみた話 株式会社 MicroAd 松宮 康二 1

  2. 自己紹介 • 社会人もうすぐ3年目 • インターネット広告の配信システムを作ってます ◦ いわゆるアドテクという業界 • 主にScalaを書いてます ◦

    1.5年くらい • 会社ではスクラムマスターという 役割を担っています. • たまにQiitaに記事を書いてます ◦ https://qiita.com/mattsu6 • 最近はSparkを使ってます 2
  3. 今日のテーマ ストリーム処理(Spark Streaming)で Akka Schedulerを活用してみた! 3

  4. そもそもストリーム処理って? • 無限に生成され続けるデータをリアルタイムに処理し続けること • メッセージキューやログ収集ツールがインプットになる • Spark Streamingとは並列分散処理 + ストリーム処理を組合せた処理基盤

    http://mogile.web.fc2.com/spark/spark200/streaming-programming-guide.html 4
  5. 背景 • とあるお仕事が舞い込んできた • 「色んなサイトのアクセスログをリアルタイムに分析したい!」 • アクセスログは大量に発生するのでパフォーマンス要件はシビア ◦ 数万QPSが要求される... (ºДº)マジカッ!!

    • アクセスログには色んな付加情報が必要 ◦ 様々なデータベースとやり取りする必要がある 色々検討した結果Spark Streamingによるストリーム処理を採用 しかしデータベースとのやり取りがボトルネックに... 5
  6. データベースとのやり取りがボトルネックに • 各プロセスが1レコード毎にDBと通信するのは流石に効率が悪い! ◦ 軽いクエリしか投げないか性能要件が厳しくなければこの構成でも良いけど・・ ドライバ エグゼキュータ エグゼキュータ エグゼキュータ データベース

    アクセス ログ アクセス ログ アクセス ログ アクセス ログ Sparkに取り 込んでいく 出力 重いクエリが 足を引っ張る 6 エントリポイント アプリの制御 実際に処理する プロセス
  7. 全部メモリに載せちゃえ • 予め必要なデータを全部メモリに載せる • Sparkでは起動時に値をブロードキャストする機能がある • しかしデータベースの値は時々刻々と変化するため更新したい! ドライバ エグゼキュータ エグゼキュータ

    エグゼキュータ データベース アクセス ログ アクセス ログ アクセス ログ アクセス ログ 出力 1. 起動時に ロード 2. 各エグゼキュータに ブロードキャスト 値の更新はどうやってやるか? 7
  8. Akka Schedulerを使ってみる(1/2) • 値の更新をストリーム処理とは分離したい (非同期に更新したい) • そこでドライバ内にアクターシステムを生成してみた ドライバ エグゼキュータ エグゼキュータ

    エグゼキュータ データベース ActorSystem 更新 アクター Scheduler 定期的に メッセージ 送信 8
  9. Akka Schedulerを使ってみる(2/2) • 値の更新時に整合性を保つために古いデータは残す必要があるが いらなくなったタイミングで消してあげる ドライバ エグゼキュータ エグゼキュータ エグゼキュータ データベース

    ActorSystem 更新 アクター Scheduler 削除 アクター エグゼキュータが参照しな くなった古いデータを削除 するアクターを追加 古いデータを 削除 9
  10. ボトルネックの解消に成功 • エグゼキュータはDBと一切通信しないため,高速に処理できるように! • 当初の性能要件は満たせた! ◦ 具体的な数字はお見せ出来ませんが ... ◦ 性能が足りないと下記のグラフがどこかで頭打ちになってるように見える

    10
  11. おわりに • ストリーム処理とAkka Schedulerを組み合わせて通信コストを改善した ◦ 詳しくはhttps://qiita.com/mattsu6/items/e6817ba2d2f79d1efe09 にまとめてます! • 今までJavaのTimerやExecutorsを利用してスケジューラを実装していたが,アク ターモデルを利用する方が機能を疎結合にしやすく実装しやすい感じがした

    • アクターモデル楽しい • Akka実践バイブルはまだ6章くらいまでしか読めてない・・もっと知りたい • 会社にScala使う人がほとんどいないので寂しい・・・ 11