Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Apache Kafkaでの大量データ処理がKubenetesで簡単にできて嬉しかった話
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
システム開発部広報委員会
PRO
November 21, 2023
Programming
13
0
Share
Apache Kafkaでの大量データ処理がKubenetesで簡単にできて嬉しかった話
システム開発部広報委員会
PRO
November 21, 2023
More Decks by システム開発部広報委員会
See All by システム開発部広報委員会
マイクロアドでの Hive → Iceberg 移行事例紹介
microaddevelopers
PRO
1
66
Rancher × Hashicorp Vault で 実現する秘密情報管理
microaddevelopers
PRO
1
15
大規模システムを支える実践的インフラ基盤の開発と運用
microaddevelopers
PRO
0
13
マイクロアドのData LakehouseとIcebergテーブルの最適化について
microaddevelopers
PRO
1
26
広告配信システムにおけるデータ基盤移行の事例紹介
microaddevelopers
PRO
0
8
3rd Party Cookie 規制後の広告配信技術
microaddevelopers
PRO
0
9
Kafka Connect:Iceberg Sink Connectorを使ってみる
microaddevelopers
PRO
1
24
【技術報告】広告配信における安定して拡張性のある大量データ処理基盤の必要性と活用
microaddevelopers
PRO
0
11
Chromeの3rd Party Cookie廃止とインターネット広告への影響
microaddevelopers
PRO
0
12
Other Decks in Programming
See All in Programming
Codex CLI でつくる、Issue から merge までの開発フロー
amata1219
0
330
Feature Toggle は捨てやすく使おう
gennei
0
500
PHPで TLSのプロトコルを実装してみるをもう一度しゃべりたい
higaki_program
0
180
我々はなぜ「層」を分けるのか〜「関心の分離」と「抽象化」で手に入れる変更に強いシンプルな設計〜 #phperkaigi / PHPerKaigi 2026
shogogg
2
870
Running Swift without an OS
kishikawakatsumi
0
700
煩雑なSkills管理をSoC(関心の分離)により解決する――関心を分離し、プロンプトを部品として育てるためのOSSを作った話 / Solving Complex Skills Management Through SoC (Separation of Concerns)
nrslib
3
780
ハンズオンで学ぶクラウドネイティブ
tatsukiminami
0
110
Swift Concurrency Type System
inamiy
0
410
「接続」—パフォーマンスチューニングの最後の一手 〜点と点を結ぶ、その一瞬のために〜
kentaroutakeda
5
2.5k
AI時代のPhpStorm最新事情 #phpcon_odawara
yusuke
0
140
Redox OS でのネームスペース管理と chroot の実現
isanethen
0
560
「話せることがない」を乗り越える 〜日常業務から登壇テーマをつくる思考法〜
shoheimitani
3
400
Featured
See All Featured
Build your cross-platform service in a week with App Engine
jlugia
234
18k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
53k
How to make the Groovebox
asonas
2
2.1k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
130
Into the Great Unknown - MozCon
thekraken
40
2.3k
From π to Pie charts
rasagy
0
160
Test your architecture with Archunit
thirion
1
2.2k
Site-Speed That Sticks
csswizardry
13
1.1k
How GitHub (no longer) Works
holman
316
150k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
200
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
Transcript
Apache Kafkaでの大量データ 処理がKubenetesで簡単にでき て嬉しかった話 Fluentd,Spark Streaming 株式会社マイクロアド 大澤 昂太
大澤 昂太 サーバサイドエンジニアをしています。 分散システム関連の開発が多いです。 K8sは何回か勉強したのですがあまり理 解できなかったです。 Dockerはよく使います 自己紹介など 株式会社マイクロアド インターネット広告の会社です。
設計に起因する苦しい時代を経験して いるので設計へのこだわりが強いで す。 関数型言語のScalaやサーバサイド KotlinなどJVMの活用が多いです。
広告業界とデータセンターについて • 広告業界では自社で取り扱ってないサイトのトラフィックを取り扱う • このトラフィックは一日TB単位になることがある • 休みなく24時間動き続ける数千台単位のサーバが欲しくなるのでオンプレの データセンターのほうがコスパが良い機能が多い(と思われる) クラウドもよく活用します 収集
サイト サイト サイト サイト サイト
Apache Kafkaの活用について • Kafkaとはリアルタイムキューでリアルタイムにログを流したりできるデー タベースに近いもの • 一般的なPub/Subとの違いとしてクラスタリングができ、大規模なデータで も転送できる • 弊社ではトラフィックを解析する機能が多いのでApache
Kafkaを多数活用し ている Apache Kafka Apache Kafka アプリ アプリ 後続 後続 後続 後続が大量に 増えてもス ケールでき る!
Spark Streamingの活用と問題について • 弊社ではApache Kafkaのデータ処理をする際には主にSparkストリーミング を活用している • 問題点として軽い機能でもそれなりの規模の開発が必要 • (弊社Hadoopの問題で)オーバーコミットが安定せずCPUコアの消費量が多
い • Hadoopクラスタが老朽化していてどうにかしたい Apache Kafka Spark Streaming Apache Kafka Spark Streaming
クラスタ Fluentdの活用と弱点 • Fluentdはストリーム処理を行うことができるミドルウェア • 設定ファイルを少し書くだけでデータ転送等を行うことができる • 弊社でもよく使われるが利用用途は限られていた • 複数サーバやマルチコアCPUを活用することが難しい
• 対Kafkaだと擬似的にクラスタリングできるが、デプロイ周りを上手く作っ てやる必要がある fluentd fluentd fluentd こんな感じでパワフルに動いてくれ るとありがたいが…
会社でのKubernetesの導入 • マイクロアドでは数年くらいK8sの準備をインフラチームの方で進めている • それ以外のサーバはDockerデーモンを直で使っていることが多い • ある時、リアルタイム処理の開発が必要になったが大した処理ではないので FluentdとK8sを組み合わせて使ってみることにした
K8sでFluentdの弱点が解消できた • Kafka consumer groupによって複数のFluentdのプロセスは一つのKafkaト ピックから重複することなく一つのデータを受け取ることができる これにより、そこまで難しいこと考えることなくk8sにデプロイして • k8sでFluentdクラスタを作ることができた •
マルチコアのCPUを有効活用をできた • 複数サーバに展開してHA構成にすることができた Kafka Kubernetesクラスタ Pod Pod Fluentd Fluentd Redis 管理が楽
K8sでSpark Streamingの移行先の目処が付きそう • Spark Streamingを動かしているHadoopの老朽化問題があったが • K8sでのSpark検証が進んでいて移行することができそうな状況 Kubenetesクラスタ Pod Pod
Driver Executor K8s Master Spark Kafka Pod Executor
まとめ • KubernetesでFluentdの弱点を大きく改善することができた • ノード管理やHA化なども難しいこと考えることなく実現できた • KubernetesでSpark Streamingを活用することができた • 弊社のリアルタイム処理周りはK8sでほとんどカバーすることができそう
• k8sの威力を思い知り勉強を再開しようと思った
ご清聴ありがとうございました