Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Strimzi Kafka Operator を試す Part 3 / Try Strimzi...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
suzukiry
January 31, 2022
Technology
640
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Strimzi Kafka Operator を試す Part 3 / Try Strimzi Part3
suzukiry
January 31, 2022
More Decks by suzukiry
See All by suzukiry
OpenShiftの内部レジストリって何?/What's OpenShift Image Registry
suzukiry
1
1.9k
Apache Kafka on Kubernetes 基礎編 ワークショップ QA 2022-01-12 / Apache Kafka Workshop QA 2022-01-12
suzukiry
0
120
GitOps と Apache Kafka Part 1 / GitOps and Apache Kafka Part 1
suzukiry
0
330
Strimzi Kafka Operator を試す Part 2 / Try Strimzi Part2
suzukiry
0
380
Apache Kafka on Kubernetes 基礎編 ワークショップ QA 2021-11-24 / Apache Kafka Workshop QA 2021-11-24
suzukiry
0
160
Apache KafkaとKubernetes / Kafka and K8s
suzukiry
1
1.6k
Other Decks in Technology
See All in Technology
SIer20年! 培ったスキルがスタートアップで輝く時
shucho0103
0
840
ポケモンの型をTypeScriptの型システムで表現してみた
subroh0508
0
370
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
790
Building applications in the Gemini API family.
line_developers_tw
PRO
0
3k
How Timee Delivers Day 1 Production Ready LLM Features
tomoyks
0
130
小さく始める AI 活用推進 ― 日経電子版 Web チームの事例/nikkei-tech-talk47
nikkei_engineer_recruiting
0
220
エンジニアリング戦略の作り方 / Crafting Engineering Strategy
iwashi86
20
6.6k
Claude Code×Terraform IaC テンプレート駆動開発
itouhi
1
490
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
790
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
250
AWSシリコン最前線 〜AI時代のチップ選択を読み解く〜
htokoyo
2
450
Amazon Bedrock AgentCore ワークショップ JAWS UG TOHOKU / amazon-bedrock-agentcore-workshop-jawsug-tohoku-2026
gawa
9
680
Featured
See All Featured
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
400
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.3k
Fireside Chat
paigeccino
42
3.9k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
KATA
mclloyd
PRO
35
15k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
Prompt Engineering for Job Search
mfonobong
0
340
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
390
How GitHub (no longer) Works
holman
316
150k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4.1k
Testing 201, or: Great Expectations
jmmastey
46
8.2k
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
480
Transcript
Strimzi Kafka Operator を試す Part 3 Kafka Connect - 補足資料
-
Kafka Connect
Kafka Connect とは • Apache Kafkaと外部システム、例えばデータベース、ストレージ、メッセージングシ ステムとを連携することができるKafkaのエコシステムに含まれるコンポーネントで す。 • 外部システム
→ Kafka へ連携:Source と呼ぶ • Kafka → 外部システムへ連携:Sink と呼ぶ ETL処理で言う Extract相当 ETL処理で言う Load相当
Kafka Connect を使う理由 • スケーラブル ◦ Kafka のクラスタ上で動作することとから、Kafka Brokerと同じくスケーラビリ ティと信頼性を維持しながら、大量のデータをKafkaのBrokerへ出し入れする
ためのフレームワークを提供。 • Zero-Code Streaming Pipeline ◦ “For Kafka Connect no coding is required. Just write configuration files”と 言われているように、Kafka Connectのフレームワークを利用し、提供プラグイ ンを利用することで、分散処理・管理の開発をKafka Connect自体に任せてし まうことができる。
Kafka Connect 分散処理の仕組み 1. Worker • ConnectorとTaskを実行するプロセス 2. Connector: •
タスクの作成を担当。 3. Task: • 実際にデータをコピーするアクター。状態は専用トピックで管理され、耐障害性も考慮。 REST API、設定管理、信 頼性、高可用性などを担 当 データ移動を担当 Kafka Connectのメリットは、これらの障害処理を担当してくれ るところ。コネクタを作成する場合は、作成にのみ 注力できるのが良い。 Worker Connector Task Worker-1 Connector-1 Task-1 (Conn1) Task-2 (Conn1) Worker-2 Connector-2 Task-3 (Conn1) Task-1 (Conn2) Worker-3 Taskの数は、tasks.maxによって指定。 全クラスタノード上でいくつの Taskかを決める。 Thread JVM Process https://www.slideshare.net/vitojeng/streaming-process-with-kafka-connect-and-kafka-streams-80721215
Note: 分散処理の仕組み - パラメータ:tasks.max • Connectorで作られるタスク数の最大数 ◦ Source Connector の場合はその対象(テーブル、ファイルなど)、
Sink Connector の場合はTopic のPartition数を気にしながら設定すべき。 ◦ Source の場合 ▪ テーブル毎の割り当て • テーブルx3・タスクx3であれば、各タスクで 1テーブルを担当する。 • テーブルx6・タスクx2であれば、各タスクで 3テーブルを担当する。 • テーブルx1・タスクx2であれば、1タスクのみ1テーブルを担当する。(つまり別の 1タス クは無駄になる) ◦ Sink の場合 ▪ 対象Topicのパーティション数次第。 • Sink タスク(=Consumer)は Partition の数より多く持つことができない。 • 高スループットにしたい場合は、パーティション数 =タスク数( パーティション数<タスク 数だとアイドルするだけ ) • パフォーマンスを下げて良い場合は、 パーティション数>タスク数 の設定もOK.
Kafka Connect の機能 Producer Kafka Connect (Source) Connector Kafka Cluster
SMTs Converter Kafka Connect (Sink) Converter Kafka Cluster SMTs Connector Consumer/ App 1. Connector 対象のデータストアへの接続を担う 2. SMT(Single Message Transformations) フィルタやメタデータの追加などが行う 3. Converter データのシリアライズ・デシリアライズを行う
Note: SMTs (Single Message Transformation) • 各メッセージに対して変換処理を行う機構 ◦ 複数メッセージの結合や Joinは行えない(ここはKafka
Streamsが担当) • 主な変換処理の例 ◦ フォーマット変換 ▪ Timestamps ▪ Value masking ▪ Numeric types ▪ Name adjustments ◦ フィルター・ルーティング ▪ Source Connector が書き込む Topic 名や、Sink Connector がターゲットに作成するオブ ジェ クト名を変更したい場合、 RegExRouterが使える。 ◦ スキーマの一貫性の確保 ◦ Tombstoneハンドリング https://www.morling.dev/blog/single-message-transforms-swiss-army-knife-of-kafka-connect/
Kafka Connect の起動 1. プラグインが、Sink Connector を提供 2. 1つのWorkerが Sink
Connector のインスタンスを 起動 3. Sink Connector は、データをストリームするための Task を作成 4. Task は並行して実行され、 Kafkaをポーリングして メッセージを取得 5. Transform で、必要に合わせてメッセージを調整 (SMTのところ) 6. Converter は、メッセージをKafka Brokerに適した形 式に変換 7. Source Connectorは、Kafka Connect API または KafkaConnectors を使用して管理します。 参考:https://strimzi.io/docs/operators/latest/overview.html
Kubernetes & Operatorでの実行方法の違い • Non-Kubernetes の場合 1. Workerの立ち上げ(スタンドアロンor分散モード) ▪ クラスタ構成を指定。
2. ConnectorをREST APIで起動 ▪ コピー対象のDB・テーブル、タスク数を指定。 ▪ ここでの設定によって、タスクがどのテーブルを担当するのかが決まる。 ※タスクの起動は、Connectorが勝 手に行う。 • Strimzi Operator を使う場合 1. KafkaConnect カスタムリソースの作成 ▪ Strimziが裏でクラスタを作ってくれます。 2. KafkaConnector カスタムリソースの作成 ▪ KafkaConnector カスタムリソースに利用したいプラグインやタスク数の設定を記載します。 ▪ Strimziが裏でREST APIでの設定部分を補ってくれます。 Connector 設定もKubernetesライクに設定すること ができます。
Kafka Connect の商用サポート • Kafka Connectのコネクター ◦ 自前で作成する or ◦
オープンソースを使う or ◦ 商用サポートされているものを使う • 各社のConnectorのサポート ◦ Red Hat (Debezium, Camel Kafka Connector) ◦ Cloudera (HDFS Sink Connector、Amazon S3 Sink Connector) ◦ Confluent (120+ものConnectorを取り揃えている [1]) ◦ Amazon MSK ? ◦ Heroku ? それぞれ商用サポートするコネクターは異なる。 なので、使用したいコネクターのサポートをそれぞれ確認することが大事。 [1] https://www.confluent.io/product/connectors/#commercial
Debezium • Apache Kafka の Kafka Connect(Source側) を利用 • 複数のデータベース向けのチェンジデータキャプチャ
◦ トランザクションログベース ◦ スナップショット、フィルタリング などの用途にも利用 参考:https://debezium.io/documentation/reference/stable/architecture.html
オープンソースの範囲 • MySQL • PostgreSQL • SQL Server • Mongo
DB • Db2 • Oracle • Cassandra • Vitess Debeziumのサポート Note: ←2021年12月時点でDev Preview からTech Previewへ。GAはまだです が、大きく期待 Red Hat Integration の範囲 • MySQL • PostgreSQL • SQL Server • Mongo DB • Db2 • Oracle • Cassandra • Vitess
環境
my-kafka-project 構成図 kafka-operator my-cluster3 tls-sidecar Zookeeper topic-operator user-operator tls-sidecar connect-
cluster Consumer Strimzi- kafka- operator message message 名前空間 kafkaconnect kafkaconnector kafka License (送信用ファ イル)
その他
AMQ Streams • Apache Kafka のエンタープライズ向けディストリビューション ◦ 2018年から Kafka をサポート、Kubernetes
上でも提供 (Strimzi) ◦ Red Hat AMQ Streams としてローンチ • 提供形態 ◦ Red Hat Enterprise Linux ◦ Red Hat OpenShift Container Platform Apache Kafka on Kubernetes 基礎編 ワークショップ: https://redhat-open.connpass.com/ Strimzi/AMQ Streamsをハンズオンをしてみたい
Thank you