膨大なデータをどうさばく？ Java × MQで作るPub/Subアーキテクチャ

Slide 1

Slide 1 text

膨大なデータをどうさばく？ Java × MQで作るPub/Subアーキテクチャ信頼性の⾼い⼤量データ処理システムの構築

Slide 36

Slide 36 text

再処理と冪等性の実装パターンなぜ冪等性が必要？ Pulsarは At-Least-Once（最低1回）配信保証 → 同じメッセージが複数回届く可能性ありパターン1: メッセージIDで管理 @Entity public class ProcessedMessage { @Id private String messageId; // Pulsarのメッセージ ID private Instant processedAt; } // 一意制約違反で重複を検出 processedMessageRepo.save( new ProcessedMessage(messageId, now())); メリット • 確実に重複を防げる • 業務ロジックと分離できるデメリット • DB書き込みが増える • 別テーブルの管理が必要パターン2: 業務キーでチェック // 業務キー（注文ID）で既存データを確認 Optional existing = orderRepo.findById(order.getOrderId()); if (existing.isPresent() && "COMPLETED".equals(existing.get().getStatus())) { // 既に処理済み → スキップ consumer.acknowledge(msg); return; } メリット • 別テーブル不要 • ⾃然な実装 • 業務データの整合性確保デメリット • 業務キーが複雑だと難しい • 複合条件判定が必要な場合もメッセージID⽅式のポイント: • • 定期的に古いレコードをクリーンアップ • • ID保持期間は最⼤再送期間の2倍程度に設定業務キー⽅式のポイント: • • 業務状態を明確に定義（ex. 注⽂ステータス） • • 処理前後でステータスが変わるようにする冪等性実装のベストプラクティストランザクション境界処理とIDの記録を⼀つにロールバック処理失敗時の状態復元 DB整合性制約活⽤ユニーク制約での強制重要: 冪等性はシステム信頼性の要！確実な実装を⼼がけましょう ■個⼈的な⾒解 ①イベントの重複実⾏をさけるため、投⼊前、投⼊中、処理完了（OK or NG）の３状態が管理ができる望ましい

Slide 69

Slide 69 text

参考資料本セッションの内容は、以下のApache Pulsar公式ドキュメントおよびAPIリファレンスに基づいています。 Apache Pulsar 公式ドキュメント Apache Pulsar 4.1.x Documentation https://pulsar.apache.org/docs/4.1.x/ 主要な参照ドキュメントカテゴリドキュメント名 URL 基本概念 Concepts and Architecture https://pulsar.apache.org/docs/4.1.x/c oncepts-overview/ アーキテクチャ Architecture Overview https://pulsar.apache.org/docs/4.1.x/c oncepts-architecture-overview/ メッセージング Messaging Concepts （Key_Shared‧DLQ含む） https://pulsar.apache.org/docs/4.1.x/c oncepts-messaging/ パーティショニング Partitioned Topics https://pulsar.apache.org/docs/4.1.x/c ookbooks-partitioned/ 冪等性 Message Deduplication https://pulsar.apache.org/docs/4.1.x/c ookbooks-deduplication/ Retention‧BackLog Message Retention and Expiry https://pulsar.apache.org/docs/4.1.x/c ookbooks-retention-expiry/ Java Client Java Client Libraries https://pulsar.apache.org/docs/4.1.x/cl ient-libraries-java/ 監視 Monitoring https://pulsar.apache.org/docs/4.1.x/d eploy-monitoring/ メトリクス Metrics Reference https://pulsar.apache.org/docs/4.1.x/r eference-metrics/ Java Client API リファレンス（ Javadoc） ConsumerBuilder API Reference (4.1.x) https://pulsar.apache.org/api/client/4.1.x/org/apache/pulsar/client/api/ConsumerBuilder.html ソースコード（最新版） https://github.com/apache/pulsar/blob/master/pulsar-client-api/src/main/java/org/apache/pulsar/clien t/api/ConsumerBuilder.java 主なConsumer設定パラメータ • - プリフェッチキューサイズ • - ACKタイムアウト • - Nack時の再配信遅延 • - DLQポリシー • - サブスクリプションタイプ（Key_Shared含む）補足資料 Apache Pulsar公式サイト https://pulsar.apache.org/ Apache Pulsarリリースノート https://pulsar.apache.org/release-notes/ Apache Pulsar GitHubリポジトリ https://github.com/apache/pulsar

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text