Red Hatがひっそりと開発しているOSSデータストア

Slide 1

Slide 1 text

Red Hatがひっそりと開発している OSSデータストア

Slide 2

Slide 2 text

Source: Insert source data here Insert source data here Insert source data here OPTIONAL SECTION MARKER OR TITLE 伊藤ちひろ (Chihiro Ito) OpenJDK Committer (JFR, SA) Java Platform Advocate @ Red Hat Twitter : @chiroito 自己紹介 Proﬁle 2

Slide 3

Slide 3 text

No content

Slide 4

Slide 4 text

目次 ● 概要 ● 性能 ● 可用性 ● 統合 ● その他 ● 適用例 ● リンク

Slide 5

Slide 5 text

概要

Slide 6

Slide 6 text

データグリッドとはアプリケーションとインフラストラクチャの両面でさまざまなメリット ● KVSのようにデータを格納 ● さまざまなデータ型を扱える ● データの寿命を設定 ● データの変更を検出 ● データのある場所で分散処理 ● 他のデータストアとの連携が容易 ● よく使うデータをアプリ側で自動的にキャッシュ ● キーを使用しない問い合わせによるアクセス ● さまざまな言語をサポート ● 全ノードに対して読み書き ● 要件に合わせてスケールアウト（インも） ● 要件に合わせたデプロイ戦略 ● データを自動で複製・分散 ● リージョンを跨いだ構成 ● 全ての経路の暗号化 ● クラウドやコンテナだけではなくオンプレでも稼働 ● さまざまなデファクトと統合 ● 充実した運用ツール群アプリケーション視点インフラストラクチャ視点

Slide 7

Slide 7 text

よく使われる用途データグリッドは世界中の多くの業界で稼働中松井証券株式会社 [Red Hat JBoss Data Gridで次世代トレーディング環境を実現] アプリケーション Data Grid データグリッドは ● IoT ● モバイルアプリケーション ● 広告やゲームなどのユーザ情報 ● セッション情報のような一時的なデータ ● ECサイトのカート ● 負荷の高いアプリケーション処理のキャッシュなどの用途で、通信事業者や金融機関をはじめさまざまな企業で使用されています。

Slide 8

Slide 8 text

Put : データの格納は、キー(Key)に値(Value)を関連付けて格納 Get : データの取得は、キー(Key)に関連付けられている値(Value)を取得キーも値も複数の要素から構成される型を構成可能。キーと値の組み合わせをMap同様にエントリと呼ぶデータの格納先となるRDBMSでの表のようなデータの集まりを、データグリットではキャッシュと呼ぶデータは Key-Value-Store と同じようにキーと値として格納データの格納方法 Javadoc : Interface Cache Hot Rod Java クライアントガイド : RemoteCache API Data Grid 開発者ガイド : キャッシュ API Key Value tanaka { name: “田中”, mail : “tanaka@...” } suzuki { name: “鈴木”, mail : “suzuki@...” } sato { name: “佐藤”, mail : “sato@...” } … … put key : tanaka value : {name : “田中”, mail : “tanaka@...” } get key : tanaka {name : “田中”, mail : “tanaka@...” } アプリケーションユーザ情報キャッシュ

Slide 9

Slide 9 text

Javaオブジェクトの中でコレクションを使用し、 1つのキーに対して複数のオブジェクトを格納可能扱えるデータ型単純な文字列から複雑なオブジェクトまでさまざまなデータ型をサポートキャッシュのエンコードとマーシャリング : Data Grid キャッシュのエンコードと Java オブジェクトのマーシャリング任意のテキスト・数値・バイナリをサポート格納するデータを定義したクラスにアノテーションを付与することでprotobuf形式として格納。HTTPセッションも格納可能 Javaオブジェクトコレクションスカラ型 XMLやJSONドキュメントなど複雑な構造を文字列として格納ドキュメント型 Value

Slide 10

Slide 10 text

性能面で大きなメリット性能

Slide 11

Slide 11 text

データグリッドのクラスタ全てのノードが読み書き可能 Data Grid キャッシュの設定 : Data Grid キャッシュ Data Grid キャッシュの設定 : クラスター化されたキャッシュ読み書き可能ノード１読み書き可能ノードN 読み書き可能ノード３読み書き可能ノード２クラスタ複数のノードでクラスタを構成し、全てのノードが読み書き可能書き込みが唯一できるプライマリノードや、読み取り専用のレプリカノードという考えはない

Slide 12

Slide 12 text

データグリッドのクラスタサービスを停止することなく性能や可用性の需要に合わせた伸縮性の高いリソース展開 ※複製数が１以上でも、１ノードではネットワークを介したデータの複製が行われないため、性能を検証する場合は複製数＋１プロセス以上を異なる物理サーバに載せることを推奨します。デプロイメントのプランニングおよびサイジングガイド 2*Nノード 2ノード 2倍の処理能力 2倍の格納量 4ノード N倍の処理能力 N倍の格納量複製数＝１では２ノードが性能の基準。割り当てたCPUが処理能力となり、割り当てたメモリによるデータが格納量となる※

Slide 13

Slide 13 text

データの配置データを自動で配置し、偏りの調整は不要 ※正確にはキーの値から各ノードが持つセグメントが算出されます Hot Rod Java クライアントガイド : クライアントのインテリジェンス Data Grid キャッシュの設定 : クラスター化されたキャッシュ Data Grid キャッシュの設定 : キャッシュモード A データグリッドのクライアントは、キーから格納先となるノードをハッシュ計算により算出※ 負荷を分散するためにシャーディングなどで、開発者がデータの配置を意識する必要はない B C D クラスタ

Slide 14

Slide 14 text

分散並列処理３つの方式により任意の処理をノード上で実行し、データの移動を伴わない高速な処理が可能※ ※組み込みモードとクライアント/サーバモードでできる事が異なるため注意が必要です。 Data Grid Server ガイド : 第13章 Data Grid Server でのスクリプトおよびタスクの実行１つ以上のキーの集合に対し、それらのキーを持つノード上で処理を実行キーを意識データに対する処理は集計・分析処理などReduce処理も実行可能 Map Reduce データを使わず、全てのノードまたは任意のノード上で処理を実行データを意識しない全てのデータに対して処理を実行。読み込んだデータをフィルタリングし、該当するデータのみを処理可能全てのデータ Key Key Data Data Data 方式１方式２方式３

Slide 15

Slide 15 text

アプリケーションを高速化アプリケーションの設定によるデータアクセスの処理量の向上とレスポンス時間を短縮 Hot Rod Java クライアントガイド : 3.6. ニアキャッシュ普通のアプリ高速化済みのアプリ Data Grid 読み込みの多い処理ではデータグリッドへのネットワークアクセスが減るため遅延が低下。それにより処理量を向上し、アプリケーションの処理効率の向上によりコストを最適化。仕組み：データグリッドが保持するデータのうちアプリケーションが最近使用したデータをアプリケーションが保持。同データへのアクセスはデータグリッドへ通信せずに使用可能。このデータ集合の有無はアプリケーションの設定のみで完結し、そのデータの追加・排除は自動的に行われ、アプリケーションコードの変更やサーバの変更は不要

Slide 16

Slide 16 text

可用性

Slide 17

Slide 17 text

データストアとの連携データがキャッシュになければデータストアから自動取得とデータ更新後はすぐに反映デプロイメントのプランニングおよびサイジングガイド : インラインキャッシュデプロイメントのプランニングおよびサイジングガイド : サイドキャッシュ全てのデータをキャッシュするのではなく、データストアの中でよく使われるデータだけをキャッシュすることで、性能とコストを最適化使うものだけをキャッシュデータストアの障害発生時に、キャッシュにあるよく使われるデータだけでシステムを継続障害時も稼働可能可用性の高いキャッシュ上のデータを更新すると、データストアまで同期/非同期で反映更新データを反映キャッシュにデータがあればキャッシュから取得、なければデータストアから取得という実装は不要データ有無で処理分け不要よく使うデータ全データ自動取得自動反映更新障害アクセス可能連携

Slide 18

Slide 18 text

キャッシュサイズの自動制御アクセスされないデータを自動的に排除することで性能とコストを最適化 Data Grid キャッシュの設定 : エビクションと有効期限 Data Grid キャッシュの設定 : パッシベーション排除データを永続化排除されるデータをRDBMSやストレージなど他のデータストアへ格納することで性能やコストを最適化前回のアクセスから一定期間経過した最近使われていないデータを自動的にキャッシュから排除し、キャッシュのサイズを一定に保ち、性能とコストを最適化データに寿命を設定することで、データのライフサイクルを任意に管理使われないデータを排除データを自動削除キャッシュ (3つまで) キャッシュ (10分後に削除) データの最大個数や使用メモリの最大量を設定することでキャッシュがヒープを使い切ることを抑制メモリ枯渇を抑制

Slide 19

Slide 19 text

動作環境とサポートクラウド（PaaS/IaaS）やコンテナに限らず、どこでも構築・稼働※ ※動作させる環境によってはCommercially Reasonable Supportになります。Red Hatによるサポートはこちらをごらん下さい：https://access.redhat.com/ja/articles/6140932 デプロイメントのプランニングおよびサイジングガイド : 1.1. Data Grid デプロイメントモデル各社クラウドベンダーが提供しているOpenShift Container PlatformとIaaS（仮想マシンを参照）をサポート。他のサービスは限定的なサポート※ クラウド仮想サーバで動作するRHEL およびWindowsとOpenJDK およびOracle JDKの組み合わせをサポート仮想マシン物理サーバで動作するRHEL およびWindowsとOpenJDK およびOracle JDKの組み合わせをサポートオンプレミス PodmanやOpenShift Container Platformをサポート。他のコンテナプラットフォーム上は限定的なサポート※ コンテナ

Slide 20

Slide 20 text

データグリッドのクラスタ性能と可用性の要件に合わせ、柔軟にノードを配置デプロイメントのプランニングおよびサイジングガイド : 1.1. Data Grid デプロイメントモデル Data Grid キャッシュの設定 : サーバーヒント異なるAZで異なるラック上に配置単一ラック上に配置ネットワーク速度は速い AZが単一障害点同一AZ内で異なるラック上に配置ネットワーク速度は十分な速度サーバの観点では単一障害点がないネットワーク速度は最速ラックが単一障害点 AZ2@東京 Rack Rack AZ1@東京 Rack Rack AZ Rack Rack Rack Rack AZ Rack クラスタクラスタクラスタ

Slide 21

Slide 21 text

クラスタデータの冗長化アプリケーションが意識することなくデータを自動的に複製 Data Grid キャッシュの設定 : クラスター化されたキャッシュ Data Grid キャッシュの設定 : キャッシュモード Data Grid キャッシュの設定 : サーバーヒント A クライアントがデータを書き込み A データグリッドが他のノードへ複製クライアントがデータを書き込むと、データグリッドはそのデータを他のノードへ複製。同期複製では、複製後にクライアントへ処理を返す。非同期複製は最初のノードにデータを書いた後に、すぐにクライアントへ処理を返し、それとは非同期に複製複製先の優先順位は異なるサイト、異なるラック、異なるマシンおよびノードの順複製の数や同期・非同期で複製するかを変更可能

Slide 22

Slide 22 text

DGは良く使用する一部のデータのみを保持し、残りのデータはDGがアクセスできるブロックストレージへ格納。 NFS/SMBは不可※ データの保持の仕方可用性や性能、コストの要求に合わせて柔軟にデータを保持 ※ファイルシステムに必要とする機能の一部が実装されていないため、使用できません。 Data Grid キャッシュの設定 : JVM メモリー使用量の設定 Data Grid キャッシュの設定 : 6.8. ファイルベースのキャッシュストア Data Grid キャッシュの設定 : 6.10. SQL キャッシュストアデプロイメントのプランニングおよびサイジングガイド : インラインキャッシュ Data Grid キャッシュの設定 : Configuring persistent storage データはJavaオブジェクト同様にJavaのヒープに格納 Javaヒープファイル連携 DGは良く使用する一部のデータのみを保持し、残りのデータはRDBMSへ格納 DB連携データはJavaのヒープ外のメモリに格納され、データ量の増加はGCに無影響。データ管理用のメタデータはヒープを使用。オフヒープノード内部の保持方法データ全体の保持方法

Slide 23

Slide 23 text

グローバルに展開されたキャッシュ地理的に分散したデータセンタや異なるクラウドプロバイダで動作するクラスタ間でデータを複製。全てのリージョンでデータを読み書き可能。これにより、可用性が大いに向上し、遠隔地のユーザは最寄りのリージョンへアクセスできるため、ユーザが感じる遅延が低下リージョンA リージョンB リージョンC 異なるリージョンだけではなく、別のクラウドプロバイダにも展開 Data Grid クロスサイトレプリケーション : Data Grid クラスター間のデータのバックアップ

Slide 24

Slide 24 text

統合

Slide 25

Slide 25 text

統合さまざまなデファクトスタンダードとの統合 JBoss EAP 開発ガイド : リモート Red Hat Data Grid での Web セッションデータの格納 Data Grid 開発者ガイド : Red Hat JBoss Web Server から Red Hat Data Grid への HTTP セッションの外部化 Data Grid Spring Boot スターター : SpringBoot プロジェクトでの Data Grid の使用 SpringでのData Gridの使用 : Spring アプリケーションにデータグリッドを追加する Data Grid Operator ガイド : OpenShift での Data Grid クラスターの作成 Monitoring Data Grid services Quarkus, JBoss EAP, Wildfly, JWS, Tomcat, Springと統合。一部では設定のみでJavaの HTTPセッションを格納可能 Java フレームワーククラスタの状態やメトリクスを PrometheusやGrafanaで監視し、可視化するための機能を提供 Prometheus & Grafana OperatorがCapability Level 4 で提供、基本的なインストールから、シームレスなアップグレードなど全てのライフサイクルを自動で制御され、分析に必要な機能も提供 Kubernetes インストールやキャッシュを作成を自動化。現在は技術プレビュー Ansible

Slide 26

Slide 26 text

管理UI さまざまな方法によってクラスタやキャッシュの構成を管理 Data Grid REST API : Data Grid RESTAPI を設定して操作する Using the Data Grid Command Line Interface : Data Grid CLI を使用してリモートキャッシュにアクセスして管理する Data Grid Server ガイド : 12.2. Data Grid コンソールを使用したキャッシュの作成 Web Console CLI お好みのOSのコマンドラインツールからコマンドラインインターフェースを通じてデータグリッドを管理お好みのブラウザからWebコンソールを通じてデータグリッドを管理 REST API お好みのREST APIクライアントやアプリケーションからREST APIを通じてデータグリッドを管理

Slide 27

Slide 27 text

クライアントライブラリさまざまな言語で性能を最大限に発揮するライブラリを提供 ※Infinispanがクライアントライブラリを提供していますが、Red Hat Data Gridのサブスクリプションのサポート範囲外です Java Javascript Ruby※ Python※ .NET C++

Slide 28

Slide 28 text

その他

Slide 29

Slide 29 text

データ変更の検出キャッシュ単位でデータの変更を検出して、任意の処理を実行可能※ Data Grid 開発者ガイド : リスナーおよび通知任意の処理を実行通知を受けたアプリケーションは、リアルタイムな集計や分析など任意の処理を実行データ変更の配信 Kafkaなどのキューへデータを連携することで様々な処理へデータ変更を配信様々な変更を検出作成、更新、削除、有効期限切れなどのイベントを検知検知変更通知アプリ通知キューアプリ

Slide 30

Slide 30 text

問い合わせと索引キーによるアクセスではなく、SQLに似た問い合わせ言語によってデータを取得 Data Grid キャッシュのクエリー : Data Grid キャッシュ内のデータをクエリーする統計情報使われた索引の確認や処理時間などの情報を提供。これによりユーザは性能をチューニング可能 JPQLのサブセットである言語を使用。ページ対応やパラメータ、全文検索も対応アノテーションやAPIを用いて設定、格納先はファイルかヒープを選択問い合わせ索引問い合わせの結果を監視、結果に変更があると通知して任意の処理を実行可能結果の変更通知

Slide 31

Slide 31 text

セキュリティ全ての経路の暗号化と、アクセス制御 Hot Rod Java クライアントガイド : Hot Rod クライアント暗号化の設定 Data Grid セキュリティーガイド : Data Grid セキュリティーの有効化および設定 Setting up cross-site replication : Securing cross-site connections Data Grid Server ガイド : クラスタートランスポートの暗号化 Data Grid Server ガイド : TLS/SSL 暗号化の設定ロールベースアクセス制御キャシュアクセスやリソースとのやりとりに必要な権限を持つユーザのみに制限 SSL/TLS暗号化を実施し、 Hot Rodクライアントに証明書を提示して、信頼と安全な接続を確立サーバ感暗号化同様 SSL/TLS証明書を交換して暗号化クライアント暗号化リージョン間暗号化 SSL/TLSによる通信の暗号化と証明書認証を用いたクラスタを構築サーバ間暗号化

Slide 32

Slide 32 text

料金１つの指標だけのシンプルな料金体系によるサブスクリプション１コア当たりの金額はRed Hatの担当営業へご連絡下さい。 Red Hat Data Gridのサブスクリプションは、より包括的なRed Hat Application Foundationsというサブスクリプションに含まれています。 ※構成によってはクラウドプロバイダがリージョン間の通信費などを請求するかもしれません。稼働しているサーバのCPUコア数もしくはコンテナに割り当てているCPU数の和で料金が決まります。高クロック数のCPUを推奨 CPUコア数データ転送量が増えても料金は変化しない※ データ転送量リクエスト数が増えても料金は変化しないリクエスト数メモリサイズの大小で料金は変わりません。１つのCPU当たりに大きなメモリを推奨メモリサイズ

Slide 33

Slide 33 text

適応例

Slide 34

Slide 34 text

高度な適応例データグリッドに対応済みアプリケーションと未対応アプリケーションの共存 CDC 対応してないアプリ対応したアプリ反映アプリ１つのDBは複数のアプリケーションから利用されることがあります。その場合、データグリッド化は複数のアプリケーションを同時に変更する必要があります。しかし、それは困難です。そのため、複数のアプリケーションがデータグリッドとDBをそれぞれ更新する期間が生まれます。連携機能によってキャッシュ上のデータの変更はDBに反映されます。しかし、DB上のデータを更新しても、そのデータが既にキャッシュされている場合にはキャッシュに反映されません。この問題は、DB上のデータ変更をキャッシュへ橋渡しをすることで解決します。反映するアプリではDBの変更を反映することに加え、同時に更新されていた場合の適用ルールを実装します。連携

Slide 35

Slide 35 text

高度な適応例複数のリージョンで高速かつ可用性の高い環境構築複数のリージョンにアプリケーションを展開するとエンドユーザは物理的に近いリージョンにアクセスできます。これにより、通信の遅延を大幅に削減し、良いユーザ体験を得られます。データグリッドは、各リージョンに展開しリージョン間でデータを複製できます。これにより、ユーザが移動した場合や、リージョンに障害が発生した場合にも別リージョンで対応可能になり、可用性が向上します。東京大阪データを同期アプリアプリ東日本からアクセス西日本からアクセス

Slide 36

Slide 36 text

リンク

Slide 37

Slide 37 text

参考資料 1 Interface Cache 3.1. キャッシュ API 3.3. リスナーおよび通知第14章 Red Hat JBoss Web Server から Red Hat Data Grid への HTTP セッションの外部化 Data Grid 開発者ガイド Data Grid キャッシュのエンコードと Java オブジェクトのマーシャリングキャッシュのエンコードとマーシャリング 1.2. クライアントのインテリジェンス 3.4. Hot Rod クライアントの暗号化の設定 3.6. ニアキャッシュ 4.1. RemoteCache API Hot Rod Java クライアントガイド Javadoc Data Grid セキュリティーの有効化および設定 Securing cross-site connections Setting up cross-site replication Data Grid セキュリティーガイド

Slide 38

Slide 38 text

参考資料 2 Data Grid のデプロイメントのプランニングおよびサイジング 1.1. Data Grid デプロイメントモデル 1.2. インラインキャッシュ 1.3. サイドキャッシュデプロイメントのプランニングおよびサイジングガイド第6章 TLS/SSL 暗号化の設定 11.8. クラスタートランスポートの暗号化 12.2. Data Grid コンソールを使用したキャッシュの作成第13章 Data Grid Server でのスクリプトおよびタスクの実行 Data Grid Server ガイド第1章 Data Grid キャッシュ 1.3. キャッシュモード第2章クラスター化されたキャッシュ 2.2.5. サーバーヒント第5章 JVM メモリー使用量の設定 5.2. エビクションと有効期限第6章 Configuring persistent storage 6.1. パッシベーション 6.8. ファイルベースのキャッシュストア 6.10. SQL キャッシュストア Data Grid キャッシュの設定

Slide 39

Slide 39 text

参考資料 3 6.7.1. リモート Red Hat Data Grid での Web セッションデータの格納 SpringBoot プロジェクトでの Data Grid の使用 Data Grid Spring Boot スターター OpenShift での Data Grid クラスターの作成 Data Grid Operator ガイド Data Grid クラスター間のデータのバックアップ Data Grid クロスサイトレプリケーション JBoss EAP 開発ガイド Spring アプリケーションにデータグリッドを追加する Spring での Data Grid の使用 Monitoring Data Grid services Monitoring Data Grid services Data Grid RESTAPI を設定して操作する Data Grid REST API Data Grid CLI を使用してリモートキャッシュにアクセスして管理する Using the Data Grid Command Line Interface Data Grid キャッシュ内のデータをクエリーする Data Grid キャッシュのクエリー Data Grid セキュリティーの有効化および設定 Data Grid セキュリティーガイド