Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Exadata with Persistent Memory: An Epic Journey
Search
oracle4engineer
PRO
March 08, 2021
Technology
1
740
Exadata with Persistent Memory: An Epic Journey
Exadata X8M Persistent Memory について
oracle4engineer
PRO
March 08, 2021
Tweet
Share
More Decks by oracle4engineer
See All by oracle4engineer
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
3
1.3k
【Oracle Cloud ウェビナー】パスワードだけでは守れない時代~多要素認証で強化する企業セキュリティ~
oracle4engineer
PRO
2
69
[Oracle TechNight#94] Oracle AI World 2025 Oracle Database関連フィードバック
oracle4engineer
PRO
0
320
【Oracle Cloud ウェビナー】【入門編】生成AIとも対話できる、はじめてのOracle Analytics Cloud
oracle4engineer
PRO
1
54
OCHaCafe S10 #5 実践!Dify
oracle4engineer
PRO
3
420
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
0
490
Oracle Cloud Infrastructure:2025年10月度サービス・アップデート
oracle4engineer
PRO
0
150
【Oracle Cloud ウェビナー】【特別開催:日本語で解説!】Oracle AI World 2025 最新情報フィードバック
oracle4engineer
PRO
2
340
30分でわかる!!『OCI で学ぶクラウドネイティブ実践 X 理論ガイド』
oracle4engineer
PRO
1
140
Other Decks in Technology
See All in Technology
AIエージェントは「使う」だけじゃなくて「作る」時代! 〜最新フレームワークで楽しく開発入門しよう〜
minorun365
10
1.6k
ソフトウェアエンジニアとデータエンジニアの違い・キャリアチェンジ
mtpooh
1
740
re:Invent完全攻略ガイド
junjikoide
1
260
技術の総合格闘技!?AIインフラの現在と未来。
ebiken
PRO
0
250
Amazon ECS デプロイツール ecspresso の開発を支える「正しい抽象化」の探求 / YAPC::Fukuoka 2025
fujiwara3
9
1.5k
Rubyist入門: The Way to The Timeless Way of Programming
snoozer05
PRO
2
120
開発者が知っておきたい複雑さの正体/where-the-complexity-comes-from
hanhan1978
6
2.4k
【Android】テキスト選択色の問題修正で心がけたこと
tonionagauzzi
0
130
Black Hat USA 2025 Recap ~ クラウドセキュリティ編 ~
kyohmizu
0
510
コード1ミリもわからないけど Claude CodeでFigjamプラグインを作った話
abokadotyann
1
160
嗚呼、当時の本番環境の状態で AI Agentを再評価したいなぁ...
po3rin
0
400
Copilotの精度を上げる!カスタムプロンプト入門.pdf
ismk
10
3.3k
Featured
See All Featured
BBQ
matthewcrist
89
9.9k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
140
34k
Large-scale JavaScript Application Architecture
addyosmani
514
110k
Building Adaptive Systems
keathley
44
2.8k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.3k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
192
56k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8k
Documentation Writing (for coders)
carmenintech
76
5.1k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Producing Creativity
orderedlist
PRO
348
40k
4 Signs Your Business is Dying
shpigford
186
22k
Transcript
Exadata with Persistent Memory: An Epic Journey ⽇本オラクル
Exadataとは︖ Copyright © 2021, Oracle and/or its affiliates, 2
すべてのデータベース・ワークロードを劇的に改善したプラットフォーム • 理想のデータベース・ハードウェア –コンピュート、ネットワーク、ストレージがスケー ルアウト型でデータベースに最適化されており、最⾼の性能とコスト最⼩化を実現 • 賢いシステム・ソフトウェア – OLTP、アナリティクス、統合というあらゆる場⾯にお けるデータベース処理の⼤幅な改善に特化したアルゴリズム
• ⾃動化された管理 –構成、更新、パフォーマンス、管理の⾃動化と最適化により、 完全に⾃律的なインフラストラクチャとデータベースが完成 Exadata のビジョン Copyright © 2021, Oracle and/or its affiliates, 3
100 Gb/s RoCE ネットワークファブリック 25/10 GigE外部ネットワーク • 100Gb RDMA over
Converged Ethernet (RoCE) ネットワーク・ファブリック 168 TBディスク容量 25.6 TB PCI NVMe Flash 1.5 TB 永続性メモリ 32コア(SQLオフロード⽤) High Capacity 51.2 TB PCI NVMe Flash 1.5 TB 永続性メモリ 32コア(SQLオフロード⽤) Extreme Flash • スケールアウト型でインテリジェントな 2ソケット・ストレージ・サーバー • スケールアウト型 2ソケットDBサーバー 2ソケット Xeonプロセッサ 48コア(サーバーあたり) 384 GB - 1.5 TB DRAM Exadata X8M-2: 最先端のハードウェア Copyright © 2021, Oracle and/or its affiliates, 4
X8M-2 Eighth Rack Quarter Rack Elastic Multi-Rack X8M-8 Elastic Exadata
X8M: スケーラビリティ Copyright © 2021, Oracle and/or its affiliates, 5
この10年間の進化 Copyright © 2021, Oracle and/or its affiliates, 6
フラッシュの進化(2009 – 2019) Copyright © 2021, Oracle and/or its affiliates,
7 0 5.3 5.3 22.4 44.8 89.6 179.2 358 358 358 14 50 75 100 100 263 301 350 560 560 .05 1 1.5 1.5 2.66 4.14 5.6 5.97 6.57 16 V 1 Sep 2008 Xeon E5430 Harpertown V2 Sep 2009 Xeon E5540 Nehalem X2 Sep 2010 Xeon X5670 Westmere X3 Sep 2012 Xeon E5-2690 Sandy Bridge X4 Nov 2013 Xeon E5-2697v2 Ivy Bridge X5 Dec 2014 Xeon E5-2699v3 Haswell X6 Apr 2016 Xeon E5-2699v4 Broadwell X7 Oct 2017 Xeon 8160 Skylake X8 Apr 2019 Xeon 8260 Cascade Lake X8M Sep 2019 Xeon 8260 Cascade Lake Flash SCSI Flash NVMe
フラッシュの進化は停滞しているか︖ Copyright © 2021, Oracle and/or its affiliates, 8 0
5.3 5.3 22.4 44.8 89.6 179.2 358 358 358 14 50 75 100 100 263 301 350 560 560 .05 1 1.5 1.5 2.66 4.14 5.6 5.97 6.57 16 Flash SCSI Flash NVMe 1,600万IOPS 19マイクロ秒以下のレ イテンシー V 1 Sep 2008 Xeon E5430 Harpertown V2 Sep 2009 Xeon E5540 Nehalem X2 Sep 2010 Xeon X5670 Westmere X3 Sep 2012 Xeon E5-2690 Sandy Bridge X4 Nov 2013 Xeon E5-2697v2 Ivy Bridge X5 Dec 2014 Xeon E5-2699v3 Haswell X6 Apr 2016 Xeon E5-2699v4 Broadwell X7 Oct 2017 Xeon 8160 Skylake X8 Apr 2019 Xeon 8260 Cascade Lake X8M Sep 2019 Xeon 8260 Cascade Lake
Exadata X8M の秘密(秘伝のタレ) Copyright © 2021, Oracle and/or its affiliates,
9
このコンビを知ってますか Copyright © 2021, Oracle and/or its affiliates, 10
永続メモリは新しい半導体テクノロジー • 容量、性能、価格はDRAMとフラッシュの間 Intel® Optane™ DC Persistent Memory: • メモリ速度で読込み-フラッシュよりもはるかに⾼速
• DRAMとは異なり書込みは電源障害でも保存 永続書込みには洗練されたアルゴリズムで障害時のデータ整合性を保つ • CPUキャッシュからPMEMへのデータをフラッシュする特別命令をコール • クラッシュで中断された書込みの完全な順序や壊れた順序 永続性メモリ(PMEM) Copyright © 2021, Oracle and/or its affiliates, 11 FLASH PMEM DRAM Higher Cost Per GB Faster
Remote Memory Direct Access (RDMA)とは︖ Copyright © 2021, Oracle and/or
its affiliates, 12 Memory Region CPU CPU RDMA書込み RDMA読込み Database Server Storage Server Memory Region
• Exadata 100 Gb RoCEは RDMAの性能と信頼性を Ethernetファブリックで提供 • RDMA は⻑くに渡りInfiniBandと親和的
• ⼤容量データ転送で⾼スループットと低CPU使⽤率 • 独⾃のDirect-to-Wireプロトコルにより、ノード間OLTPクラス タメッセージを3倍⾼速に転送 • 新しい仕掛けはなにか? RoCEを利⽤した新しい内部ネットワークファブリック Copyright © 2021, Oracle and/or its affiliates, 13 世界初、世界唯⼀の RoCEベースのデータベースマシン
PMEM と RoCE の組み合わせで何が出来るようになるか︖ PMEM RoCE (RDMA) Copyright © 2021,
Oracle and/or its affiliates, 14
Persistent Memory Data Accelerator Copyright © 2021, Oracle and/or its
affiliates, 15
従来のストレージに永続性メモリを配置した場合: • データベースは読込みI/OコールをOSに発⾏ • OSはメッセージをストレージに送信 • ストレージCPUは永続性メモリへの読込みを発⾏ • ストレージCPUはサーバーOSに応答を送信 •
サーバーOSはデータベースをウェイクアップ 永続性メモリ読込みのスピードは、ネットワークとI / Oソフトウェア、割り込み、コンテキ スト・スイッチなどの⾼コストな処理でかき消される PMEMからの性能のメリットが消えてしまう 従来のストレージに永続性メモリを配置した場合 Copyright © 2021, Oracle and/or its affiliates, 16 Compute Server Storage Server Hot SAN Persistent Memory
従来のストレージはサーバー側キャッシュ読込みを実⾏ 従来の読み込み(Two-Sided Read) Copyright © 2021, Oracle and/or its affiliates,
… Flash Cache Line Flash Cache Line … Flash Cache ストレージ(cellsrv)がルックアップ [Disk, Offset] -> フラッシュ上の位置, フラッシュに読込みを発⾏ DBはREADリクエストを スト レージに送信 [Disk, Offset ] ストレージはデータを DBに送信 Database Server Storage Server 17
Compute Server Storage Server Warm Cold InfiniBand FLASH 従来の Exadata
のFlash I/O のレイテンシーを分解してみる Copyright © 2021, Oracle and/or its affiliates, Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software コンテキスト・スイッチ: 数⼗ μsec Flash Read Raw Latency: <100 µs コンテキスト・スイッチ: 数⼗ μsec Database 8K Read エンド・トゥ・エンド・レイテンシ: ~200 µsec 18
Flashを単にPersistent Memoryに置き換えた場合に得られる結果 Copyright © 2021, Oracle and/or its affiliates, Database
Server Storage Server Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software PMEM Read Raw Latency: ~1 µs PMEM Database 8K Read エンド・トゥ・エンド・レイテンシ: ~100 µsec 半導体からの読み込み待機時 間は 1/100 に改善されるにも かかわらず、コンテキスト・スイッチ に時間を要し、半導体による短 縮の 90%以上が無駄に コンテキスト・スイッチ: 数⼗ μsec コンテキスト・スイッチ: 数⼗ μsec 19
Persistent Memory から劇的な待機時間短縮を得る-RDMAでPMEMアクセス Copyright © 2021, Oracle and/or its affiliates,
コンテキスト・スイッチ: 数⼗ μsec →RDMAで不要に なる コンテキスト・スイッチ: 数⼗ μsec →RDMAで不要に なる Database Server Storage Server Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software PMEM RDMA 同⼀CPU/memory 環境 の Exadata より10倍⾼速 (※Exadata X8 と X8M の⽐較) Database 8K Read エンド・トゥ・エンド・レイテンシ: < 19 µsec 20
新しい破壊的テクノロジーで、RDMA経由でのPMEMキャッシュ読込みが可能に 超⾼速なRDMA での読み込み(One-Sided Read) Copyright © 2021, Oracle and/or its
affiliates, … PMEM Cache Line PMEM Cache Line … PMEM Cache RDMAでPMEMから データを取り出し Storage Server Database Server 21
世界初、世界で唯⼀のデータベース⽤に最適化された共有型永続性メモリ Exadataストレージ・サーバーは透過的にフラッシュ・メモリの前に永続性メモ リ・アクセラレータを追加 データベースは、I/OではなくRDMAを利⽤してリモートのPMEMを読込む • ネットワークおよびI/Oソフトウェア処理、割り込み処理、コンテキストスイッチをバイ パス PMEMは⾃動的に階層化されDB間で共有される • 最もホットなデータ⽤のキャッシュとして利⽤され、10倍の実効容量を増やす
永続化メモリは耐障害性のためにストレージサーバー間で⾃動的にミラー化 される データベースからの8K I/Oに対し1600万IOPS, 19us以下のレイテンシ Exadata X8M : 永続性メモリ・データ・アクセラレータ(*) Copyright © 2021, Oracle and/or its affiliates, 22 Compute Server Storage Server Hot Warm RDMA Cold RoCE Persistent Memory FLASH (*)Exadata System Software 19.3 かつ Database Software 19c 環境において
Persistent Memory Commit Accelerator Copyright © 2021, Oracle and/or its
affiliates, 23
DB server, Storage server 両⽅のプロセスが関与 • DBはストレージにリクエストを送信 • ストレージはFlash Logに書込み、Ackを送信
従来のLog Write(Two-sided Log Write) Copyright © 2021, Oracle and/or its affiliates, ストレージ・サーバーはFlashとHDDへの 書込みを同時に発⾏ (Flash Log経由) DBはログ書込みリクエストをス トレージに送信 ストレージ・サーバーは DBにAckを返す Storage Server Database Server Flash Log 24
従来⽅式でPersistent Memoryへ REDOログを書き込む場合 Copyright © 2021, Oracle and/or its affiliates,
Database Server Storage Server Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software PMEM Write Raw Latency: <10 µs PMEM Database 8K Read エンド・トゥ・エンド・レイテンシ: ~100 µsec 時間の 90%以上が無駄 コンテキスト・スイッチ: 数⼗ μsec コンテキスト・スイッチ: 数⼗ μsec 25
• 新しい破壊的テクノロジーで、RDMA経由での永続的なPMEMログ書込みが可能に • (書き込み冗⻑性はredundancyに従う) 超⾼速なRDMA Log 書き込み(One-Sided Log Write) Copyright
© 2021, Oracle and/or its affiliates, … … PMEM Log Buffer PMEM Log Buffer … PMEM Log Buffer RDMAでPMEMの Redo Logに書込み PMEM Log ストレージ・サーバーはバックグラ ウンドでFlashログへ書込みを 実⾏(⾮同期) Database Server Storage Server 26
• ストレージ・サーバーのクラッシュ時の動き 超⾼速なRDMA Log 書き込み(One-Sided Log Write) Copyright © 2021,
Oracle and/or its affiliates, … … PMEM Log Buffer PMEM Log Buffer … PMEM Log Buffer PMEM Log ストレージ・サーバーはPMEM ログ・リカバリを実⾏ Storage Server Database Server 27
Exadata X8M 永続性メモリ・コミット・アクセラレータ(*) Copyright © 2021, Oracle and/or its affiliates,
Compute Server Storage Server Hot Warm RDMA Cold RoCE Persistent Memory FLASH Flush Later to Flash/Disk • ログ書込みのレイテンシはOLTP性能にとってクリティカル • ログ書込みが⾼速になるとコミット時間が⾼速に • ログ書込みが遅くなるとDB全体が性能劣化 • ⾃動コミット・アクセラレータ • データベースは⼀⽅向RDMA書込みを発⾏し、複数ストレージ・ サーバー上のPMEMに書き込む • ネットワークや、I/Oに関するソフトウェア処理、割込み、コンテキス ト・スイッチ等をバイパス • 最⼤8倍にログ書込みが⾼速化 (*)Exadata System Software 19.3 Database Software 19c 28
壮⼤な旅 Copyright © 2021, Oracle and/or its affiliates, 29 168
336 504 504 672 1344 1344 1.68B 2.3 2.3 PB 14 X 0 5.3 5.3 22.4 44.8 89.6 179.2 358 358 358 TB 64 X 64 64 96 128 192 288 352 384 384 384 6 X 256 576 1152 2048 4096 6144 12288 12288 12288 12 TB 48 X 20 40 40 40 80 80 80 80 80 200 Gb/s 10x 8 24 184 400 400 400 400 800 800 800 Gb/s 100 X 14 50 75 100 100 263 301 350 560 560 GB/s 40 X .05 1 1.5 1.5 2.66 4.14 5.6 5.97 6.57 16 M 320 X V1 から X8M で の成長率 V1 Sep 2008 Xeon E5430 Harpertown V2 Sep 2009 Xeon E5540 Nehalem X2 Sep 2010 Xeon X5670 Westmere X3 Sep 2012 Xeon E5-2690 Sandy Bridge X4 Nov 2013 Xeon E5-2697v2 Ivy Bridge X5 Dec 2014 Xeon E5-2699v3 Haswell X6 Apr 2016 Xeon E5-2699v4 Broadwell X7 Oct 2017 Xeon 8160 Skylake X8 Apr 2019 Xeon 8260 Cascade Lake X8M Sep 2019 Xeon 8260 Cascade Lake
Thank you ! Copyright © 2021, Oracle and/or its affiliates,
30