Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Exadata with Persistent Memory: An Epic Journey
Search
oracle4engineer
PRO
March 08, 2021
Technology
0
530
Exadata with Persistent Memory: An Epic Journey
Exadata X8M Persistent Memory について
oracle4engineer
PRO
March 08, 2021
Tweet
Share
More Decks by oracle4engineer
See All by oracle4engineer
Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間
oracle4engineer
PRO
29
13k
【Oracle Cloud ウェビナー】生成AI対応のデータベースが変える、業務アプリケーション構築のこれから
oracle4engineer
PRO
2
42
OCI Vault 概要
oracle4engineer
PRO
0
9.8k
Data Safeの機能詳細
oracle4engineer
PRO
0
4.8k
OCI Security サービス 概要
oracle4engineer
PRO
0
6.6k
OCI 運用監視サービス 概要
oracle4engineer
PRO
0
4.8k
OCI Network Firewall 概要
oracle4engineer
PRO
0
4.2k
Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集
oracle4engineer
PRO
2
3.2k
ExaDB-D dbaascli で出来ること
oracle4engineer
PRO
0
3.9k
Other Decks in Technology
See All in Technology
RubyのWebアプリケーションを50倍速くする方法 / How to Make a Ruby Web Application 50 Times Faster
hogelog
3
950
AGIについてChatGPTに聞いてみた
blueb
0
130
Adopting Jetpack Compose in Your Existing Project - GDG DevFest Bangkok 2024
akexorcist
0
120
OS 標準のデザインシステムを超えて - より柔軟な Flutter テーマ管理 | FlutterKaigi 2024
ronnnnn
1
340
10XにおけるData Contractの導入について: Data Contract事例共有会
10xinc
7
720
Amazon Forecast亡き今、我々がマネージドサービスに頼らず時系列予測を実行する方法
sadynitro
0
150
アプリエンジニアのためのGraphQL入門.pdf
spycwolf
0
120
個人でもIAM Identity Centerを使おう!(アクセス管理編)
ryder472
4
250
AWS Lambda のトラブルシュートをしていて思うこと
kazzpapa3
2
200
Why App Signing Matters for Your Android Apps - Android Bangkok Conference 2024
akexorcist
0
140
日経電子版のStoreKit2フルリニューアル
shimastripe
1
160
DynamoDB でスロットリングが発生したとき_大盛りver/when_throttling_occurs_in_dynamodb_long
emiki
1
490
Featured
See All Featured
Done Done
chrislema
181
16k
Why Our Code Smells
bkeepers
PRO
334
57k
The Art of Programming - Codeland 2020
erikaheidi
52
13k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
10 Git Anti Patterns You Should be Aware of
lemiorhan
655
59k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Happy Clients
brianwarren
98
6.7k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
506
140k
Git: the NoSQL Database
bkeepers
PRO
427
64k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
It's Worth the Effort
3n
183
27k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
47
2.1k
Transcript
Exadata with Persistent Memory: An Epic Journey ⽇本オラクル
Exadataとは︖ Copyright © 2021, Oracle and/or its affiliates, 2
すべてのデータベース・ワークロードを劇的に改善したプラットフォーム • 理想のデータベース・ハードウェア –コンピュート、ネットワーク、ストレージがスケー ルアウト型でデータベースに最適化されており、最⾼の性能とコスト最⼩化を実現 • 賢いシステム・ソフトウェア – OLTP、アナリティクス、統合というあらゆる場⾯にお けるデータベース処理の⼤幅な改善に特化したアルゴリズム
• ⾃動化された管理 –構成、更新、パフォーマンス、管理の⾃動化と最適化により、 完全に⾃律的なインフラストラクチャとデータベースが完成 Exadata のビジョン Copyright © 2021, Oracle and/or its affiliates, 3
100 Gb/s RoCE ネットワークファブリック 25/10 GigE外部ネットワーク • 100Gb RDMA over
Converged Ethernet (RoCE) ネットワーク・ファブリック 168 TBディスク容量 25.6 TB PCI NVMe Flash 1.5 TB 永続性メモリ 32コア(SQLオフロード⽤) High Capacity 51.2 TB PCI NVMe Flash 1.5 TB 永続性メモリ 32コア(SQLオフロード⽤) Extreme Flash • スケールアウト型でインテリジェントな 2ソケット・ストレージ・サーバー • スケールアウト型 2ソケットDBサーバー 2ソケット Xeonプロセッサ 48コア(サーバーあたり) 384 GB - 1.5 TB DRAM Exadata X8M-2: 最先端のハードウェア Copyright © 2021, Oracle and/or its affiliates, 4
X8M-2 Eighth Rack Quarter Rack Elastic Multi-Rack X8M-8 Elastic Exadata
X8M: スケーラビリティ Copyright © 2021, Oracle and/or its affiliates, 5
この10年間の進化 Copyright © 2021, Oracle and/or its affiliates, 6
フラッシュの進化(2009 – 2019) Copyright © 2021, Oracle and/or its affiliates,
7 0 5.3 5.3 22.4 44.8 89.6 179.2 358 358 358 14 50 75 100 100 263 301 350 560 560 .05 1 1.5 1.5 2.66 4.14 5.6 5.97 6.57 16 V 1 Sep 2008 Xeon E5430 Harpertown V2 Sep 2009 Xeon E5540 Nehalem X2 Sep 2010 Xeon X5670 Westmere X3 Sep 2012 Xeon E5-2690 Sandy Bridge X4 Nov 2013 Xeon E5-2697v2 Ivy Bridge X5 Dec 2014 Xeon E5-2699v3 Haswell X6 Apr 2016 Xeon E5-2699v4 Broadwell X7 Oct 2017 Xeon 8160 Skylake X8 Apr 2019 Xeon 8260 Cascade Lake X8M Sep 2019 Xeon 8260 Cascade Lake Flash SCSI Flash NVMe
フラッシュの進化は停滞しているか︖ Copyright © 2021, Oracle and/or its affiliates, 8 0
5.3 5.3 22.4 44.8 89.6 179.2 358 358 358 14 50 75 100 100 263 301 350 560 560 .05 1 1.5 1.5 2.66 4.14 5.6 5.97 6.57 16 Flash SCSI Flash NVMe 1,600万IOPS 19マイクロ秒以下のレ イテンシー V 1 Sep 2008 Xeon E5430 Harpertown V2 Sep 2009 Xeon E5540 Nehalem X2 Sep 2010 Xeon X5670 Westmere X3 Sep 2012 Xeon E5-2690 Sandy Bridge X4 Nov 2013 Xeon E5-2697v2 Ivy Bridge X5 Dec 2014 Xeon E5-2699v3 Haswell X6 Apr 2016 Xeon E5-2699v4 Broadwell X7 Oct 2017 Xeon 8160 Skylake X8 Apr 2019 Xeon 8260 Cascade Lake X8M Sep 2019 Xeon 8260 Cascade Lake
Exadata X8M の秘密(秘伝のタレ) Copyright © 2021, Oracle and/or its affiliates,
9
このコンビを知ってますか Copyright © 2021, Oracle and/or its affiliates, 10
永続メモリは新しい半導体テクノロジー • 容量、性能、価格はDRAMとフラッシュの間 Intel® Optane™ DC Persistent Memory: • メモリ速度で読込み-フラッシュよりもはるかに⾼速
• DRAMとは異なり書込みは電源障害でも保存 永続書込みには洗練されたアルゴリズムで障害時のデータ整合性を保つ • CPUキャッシュからPMEMへのデータをフラッシュする特別命令をコール • クラッシュで中断された書込みの完全な順序や壊れた順序 永続性メモリ(PMEM) Copyright © 2021, Oracle and/or its affiliates, 11 FLASH PMEM DRAM Higher Cost Per GB Faster
Remote Memory Direct Access (RDMA)とは︖ Copyright © 2021, Oracle and/or
its affiliates, 12 Memory Region CPU CPU RDMA書込み RDMA読込み Database Server Storage Server Memory Region
• Exadata 100 Gb RoCEは RDMAの性能と信頼性を Ethernetファブリックで提供 • RDMA は⻑くに渡りInfiniBandと親和的
• ⼤容量データ転送で⾼スループットと低CPU使⽤率 • 独⾃のDirect-to-Wireプロトコルにより、ノード間OLTPクラス タメッセージを3倍⾼速に転送 • 新しい仕掛けはなにか? RoCEを利⽤した新しい内部ネットワークファブリック Copyright © 2021, Oracle and/or its affiliates, 13 世界初、世界唯⼀の RoCEベースのデータベースマシン
PMEM と RoCE の組み合わせで何が出来るようになるか︖ PMEM RoCE (RDMA) Copyright © 2021,
Oracle and/or its affiliates, 14
Persistent Memory Data Accelerator Copyright © 2021, Oracle and/or its
affiliates, 15
従来のストレージに永続性メモリを配置した場合: • データベースは読込みI/OコールをOSに発⾏ • OSはメッセージをストレージに送信 • ストレージCPUは永続性メモリへの読込みを発⾏ • ストレージCPUはサーバーOSに応答を送信 •
サーバーOSはデータベースをウェイクアップ 永続性メモリ読込みのスピードは、ネットワークとI / Oソフトウェア、割り込み、コンテキ スト・スイッチなどの⾼コストな処理でかき消される PMEMからの性能のメリットが消えてしまう 従来のストレージに永続性メモリを配置した場合 Copyright © 2021, Oracle and/or its affiliates, 16 Compute Server Storage Server Hot SAN Persistent Memory
従来のストレージはサーバー側キャッシュ読込みを実⾏ 従来の読み込み(Two-Sided Read) Copyright © 2021, Oracle and/or its affiliates,
… Flash Cache Line Flash Cache Line … Flash Cache ストレージ(cellsrv)がルックアップ [Disk, Offset] -> フラッシュ上の位置, フラッシュに読込みを発⾏ DBはREADリクエストを スト レージに送信 [Disk, Offset ] ストレージはデータを DBに送信 Database Server Storage Server 17
Compute Server Storage Server Warm Cold InfiniBand FLASH 従来の Exadata
のFlash I/O のレイテンシーを分解してみる Copyright © 2021, Oracle and/or its affiliates, Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software コンテキスト・スイッチ: 数⼗ μsec Flash Read Raw Latency: <100 µs コンテキスト・スイッチ: 数⼗ μsec Database 8K Read エンド・トゥ・エンド・レイテンシ: ~200 µsec 18
Flashを単にPersistent Memoryに置き換えた場合に得られる結果 Copyright © 2021, Oracle and/or its affiliates, Database
Server Storage Server Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software PMEM Read Raw Latency: ~1 µs PMEM Database 8K Read エンド・トゥ・エンド・レイテンシ: ~100 µsec 半導体からの読み込み待機時 間は 1/100 に改善されるにも かかわらず、コンテキスト・スイッチ に時間を要し、半導体による短 縮の 90%以上が無駄に コンテキスト・スイッチ: 数⼗ μsec コンテキスト・スイッチ: 数⼗ μsec 19
Persistent Memory から劇的な待機時間短縮を得る-RDMAでPMEMアクセス Copyright © 2021, Oracle and/or its affiliates,
コンテキスト・スイッチ: 数⼗ μsec →RDMAで不要に なる コンテキスト・スイッチ: 数⼗ μsec →RDMAで不要に なる Database Server Storage Server Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software PMEM RDMA 同⼀CPU/memory 環境 の Exadata より10倍⾼速 (※Exadata X8 と X8M の⽐較) Database 8K Read エンド・トゥ・エンド・レイテンシ: < 19 µsec 20
新しい破壊的テクノロジーで、RDMA経由でのPMEMキャッシュ読込みが可能に 超⾼速なRDMA での読み込み(One-Sided Read) Copyright © 2021, Oracle and/or its
affiliates, … PMEM Cache Line PMEM Cache Line … PMEM Cache RDMAでPMEMから データを取り出し Storage Server Database Server 21
世界初、世界で唯⼀のデータベース⽤に最適化された共有型永続性メモリ Exadataストレージ・サーバーは透過的にフラッシュ・メモリの前に永続性メモ リ・アクセラレータを追加 データベースは、I/OではなくRDMAを利⽤してリモートのPMEMを読込む • ネットワークおよびI/Oソフトウェア処理、割り込み処理、コンテキストスイッチをバイ パス PMEMは⾃動的に階層化されDB間で共有される • 最もホットなデータ⽤のキャッシュとして利⽤され、10倍の実効容量を増やす
永続化メモリは耐障害性のためにストレージサーバー間で⾃動的にミラー化 される データベースからの8K I/Oに対し1600万IOPS, 19us以下のレイテンシ Exadata X8M : 永続性メモリ・データ・アクセラレータ(*) Copyright © 2021, Oracle and/or its affiliates, 22 Compute Server Storage Server Hot Warm RDMA Cold RoCE Persistent Memory FLASH (*)Exadata System Software 19.3 かつ Database Software 19c 環境において
Persistent Memory Commit Accelerator Copyright © 2021, Oracle and/or its
affiliates, 23
DB server, Storage server 両⽅のプロセスが関与 • DBはストレージにリクエストを送信 • ストレージはFlash Logに書込み、Ackを送信
従来のLog Write(Two-sided Log Write) Copyright © 2021, Oracle and/or its affiliates, ストレージ・サーバーはFlashとHDDへの 書込みを同時に発⾏ (Flash Log経由) DBはログ書込みリクエストをス トレージに送信 ストレージ・サーバーは DBにAckを返す Storage Server Database Server Flash Log 24
従来⽅式でPersistent Memoryへ REDOログを書き込む場合 Copyright © 2021, Oracle and/or its affiliates,
Database Server Storage Server Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software PMEM Write Raw Latency: <10 µs PMEM Database 8K Read エンド・トゥ・エンド・レイテンシ: ~100 µsec 時間の 90%以上が無駄 コンテキスト・スイッチ: 数⼗ μsec コンテキスト・スイッチ: 数⼗ μsec 25
• 新しい破壊的テクノロジーで、RDMA経由での永続的なPMEMログ書込みが可能に • (書き込み冗⻑性はredundancyに従う) 超⾼速なRDMA Log 書き込み(One-Sided Log Write) Copyright
© 2021, Oracle and/or its affiliates, … … PMEM Log Buffer PMEM Log Buffer … PMEM Log Buffer RDMAでPMEMの Redo Logに書込み PMEM Log ストレージ・サーバーはバックグラ ウンドでFlashログへ書込みを 実⾏(⾮同期) Database Server Storage Server 26
• ストレージ・サーバーのクラッシュ時の動き 超⾼速なRDMA Log 書き込み(One-Sided Log Write) Copyright © 2021,
Oracle and/or its affiliates, … … PMEM Log Buffer PMEM Log Buffer … PMEM Log Buffer PMEM Log ストレージ・サーバーはPMEM ログ・リカバリを実⾏ Storage Server Database Server 27
Exadata X8M 永続性メモリ・コミット・アクセラレータ(*) Copyright © 2021, Oracle and/or its affiliates,
Compute Server Storage Server Hot Warm RDMA Cold RoCE Persistent Memory FLASH Flush Later to Flash/Disk • ログ書込みのレイテンシはOLTP性能にとってクリティカル • ログ書込みが⾼速になるとコミット時間が⾼速に • ログ書込みが遅くなるとDB全体が性能劣化 • ⾃動コミット・アクセラレータ • データベースは⼀⽅向RDMA書込みを発⾏し、複数ストレージ・ サーバー上のPMEMに書き込む • ネットワークや、I/Oに関するソフトウェア処理、割込み、コンテキス ト・スイッチ等をバイパス • 最⼤8倍にログ書込みが⾼速化 (*)Exadata System Software 19.3 Database Software 19c 28
壮⼤な旅 Copyright © 2021, Oracle and/or its affiliates, 29 168
336 504 504 672 1344 1344 1.68B 2.3 2.3 PB 14 X 0 5.3 5.3 22.4 44.8 89.6 179.2 358 358 358 TB 64 X 64 64 96 128 192 288 352 384 384 384 6 X 256 576 1152 2048 4096 6144 12288 12288 12288 12 TB 48 X 20 40 40 40 80 80 80 80 80 200 Gb/s 10x 8 24 184 400 400 400 400 800 800 800 Gb/s 100 X 14 50 75 100 100 263 301 350 560 560 GB/s 40 X .05 1 1.5 1.5 2.66 4.14 5.6 5.97 6.57 16 M 320 X V1 から X8M で の成長率 V1 Sep 2008 Xeon E5430 Harpertown V2 Sep 2009 Xeon E5540 Nehalem X2 Sep 2010 Xeon X5670 Westmere X3 Sep 2012 Xeon E5-2690 Sandy Bridge X4 Nov 2013 Xeon E5-2697v2 Ivy Bridge X5 Dec 2014 Xeon E5-2699v3 Haswell X6 Apr 2016 Xeon E5-2699v4 Broadwell X7 Oct 2017 Xeon 8160 Skylake X8 Apr 2019 Xeon 8260 Cascade Lake X8M Sep 2019 Xeon 8260 Cascade Lake
Thank you ! Copyright © 2021, Oracle and/or its affiliates,
30