Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Exadata with Persistent Memory: An Epic Journey
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
oracle4engineer
PRO
March 08, 2021
Technology
1
770
Exadata with Persistent Memory: An Epic Journey
Exadata X8M Persistent Memory について
oracle4engineer
PRO
March 08, 2021
Tweet
Share
More Decks by oracle4engineer
See All by oracle4engineer
【Oracle Cloud ウェビナー】[Oracle AI Database + AWS] Oracle Database@AWSで広がるクラウドの新たな選択肢とAI時代のデータ戦略
oracle4engineer
PRO
2
150
Oracle Cloud Observability and Management Platform - OCI 運用監視サービス概要 -
oracle4engineer
PRO
2
14k
OCI Database Management サービス詳細
oracle4engineer
PRO
1
7.4k
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.6k
O&M ログ管理サービス詳細版 (Logging, Log Analytics)
oracle4engineer
PRO
0
84
Oracle AI Database移行・アップグレード勉強会 - RAT活用編
oracle4engineer
PRO
0
91
OCHaCafe S11 #1 CloudNativeなMCPサーバーのための基礎知識
oracle4engineer
PRO
2
150
Opsインサイト設定手順書(Autonomous AI Database編)
oracle4engineer
PRO
0
21
Opsインサイト設定手順書_コンピュート・インスタンス編
oracle4engineer
PRO
0
41
Other Decks in Technology
See All in Technology
Ruby版 JSXのRuxが気になる
sansantech
PRO
0
150
AI駆動開発を事業のコアに置く
tasukuonizawa
1
200
30万人の同時アクセスに耐えたい!新サービスの盤石なリリースを支える負荷試験 / SRE Kaigi 2026
genda
4
1.3k
GitLab Duo Agent Platform × AGENTS.md で実現するSpec-Driven Development / GitLab Duo Agent Platform × AGENTS.md
n11sh1
0
140
ファインディの横断SREがTakumi byGMOと取り組む、セキュリティと開発スピードの両立
rvirus0817
1
1.4k
プロポーザルに込める段取り八分
shoheimitani
1
270
AI駆動PjMの理想像 と現在地 -実践例を添えて-
masahiro_okamura
1
110
Amazon Bedrock Knowledge Basesチャンキング解説!
aoinoguchi
0
140
M&A 後の統合をどう進めるか ─ ナレッジワーク × Poetics が実践した組織とシステムの融合
kworkdev
PRO
1
450
コミュニティが変えるキャリアの地平線:コロナ禍新卒入社のエンジニアがAWSコミュニティで見つけた成長の羅針盤
kentosuzuki
0
100
登壇駆動学習のすすめ — CfPのネタの見つけ方と書くときに意識していること
bicstone
3
110
~Everything as Codeを諦めない~ 後からCDK
mu7889yoon
3
370
Featured
See All Featured
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
210
A better future with KSS
kneath
240
18k
Color Theory Basics | Prateek | Gurzu
gurzu
0
200
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Building the Perfect Custom Keyboard
takai
2
680
ラッコキーワード サービス紹介資料
rakko
1
2.3M
Ethics towards AI in product and experience design
skipperchong
2
190
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
240
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
First, design no harm
axbom
PRO
2
1.1k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
1
440
WENDY [Excerpt]
tessaabrams
9
36k
Transcript
Exadata with Persistent Memory: An Epic Journey ⽇本オラクル
Exadataとは︖ Copyright © 2021, Oracle and/or its affiliates, 2
すべてのデータベース・ワークロードを劇的に改善したプラットフォーム • 理想のデータベース・ハードウェア –コンピュート、ネットワーク、ストレージがスケー ルアウト型でデータベースに最適化されており、最⾼の性能とコスト最⼩化を実現 • 賢いシステム・ソフトウェア – OLTP、アナリティクス、統合というあらゆる場⾯にお けるデータベース処理の⼤幅な改善に特化したアルゴリズム
• ⾃動化された管理 –構成、更新、パフォーマンス、管理の⾃動化と最適化により、 完全に⾃律的なインフラストラクチャとデータベースが完成 Exadata のビジョン Copyright © 2021, Oracle and/or its affiliates, 3
100 Gb/s RoCE ネットワークファブリック 25/10 GigE外部ネットワーク • 100Gb RDMA over
Converged Ethernet (RoCE) ネットワーク・ファブリック 168 TBディスク容量 25.6 TB PCI NVMe Flash 1.5 TB 永続性メモリ 32コア(SQLオフロード⽤) High Capacity 51.2 TB PCI NVMe Flash 1.5 TB 永続性メモリ 32コア(SQLオフロード⽤) Extreme Flash • スケールアウト型でインテリジェントな 2ソケット・ストレージ・サーバー • スケールアウト型 2ソケットDBサーバー 2ソケット Xeonプロセッサ 48コア(サーバーあたり) 384 GB - 1.5 TB DRAM Exadata X8M-2: 最先端のハードウェア Copyright © 2021, Oracle and/or its affiliates, 4
X8M-2 Eighth Rack Quarter Rack Elastic Multi-Rack X8M-8 Elastic Exadata
X8M: スケーラビリティ Copyright © 2021, Oracle and/or its affiliates, 5
この10年間の進化 Copyright © 2021, Oracle and/or its affiliates, 6
フラッシュの進化(2009 – 2019) Copyright © 2021, Oracle and/or its affiliates,
7 0 5.3 5.3 22.4 44.8 89.6 179.2 358 358 358 14 50 75 100 100 263 301 350 560 560 .05 1 1.5 1.5 2.66 4.14 5.6 5.97 6.57 16 V 1 Sep 2008 Xeon E5430 Harpertown V2 Sep 2009 Xeon E5540 Nehalem X2 Sep 2010 Xeon X5670 Westmere X3 Sep 2012 Xeon E5-2690 Sandy Bridge X4 Nov 2013 Xeon E5-2697v2 Ivy Bridge X5 Dec 2014 Xeon E5-2699v3 Haswell X6 Apr 2016 Xeon E5-2699v4 Broadwell X7 Oct 2017 Xeon 8160 Skylake X8 Apr 2019 Xeon 8260 Cascade Lake X8M Sep 2019 Xeon 8260 Cascade Lake Flash SCSI Flash NVMe
フラッシュの進化は停滞しているか︖ Copyright © 2021, Oracle and/or its affiliates, 8 0
5.3 5.3 22.4 44.8 89.6 179.2 358 358 358 14 50 75 100 100 263 301 350 560 560 .05 1 1.5 1.5 2.66 4.14 5.6 5.97 6.57 16 Flash SCSI Flash NVMe 1,600万IOPS 19マイクロ秒以下のレ イテンシー V 1 Sep 2008 Xeon E5430 Harpertown V2 Sep 2009 Xeon E5540 Nehalem X2 Sep 2010 Xeon X5670 Westmere X3 Sep 2012 Xeon E5-2690 Sandy Bridge X4 Nov 2013 Xeon E5-2697v2 Ivy Bridge X5 Dec 2014 Xeon E5-2699v3 Haswell X6 Apr 2016 Xeon E5-2699v4 Broadwell X7 Oct 2017 Xeon 8160 Skylake X8 Apr 2019 Xeon 8260 Cascade Lake X8M Sep 2019 Xeon 8260 Cascade Lake
Exadata X8M の秘密(秘伝のタレ) Copyright © 2021, Oracle and/or its affiliates,
9
このコンビを知ってますか Copyright © 2021, Oracle and/or its affiliates, 10
永続メモリは新しい半導体テクノロジー • 容量、性能、価格はDRAMとフラッシュの間 Intel® Optane™ DC Persistent Memory: • メモリ速度で読込み-フラッシュよりもはるかに⾼速
• DRAMとは異なり書込みは電源障害でも保存 永続書込みには洗練されたアルゴリズムで障害時のデータ整合性を保つ • CPUキャッシュからPMEMへのデータをフラッシュする特別命令をコール • クラッシュで中断された書込みの完全な順序や壊れた順序 永続性メモリ(PMEM) Copyright © 2021, Oracle and/or its affiliates, 11 FLASH PMEM DRAM Higher Cost Per GB Faster
Remote Memory Direct Access (RDMA)とは︖ Copyright © 2021, Oracle and/or
its affiliates, 12 Memory Region CPU CPU RDMA書込み RDMA読込み Database Server Storage Server Memory Region
• Exadata 100 Gb RoCEは RDMAの性能と信頼性を Ethernetファブリックで提供 • RDMA は⻑くに渡りInfiniBandと親和的
• ⼤容量データ転送で⾼スループットと低CPU使⽤率 • 独⾃のDirect-to-Wireプロトコルにより、ノード間OLTPクラス タメッセージを3倍⾼速に転送 • 新しい仕掛けはなにか? RoCEを利⽤した新しい内部ネットワークファブリック Copyright © 2021, Oracle and/or its affiliates, 13 世界初、世界唯⼀の RoCEベースのデータベースマシン
PMEM と RoCE の組み合わせで何が出来るようになるか︖ PMEM RoCE (RDMA) Copyright © 2021,
Oracle and/or its affiliates, 14
Persistent Memory Data Accelerator Copyright © 2021, Oracle and/or its
affiliates, 15
従来のストレージに永続性メモリを配置した場合: • データベースは読込みI/OコールをOSに発⾏ • OSはメッセージをストレージに送信 • ストレージCPUは永続性メモリへの読込みを発⾏ • ストレージCPUはサーバーOSに応答を送信 •
サーバーOSはデータベースをウェイクアップ 永続性メモリ読込みのスピードは、ネットワークとI / Oソフトウェア、割り込み、コンテキ スト・スイッチなどの⾼コストな処理でかき消される PMEMからの性能のメリットが消えてしまう 従来のストレージに永続性メモリを配置した場合 Copyright © 2021, Oracle and/or its affiliates, 16 Compute Server Storage Server Hot SAN Persistent Memory
従来のストレージはサーバー側キャッシュ読込みを実⾏ 従来の読み込み(Two-Sided Read) Copyright © 2021, Oracle and/or its affiliates,
… Flash Cache Line Flash Cache Line … Flash Cache ストレージ(cellsrv)がルックアップ [Disk, Offset] -> フラッシュ上の位置, フラッシュに読込みを発⾏ DBはREADリクエストを スト レージに送信 [Disk, Offset ] ストレージはデータを DBに送信 Database Server Storage Server 17
Compute Server Storage Server Warm Cold InfiniBand FLASH 従来の Exadata
のFlash I/O のレイテンシーを分解してみる Copyright © 2021, Oracle and/or its affiliates, Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software コンテキスト・スイッチ: 数⼗ μsec Flash Read Raw Latency: <100 µs コンテキスト・スイッチ: 数⼗ μsec Database 8K Read エンド・トゥ・エンド・レイテンシ: ~200 µsec 18
Flashを単にPersistent Memoryに置き換えた場合に得られる結果 Copyright © 2021, Oracle and/or its affiliates, Database
Server Storage Server Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software PMEM Read Raw Latency: ~1 µs PMEM Database 8K Read エンド・トゥ・エンド・レイテンシ: ~100 µsec 半導体からの読み込み待機時 間は 1/100 に改善されるにも かかわらず、コンテキスト・スイッチ に時間を要し、半導体による短 縮の 90%以上が無駄に コンテキスト・スイッチ: 数⼗ μsec コンテキスト・スイッチ: 数⼗ μsec 19
Persistent Memory から劇的な待機時間短縮を得る-RDMAでPMEMアクセス Copyright © 2021, Oracle and/or its affiliates,
コンテキスト・スイッチ: 数⼗ μsec →RDMAで不要に なる コンテキスト・スイッチ: 数⼗ μsec →RDMAで不要に なる Database Server Storage Server Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software PMEM RDMA 同⼀CPU/memory 環境 の Exadata より10倍⾼速 (※Exadata X8 と X8M の⽐較) Database 8K Read エンド・トゥ・エンド・レイテンシ: < 19 µsec 20
新しい破壊的テクノロジーで、RDMA経由でのPMEMキャッシュ読込みが可能に 超⾼速なRDMA での読み込み(One-Sided Read) Copyright © 2021, Oracle and/or its
affiliates, … PMEM Cache Line PMEM Cache Line … PMEM Cache RDMAでPMEMから データを取り出し Storage Server Database Server 21
世界初、世界で唯⼀のデータベース⽤に最適化された共有型永続性メモリ Exadataストレージ・サーバーは透過的にフラッシュ・メモリの前に永続性メモ リ・アクセラレータを追加 データベースは、I/OではなくRDMAを利⽤してリモートのPMEMを読込む • ネットワークおよびI/Oソフトウェア処理、割り込み処理、コンテキストスイッチをバイ パス PMEMは⾃動的に階層化されDB間で共有される • 最もホットなデータ⽤のキャッシュとして利⽤され、10倍の実効容量を増やす
永続化メモリは耐障害性のためにストレージサーバー間で⾃動的にミラー化 される データベースからの8K I/Oに対し1600万IOPS, 19us以下のレイテンシ Exadata X8M : 永続性メモリ・データ・アクセラレータ(*) Copyright © 2021, Oracle and/or its affiliates, 22 Compute Server Storage Server Hot Warm RDMA Cold RoCE Persistent Memory FLASH (*)Exadata System Software 19.3 かつ Database Software 19c 環境において
Persistent Memory Commit Accelerator Copyright © 2021, Oracle and/or its
affiliates, 23
DB server, Storage server 両⽅のプロセスが関与 • DBはストレージにリクエストを送信 • ストレージはFlash Logに書込み、Ackを送信
従来のLog Write(Two-sided Log Write) Copyright © 2021, Oracle and/or its affiliates, ストレージ・サーバーはFlashとHDDへの 書込みを同時に発⾏ (Flash Log経由) DBはログ書込みリクエストをス トレージに送信 ストレージ・サーバーは DBにAckを返す Storage Server Database Server Flash Log 24
従来⽅式でPersistent Memoryへ REDOログを書き込む場合 Copyright © 2021, Oracle and/or its affiliates,
Database Server Storage Server Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software PMEM Write Raw Latency: <10 µs PMEM Database 8K Read エンド・トゥ・エンド・レイテンシ: ~100 µsec 時間の 90%以上が無駄 コンテキスト・スイッチ: 数⼗ μsec コンテキスト・スイッチ: 数⼗ μsec 25
• 新しい破壊的テクノロジーで、RDMA経由での永続的なPMEMログ書込みが可能に • (書き込み冗⻑性はredundancyに従う) 超⾼速なRDMA Log 書き込み(One-Sided Log Write) Copyright
© 2021, Oracle and/or its affiliates, … … PMEM Log Buffer PMEM Log Buffer … PMEM Log Buffer RDMAでPMEMの Redo Logに書込み PMEM Log ストレージ・サーバーはバックグラ ウンドでFlashログへ書込みを 実⾏(⾮同期) Database Server Storage Server 26
• ストレージ・サーバーのクラッシュ時の動き 超⾼速なRDMA Log 書き込み(One-Sided Log Write) Copyright © 2021,
Oracle and/or its affiliates, … … PMEM Log Buffer PMEM Log Buffer … PMEM Log Buffer PMEM Log ストレージ・サーバーはPMEM ログ・リカバリを実⾏ Storage Server Database Server 27
Exadata X8M 永続性メモリ・コミット・アクセラレータ(*) Copyright © 2021, Oracle and/or its affiliates,
Compute Server Storage Server Hot Warm RDMA Cold RoCE Persistent Memory FLASH Flush Later to Flash/Disk • ログ書込みのレイテンシはOLTP性能にとってクリティカル • ログ書込みが⾼速になるとコミット時間が⾼速に • ログ書込みが遅くなるとDB全体が性能劣化 • ⾃動コミット・アクセラレータ • データベースは⼀⽅向RDMA書込みを発⾏し、複数ストレージ・ サーバー上のPMEMに書き込む • ネットワークや、I/Oに関するソフトウェア処理、割込み、コンテキス ト・スイッチ等をバイパス • 最⼤8倍にログ書込みが⾼速化 (*)Exadata System Software 19.3 Database Software 19c 28
壮⼤な旅 Copyright © 2021, Oracle and/or its affiliates, 29 168
336 504 504 672 1344 1344 1.68B 2.3 2.3 PB 14 X 0 5.3 5.3 22.4 44.8 89.6 179.2 358 358 358 TB 64 X 64 64 96 128 192 288 352 384 384 384 6 X 256 576 1152 2048 4096 6144 12288 12288 12288 12 TB 48 X 20 40 40 40 80 80 80 80 80 200 Gb/s 10x 8 24 184 400 400 400 400 800 800 800 Gb/s 100 X 14 50 75 100 100 263 301 350 560 560 GB/s 40 X .05 1 1.5 1.5 2.66 4.14 5.6 5.97 6.57 16 M 320 X V1 から X8M で の成長率 V1 Sep 2008 Xeon E5430 Harpertown V2 Sep 2009 Xeon E5540 Nehalem X2 Sep 2010 Xeon X5670 Westmere X3 Sep 2012 Xeon E5-2690 Sandy Bridge X4 Nov 2013 Xeon E5-2697v2 Ivy Bridge X5 Dec 2014 Xeon E5-2699v3 Haswell X6 Apr 2016 Xeon E5-2699v4 Broadwell X7 Oct 2017 Xeon 8160 Skylake X8 Apr 2019 Xeon 8260 Cascade Lake X8M Sep 2019 Xeon 8260 Cascade Lake
Thank you ! Copyright © 2021, Oracle and/or its affiliates,
30