Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Exadata with Persistent Memory: An Epic Journey
Search
oracle4engineer
PRO
March 08, 2021
Technology
1
790
Exadata with Persistent Memory: An Epic Journey
Exadata X8M Persistent Memory について
oracle4engineer
PRO
March 08, 2021
Tweet
Share
More Decks by oracle4engineer
See All by oracle4engineer
OCHaCafe S11 #2 LT: WASM基礎〜丸腰で最前線に行かないために〜
oracle4engineer
PRO
0
58
【Oracle Cloud ウェビナー】【入門編】はじめてのOracle AI Data Platform - AIのためのデータ準備&自社用AIエージェントをワンストップで実現
oracle4engineer
PRO
1
40
OCHaCafe S11 #2 コンテナ時代の次の一手:Wasm 最前線
oracle4engineer
PRO
1
79
Oracle Cloud Infrastructure IaaS 新機能アップデート 2025/12 - 2026/2
oracle4engineer
PRO
0
75
AIエージェント、 社内展開の前に知っておきたいこと
oracle4engineer
PRO
2
97
OCI Oracle AI Database Services新機能アップデート(2025/12-2026/02)
oracle4engineer
PRO
2
85
AI駆動AI普及活動 ~ 社内AI活用の「何から始めれば?」をAIで突破する
oracle4engineer
PRO
1
77
OCI Security サービス 概要
oracle4engineer
PRO
2
13k
Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集
oracle4engineer
PRO
8
7.2k
Other Decks in Technology
See All in Technology
GitLab Duo Agent Platform + Local LLMサービングで幸せになりたい
jyoshise
0
250
クラウド × シリコンの Mashup - AWS チップ開発で広がる AI 基盤の選択肢
htokoyo
2
150
JAWS FESTA 2025でリリースしたほぼリアルタイム文字起こし/翻訳機能の構成について
naoki8408
1
230
ナレッジワークのご紹介(第88回情報処理学会 )
kworkdev
PRO
0
170
DevOpsエージェントで実現する!! AWS Well-Architected(W-A) を実現するシステム設計 / 20260307 Masaki Okuda
shift_evolve
PRO
3
470
When an innocent-looking ListOffsets Call Took Down Our Kafka Cluster
lycorptech_jp
PRO
0
120
EMからVPoEを経てCTOへ:マネジメントキャリアパスにおける葛藤と成長
kakehashi
PRO
9
1.5k
非情報系研究者へ送る Transformer入門
rishiyama
10
6.8k
Ultra Ethernet (UEC) v1.0 仕様概説
markunet
3
250
PMBOK第8版は第7版から何が変わったのか(PMBOK第8版概要解説) / 20260304 Takeshi Watarai
shift_evolve
PRO
0
110
SaaSからAIへの過渡期の中で現在、組織内で起こっている変化 / SaaS to AI Paradigm Shift
aeonpeople
0
120
白金鉱業Meetup_Vol.22_Orbital Senseを支える衛星画像のマルチモーダルエンベディングと地理空間のあいまい検索技術
brainpadpr
2
280
Featured
See All Featured
Claude Code のすすめ
schroneko
67
220k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
230
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
SEO for Brand Visibility & Recognition
aleyda
0
4.3k
The Curse of the Amulet
leimatthew05
1
9.8k
WENDY [Excerpt]
tessaabrams
9
36k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
200
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
68
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
210
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
290
RailsConf 2023
tenderlove
30
1.4k
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
Transcript
Exadata with Persistent Memory: An Epic Journey ⽇本オラクル
Exadataとは︖ Copyright © 2021, Oracle and/or its affiliates, 2
すべてのデータベース・ワークロードを劇的に改善したプラットフォーム • 理想のデータベース・ハードウェア –コンピュート、ネットワーク、ストレージがスケー ルアウト型でデータベースに最適化されており、最⾼の性能とコスト最⼩化を実現 • 賢いシステム・ソフトウェア – OLTP、アナリティクス、統合というあらゆる場⾯にお けるデータベース処理の⼤幅な改善に特化したアルゴリズム
• ⾃動化された管理 –構成、更新、パフォーマンス、管理の⾃動化と最適化により、 完全に⾃律的なインフラストラクチャとデータベースが完成 Exadata のビジョン Copyright © 2021, Oracle and/or its affiliates, 3
100 Gb/s RoCE ネットワークファブリック 25/10 GigE外部ネットワーク • 100Gb RDMA over
Converged Ethernet (RoCE) ネットワーク・ファブリック 168 TBディスク容量 25.6 TB PCI NVMe Flash 1.5 TB 永続性メモリ 32コア(SQLオフロード⽤) High Capacity 51.2 TB PCI NVMe Flash 1.5 TB 永続性メモリ 32コア(SQLオフロード⽤) Extreme Flash • スケールアウト型でインテリジェントな 2ソケット・ストレージ・サーバー • スケールアウト型 2ソケットDBサーバー 2ソケット Xeonプロセッサ 48コア(サーバーあたり) 384 GB - 1.5 TB DRAM Exadata X8M-2: 最先端のハードウェア Copyright © 2021, Oracle and/or its affiliates, 4
X8M-2 Eighth Rack Quarter Rack Elastic Multi-Rack X8M-8 Elastic Exadata
X8M: スケーラビリティ Copyright © 2021, Oracle and/or its affiliates, 5
この10年間の進化 Copyright © 2021, Oracle and/or its affiliates, 6
フラッシュの進化(2009 – 2019) Copyright © 2021, Oracle and/or its affiliates,
7 0 5.3 5.3 22.4 44.8 89.6 179.2 358 358 358 14 50 75 100 100 263 301 350 560 560 .05 1 1.5 1.5 2.66 4.14 5.6 5.97 6.57 16 V 1 Sep 2008 Xeon E5430 Harpertown V2 Sep 2009 Xeon E5540 Nehalem X2 Sep 2010 Xeon X5670 Westmere X3 Sep 2012 Xeon E5-2690 Sandy Bridge X4 Nov 2013 Xeon E5-2697v2 Ivy Bridge X5 Dec 2014 Xeon E5-2699v3 Haswell X6 Apr 2016 Xeon E5-2699v4 Broadwell X7 Oct 2017 Xeon 8160 Skylake X8 Apr 2019 Xeon 8260 Cascade Lake X8M Sep 2019 Xeon 8260 Cascade Lake Flash SCSI Flash NVMe
フラッシュの進化は停滞しているか︖ Copyright © 2021, Oracle and/or its affiliates, 8 0
5.3 5.3 22.4 44.8 89.6 179.2 358 358 358 14 50 75 100 100 263 301 350 560 560 .05 1 1.5 1.5 2.66 4.14 5.6 5.97 6.57 16 Flash SCSI Flash NVMe 1,600万IOPS 19マイクロ秒以下のレ イテンシー V 1 Sep 2008 Xeon E5430 Harpertown V2 Sep 2009 Xeon E5540 Nehalem X2 Sep 2010 Xeon X5670 Westmere X3 Sep 2012 Xeon E5-2690 Sandy Bridge X4 Nov 2013 Xeon E5-2697v2 Ivy Bridge X5 Dec 2014 Xeon E5-2699v3 Haswell X6 Apr 2016 Xeon E5-2699v4 Broadwell X7 Oct 2017 Xeon 8160 Skylake X8 Apr 2019 Xeon 8260 Cascade Lake X8M Sep 2019 Xeon 8260 Cascade Lake
Exadata X8M の秘密(秘伝のタレ) Copyright © 2021, Oracle and/or its affiliates,
9
このコンビを知ってますか Copyright © 2021, Oracle and/or its affiliates, 10
永続メモリは新しい半導体テクノロジー • 容量、性能、価格はDRAMとフラッシュの間 Intel® Optane™ DC Persistent Memory: • メモリ速度で読込み-フラッシュよりもはるかに⾼速
• DRAMとは異なり書込みは電源障害でも保存 永続書込みには洗練されたアルゴリズムで障害時のデータ整合性を保つ • CPUキャッシュからPMEMへのデータをフラッシュする特別命令をコール • クラッシュで中断された書込みの完全な順序や壊れた順序 永続性メモリ(PMEM) Copyright © 2021, Oracle and/or its affiliates, 11 FLASH PMEM DRAM Higher Cost Per GB Faster
Remote Memory Direct Access (RDMA)とは︖ Copyright © 2021, Oracle and/or
its affiliates, 12 Memory Region CPU CPU RDMA書込み RDMA読込み Database Server Storage Server Memory Region
• Exadata 100 Gb RoCEは RDMAの性能と信頼性を Ethernetファブリックで提供 • RDMA は⻑くに渡りInfiniBandと親和的
• ⼤容量データ転送で⾼スループットと低CPU使⽤率 • 独⾃のDirect-to-Wireプロトコルにより、ノード間OLTPクラス タメッセージを3倍⾼速に転送 • 新しい仕掛けはなにか? RoCEを利⽤した新しい内部ネットワークファブリック Copyright © 2021, Oracle and/or its affiliates, 13 世界初、世界唯⼀の RoCEベースのデータベースマシン
PMEM と RoCE の組み合わせで何が出来るようになるか︖ PMEM RoCE (RDMA) Copyright © 2021,
Oracle and/or its affiliates, 14
Persistent Memory Data Accelerator Copyright © 2021, Oracle and/or its
affiliates, 15
従来のストレージに永続性メモリを配置した場合: • データベースは読込みI/OコールをOSに発⾏ • OSはメッセージをストレージに送信 • ストレージCPUは永続性メモリへの読込みを発⾏ • ストレージCPUはサーバーOSに応答を送信 •
サーバーOSはデータベースをウェイクアップ 永続性メモリ読込みのスピードは、ネットワークとI / Oソフトウェア、割り込み、コンテキ スト・スイッチなどの⾼コストな処理でかき消される PMEMからの性能のメリットが消えてしまう 従来のストレージに永続性メモリを配置した場合 Copyright © 2021, Oracle and/or its affiliates, 16 Compute Server Storage Server Hot SAN Persistent Memory
従来のストレージはサーバー側キャッシュ読込みを実⾏ 従来の読み込み(Two-Sided Read) Copyright © 2021, Oracle and/or its affiliates,
… Flash Cache Line Flash Cache Line … Flash Cache ストレージ(cellsrv)がルックアップ [Disk, Offset] -> フラッシュ上の位置, フラッシュに読込みを発⾏ DBはREADリクエストを スト レージに送信 [Disk, Offset ] ストレージはデータを DBに送信 Database Server Storage Server 17
Compute Server Storage Server Warm Cold InfiniBand FLASH 従来の Exadata
のFlash I/O のレイテンシーを分解してみる Copyright © 2021, Oracle and/or its affiliates, Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software コンテキスト・スイッチ: 数⼗ μsec Flash Read Raw Latency: <100 µs コンテキスト・スイッチ: 数⼗ μsec Database 8K Read エンド・トゥ・エンド・レイテンシ: ~200 µsec 18
Flashを単にPersistent Memoryに置き換えた場合に得られる結果 Copyright © 2021, Oracle and/or its affiliates, Database
Server Storage Server Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software PMEM Read Raw Latency: ~1 µs PMEM Database 8K Read エンド・トゥ・エンド・レイテンシ: ~100 µsec 半導体からの読み込み待機時 間は 1/100 に改善されるにも かかわらず、コンテキスト・スイッチ に時間を要し、半導体による短 縮の 90%以上が無駄に コンテキスト・スイッチ: 数⼗ μsec コンテキスト・スイッチ: 数⼗ μsec 19
Persistent Memory から劇的な待機時間短縮を得る-RDMAでPMEMアクセス Copyright © 2021, Oracle and/or its affiliates,
コンテキスト・スイッチ: 数⼗ μsec →RDMAで不要に なる コンテキスト・スイッチ: 数⼗ μsec →RDMAで不要に なる Database Server Storage Server Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software PMEM RDMA 同⼀CPU/memory 環境 の Exadata より10倍⾼速 (※Exadata X8 と X8M の⽐較) Database 8K Read エンド・トゥ・エンド・レイテンシ: < 19 µsec 20
新しい破壊的テクノロジーで、RDMA経由でのPMEMキャッシュ読込みが可能に 超⾼速なRDMA での読み込み(One-Sided Read) Copyright © 2021, Oracle and/or its
affiliates, … PMEM Cache Line PMEM Cache Line … PMEM Cache RDMAでPMEMから データを取り出し Storage Server Database Server 21
世界初、世界で唯⼀のデータベース⽤に最適化された共有型永続性メモリ Exadataストレージ・サーバーは透過的にフラッシュ・メモリの前に永続性メモ リ・アクセラレータを追加 データベースは、I/OではなくRDMAを利⽤してリモートのPMEMを読込む • ネットワークおよびI/Oソフトウェア処理、割り込み処理、コンテキストスイッチをバイ パス PMEMは⾃動的に階層化されDB間で共有される • 最もホットなデータ⽤のキャッシュとして利⽤され、10倍の実効容量を増やす
永続化メモリは耐障害性のためにストレージサーバー間で⾃動的にミラー化 される データベースからの8K I/Oに対し1600万IOPS, 19us以下のレイテンシ Exadata X8M : 永続性メモリ・データ・アクセラレータ(*) Copyright © 2021, Oracle and/or its affiliates, 22 Compute Server Storage Server Hot Warm RDMA Cold RoCE Persistent Memory FLASH (*)Exadata System Software 19.3 かつ Database Software 19c 環境において
Persistent Memory Commit Accelerator Copyright © 2021, Oracle and/or its
affiliates, 23
DB server, Storage server 両⽅のプロセスが関与 • DBはストレージにリクエストを送信 • ストレージはFlash Logに書込み、Ackを送信
従来のLog Write(Two-sided Log Write) Copyright © 2021, Oracle and/or its affiliates, ストレージ・サーバーはFlashとHDDへの 書込みを同時に発⾏ (Flash Log経由) DBはログ書込みリクエストをス トレージに送信 ストレージ・サーバーは DBにAckを返す Storage Server Database Server Flash Log 24
従来⽅式でPersistent Memoryへ REDOログを書き込む場合 Copyright © 2021, Oracle and/or its affiliates,
Database Server Storage Server Database Software Kernel/OS (Database Server) Kernel/OS (Storage Server) Exadata System Software PMEM Write Raw Latency: <10 µs PMEM Database 8K Read エンド・トゥ・エンド・レイテンシ: ~100 µsec 時間の 90%以上が無駄 コンテキスト・スイッチ: 数⼗ μsec コンテキスト・スイッチ: 数⼗ μsec 25
• 新しい破壊的テクノロジーで、RDMA経由での永続的なPMEMログ書込みが可能に • (書き込み冗⻑性はredundancyに従う) 超⾼速なRDMA Log 書き込み(One-Sided Log Write) Copyright
© 2021, Oracle and/or its affiliates, … … PMEM Log Buffer PMEM Log Buffer … PMEM Log Buffer RDMAでPMEMの Redo Logに書込み PMEM Log ストレージ・サーバーはバックグラ ウンドでFlashログへ書込みを 実⾏(⾮同期) Database Server Storage Server 26
• ストレージ・サーバーのクラッシュ時の動き 超⾼速なRDMA Log 書き込み(One-Sided Log Write) Copyright © 2021,
Oracle and/or its affiliates, … … PMEM Log Buffer PMEM Log Buffer … PMEM Log Buffer PMEM Log ストレージ・サーバーはPMEM ログ・リカバリを実⾏ Storage Server Database Server 27
Exadata X8M 永続性メモリ・コミット・アクセラレータ(*) Copyright © 2021, Oracle and/or its affiliates,
Compute Server Storage Server Hot Warm RDMA Cold RoCE Persistent Memory FLASH Flush Later to Flash/Disk • ログ書込みのレイテンシはOLTP性能にとってクリティカル • ログ書込みが⾼速になるとコミット時間が⾼速に • ログ書込みが遅くなるとDB全体が性能劣化 • ⾃動コミット・アクセラレータ • データベースは⼀⽅向RDMA書込みを発⾏し、複数ストレージ・ サーバー上のPMEMに書き込む • ネットワークや、I/Oに関するソフトウェア処理、割込み、コンテキス ト・スイッチ等をバイパス • 最⼤8倍にログ書込みが⾼速化 (*)Exadata System Software 19.3 Database Software 19c 28
壮⼤な旅 Copyright © 2021, Oracle and/or its affiliates, 29 168
336 504 504 672 1344 1344 1.68B 2.3 2.3 PB 14 X 0 5.3 5.3 22.4 44.8 89.6 179.2 358 358 358 TB 64 X 64 64 96 128 192 288 352 384 384 384 6 X 256 576 1152 2048 4096 6144 12288 12288 12288 12 TB 48 X 20 40 40 40 80 80 80 80 80 200 Gb/s 10x 8 24 184 400 400 400 400 800 800 800 Gb/s 100 X 14 50 75 100 100 263 301 350 560 560 GB/s 40 X .05 1 1.5 1.5 2.66 4.14 5.6 5.97 6.57 16 M 320 X V1 から X8M で の成長率 V1 Sep 2008 Xeon E5430 Harpertown V2 Sep 2009 Xeon E5540 Nehalem X2 Sep 2010 Xeon X5670 Westmere X3 Sep 2012 Xeon E5-2690 Sandy Bridge X4 Nov 2013 Xeon E5-2697v2 Ivy Bridge X5 Dec 2014 Xeon E5-2699v3 Haswell X6 Apr 2016 Xeon E5-2699v4 Broadwell X7 Oct 2017 Xeon 8160 Skylake X8 Apr 2019 Xeon 8260 Cascade Lake X8M Sep 2019 Xeon 8260 Cascade Lake
Thank you ! Copyright © 2021, Oracle and/or its affiliates,
30