Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Aurora Serverless からAurora Serverless v2への課題と知見...
Search
bootjp / ぶーと
December 20, 2025
Research
1.7k
6
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Aurora Serverless からAurora Serverless v2への課題と知見を論文から読み解く/Understanding the challenges and insights of moving from Aurora Serverless to Aurora Serverless v2 from a paper
VRC技術・学術系イベントHUB ✕ #Vketステージ コラボ
第21回 分散システム集会 on VRChat
@bootjp / ぶーと
bootjp / ぶーと
December 20, 2025
More Decks by bootjp / ぶーと
See All by bootjp / ぶーと
AWSの耐久性のあるRedis互換KVSのMemoryDBについての論文を読んでみた
bootjp
1
700
Akamaiのキャッシュ効率を支えるAdaptSizeについての論文を読んでみた
bootjp
1
640
パーソナライズされたコンテンツ配信のための低遅延分散KVSの構築 VRChat ver / Building-a-low-latency-distributed-KVS-for-personalized-content-delivery-VRChat-ver
bootjp
1
130
Raftとは? 仕組みから考える得意なこと苦手なこと/What is Raft? Strengths and Weaknesses Based on Its Mechanism
bootjp
7
3.9k
Spannerはなぜ原子時計が必要だったのか?/あるいはSpanner Cloneはなぜ不要にできたのか? / Why did Spanner need an atomic clock? Or Why could Spanner Clone not be needed?
bootjp
1
150
【VAアカデミア用】パーソナライズされたコンテンツ配信のための低遅延分散KVSの構築
bootjp
0
37
Other Decks in Research
See All in Research
「行ける・行けない表」による地域公共交通の性能評価
bansousha
0
160
正規分布と最適化について
koide3
1
240
討議:RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
0
950
敵対生成プロンプト同時探索による内省型プロンプト最適化
kinoue_smarthr
0
180
AIエージェント時代のLLM-jpモデルのあるべき姿
k141303
0
450
進学校の生徒にはア行の苗字が多いのか
ozekinote
0
440
通時的な類似度行列に基づく単語の意味変化の分析
rudorudo11
0
310
人間中心の意思決定支援AI
yukinobaba
PRO
5
2.6k
定数整数除算・剰余算最適化再考
herumi
1
120
COFFEE-Japan PROJECT Impact Report(海ノ向こうコーヒー)
ontheslope
0
1.9k
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
shunk031
4
1k
(SIGQS17) Frasco-VS:フラグメントに基づく薬剤候補化合物選抜の量子アニーリングによる実現
keisukeyanagisawa
PRO
0
100
Featured
See All Featured
Visualization
eitanlees
152
17k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
BBQ
matthewcrist
89
10k
The Cult of Friendly URLs
andyhume
79
6.9k
Side Projects
sachag
455
43k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
850
Code Review Best Practice
trishagee
74
20k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
How GitHub (no longer) Works
holman
316
150k
Reality Check: Gamification 10 Years Later
codingconduct
0
2.2k
Building an army of robots
kneath
306
46k
Transcript
Aurora Serverless からAurora Serverless v2への課題と知見を 論文から読み解く VRC技術・学術系イベントHUB ✕ #Vketステージ コラボ
第21回 分散システム集会 on VRChat @bootjp / ぶーと
本日の発表の流れ • 自己紹介 • Aurora Serverlessとは ◦ Auroraとは、Aurora Serverlessとは... •
Aurora Serverles v1で抱えていた課題 ◦ Proxyのボトルネック、Proxyのコード追従コスト、マイグレーションに再起動が必要... • Aurora Serverless v2による改善 ◦ Proxy層の廃止、インプレーススケーリング、ライブマイグレーション... • 評価手法と評価結果 • 展望 • まとめ • 質疑応答
自己紹介 分散システム集会の主催の一人。 分散合意アルゴリズムのRaftや 分散KVS、TiKV、Redisが好きです。 仕事では、マイクロサービス/マルチプロダク ト構成へ展開できる、疎結合なイベント基盤の 設計、実装をしています。 ぶーと @bootjp
本日の発表の流れ • 自己紹介 • Aurora Serverlessとは ◦ Auroraとは、Aurora Serverlessとは... •
Aurora Serverles v1で抱えていた課題 ◦ Proxyのボトルネック、Proxyのコード追従コスト、マイグレーションに再起動が必要... • Aurora Serverless v2による改善 ◦ Proxy層の廃止、インプレーススケーリング、ライブマイグレーション... • 評価手法と評価結果 • 展望
Aurora Serverlessとは? • Amazon Web Serviceが提供するオンデマンドスケールするAmazon Aurora…
Aurora Serverlessとは?>Auroraとは? • Amazonが作ったMySQL, PostgreSQL互換のDB • RDS for MySQL, PostgreSQLと異なりAmazonにより結構手が入っている
◦ ストレージ層で分散処理をしている • 今回はこの話をメインで扱わないのでまた今度...
Aurora Serverlessとは?>Auroraとは? • Amazonが作ったMySQL, PostgreSQL互換のDB • RDS for MySQL, PostgreSQLと異なりAmazonにより結構手が入っている
◦ ストレージ層で分散処理をしている • 今回はこの話をメインで扱わないのでまた今度... このあたりを勤め先の ブログで書いたので興 味がある人は見てね
Aurora Serverlessとは?>Auroraとは? • Amazonが作ったMySQL, PostgreSQL互換のDB • RDS for MySQLRDS for
PostgreSQLと異なりAmazonにより結構手が入っている ◦ ストレージ層で分散処理をしている • 今回はこの話をメインで扱わないのでまた今度... Auroraは既存のDBから だいぶ手が入っていて 面白いよ
Aurora Serverlessとは?>Auroraとは? • Amazonが作ったMySQL, PostgreSQL互換のDB • RDS for MySQLRDS for
PostgreSQLと異なりAmazonにより結構手が入っている ◦ ストレージ層で分散処理をしている • 今回はこの話をメインで扱わないのでまた今度... Auroraは既存のDBから だいぶ手が入っていて 面白いよ
• Auroraのサーバーレス版 ◦ 指定したリソース(ACU)の範囲でインスタンスサイズの管理を自動化してくれる ▪ 自動で負荷が高くなればACUをあげる ▪ 自動負荷が低くなればACUを下げる ◦ ACUはCPUとメモリの単位を抽象かした概念
▪ ACU=2ギビバイトのメモリと対応するCPU ◦ Aurora Serverlessとは?>Aurora Serverless
• Auroraのサーバーレス版 ◦ 指定したリソース(ACU)の範囲でインスタンスサイズの管理を自動化してくれる ▪ 自動で負荷が高くなればACUをあげる ▪ 自動負荷が低くなればACUを下げる ◦ ACUはCPUとメモリの単位を抽象かした概念
▪ ACU=2ギビバイトのメモリと対応するCPU ◦ Aurora Serverlessとは?>Aurora Serverless https://www.amazon.science/publications/resource-management-in-aurora-serverless 本日はこの論文を題材 に話をします。
本日の発表の流れ • 自己紹介 • Aurora Serverlessとは ◦ Auroraとは、Aurora Serverlessとは... •
Aurora Serverles v1で抱えていた課題 ◦ Proxyのボトルネック、Proxyのコード追従コスト、マイグレーションに再起動が必要... • Aurora Serverless v2による改善 ◦ Proxy層の廃止、インプレーススケーリング、ライブマイグレーション... • 評価手法と評価結果 • 展望 • まとめ • 質疑応答
Aurora Serverles v1で抱えていた課題 • セッション転送方式によるProxy部分のボトルネック • DBエンジンの機能追加への追従コスト • スケールアップマイグレーション時の再起動 ◦
マイグレーション時の制約
Aurora Serverles v1で抱えていた課題 > v1のアーキテクチャの概要 • v1のアーキテクチャ Proxy Aurora Serverless
instance Client セッション転送 フロントエンド Proxy
Aurora Serverles v1で抱えていた課題 > Proxy方式によるボトルネック • Proxy層の負荷が問題でボトルネックとなることがあった Proxy Aurora Serverless
instance Client
Aurora Serverles v1で抱えていた課題 > 新機能のコード移植コスト • DBエンジンに新機能が追加されるたびにセッション転送コードを移植する負担も大きい Proxy Aurora Serverless
instance Client ここに新たなプロトコルを実装する必要 がある
• v1ではマイグレーション時に再起動が必要だった ◦ not ライブマイグレーション • すべての種類のセッション状態でのマイグレーションに対応できず ◦ 一時テーブルがあったりするとだめらしい ▪
やろうと思えばできそうな気がするけど、できないらしい(?) • マイグレーションできる静止時間を確保する必要がある ◦ →スケールできるタイミングが限られる ▪ →細かい粒度でのスケールアップを諦め2倍や半分などのスケーリングに • コスト効率が悪い Aurora Serverles v1で抱えていた課題 > スケールアップ時の再起動 Proxy Aurora Serverless instance old Client Aurora Serverless instance new 一時テーブルの情報 がメモリにしかない とかかも(?)
• v1ではマイグレーション時に再起動が必要だった ◦ not ライブマイグレーション • すべての種類のセッション状態でのマイグレーションに対応できず ◦ 一時テーブルがあったりするとだめらしい ▪
やろうと思えばできそうな気がするけど、できないらしい(?) • マイグレーションできる静止時間を確保する必要がある ◦ →スケールできるタイミングが限られる ▪ →細かい粒度でのスケールアップを諦め2倍や半分などのスケーリングに • コスト効率が悪い Aurora Serverles v1で抱えていた課題 > スケールアップ時の再起動 Proxy Aurora Serverless instance old Client Aurora Serverless instance new 一時テーブルの情報 がメモリにしかない とかかも(?)
本日の発表の流れ • 自己紹介 • Aurora Serverlessとは ◦ Auroraとは、Aurora Serverlessとは... •
Aurora Serverles v1で抱えていた課題 ◦ Proxyのボトルネック、Proxyのコード追従コスト、マイグレーションに再起動が必要... • Aurora Serverless v2による改善 ◦ Proxy層の廃止、インプレーススケーリング、ライブマイグレーション... • 評価手法と評価結果 • 展望 • まとめ • 質疑応答
Aurora Serverless v2による改善(詳細は後述) • Proxy層の廃止 ◦ インプレースマイグレーションとライブマイグレーションでProxyを廃止 ◦ Proxy層のボトルネックを解消 ◦
Proxy層の実装追従コストを解消 • インプレーススケーリング ◦ インプレースでスケールすることにより低遅延でスケーリング • ライブマイグレーション ◦ インプレースでマイグレーションできない場合もライブマイグレーションを行う ◦ => マイグレーションできる状態が限られる問題の解消
Aurora Serverless v2による改善 > インプレーススケーリング • ホストに余剰がある場合は、ACUの調整だけを行う ◦ 低いレイテンシーでDBの拡張を実現している •
リソース使用状況の収集・推定を高頻度(1秒単位)に行う ◦ 必要に応じてACUを増やす/減らす • ホストに余剰がない時はACU変更を凍結 マイグレーションを行う ◦ マイグレーションの話は次のスライドで ACUはAurora Capacity Unitといっ てメモリとCPUのリ ソース管理の単位で す。
Aurora Serverless v2による改善 > ライブマイグレーション • ホストにリソース余剰がない時はライブマイグレーションを行う ◦ フロントエンド層のProxyを廃止 •
ホストを意図的にアンバランスに配置している ◦ リソースの空きがあるホストを用意し、ライブマイグレーション先を確保している ◦ 異なるワークロードを同一ホストに配置し、パッキング密度を上げている ▪ CPU集約型、メモリ集約型、ネットワーク集約型 • データベース内の内部メトリクスを用いて精度の高いマイグレーションが実現 ◦ バッファプール使用状況、最大値 ◦ ワーキングセットのサイズ推定値 • Linuxカーネル側へのチューニング ◦ メモリオフライニングとコンパクション ライブマイグレー ションはおそらくVM のライブマイグレー ション(明示はされ てないけど...)
Aurora Serverless v2による改善 > ライブマイグレーション • Linuxカーネル側へのチューニング ◦ メモリオフライニング ▪
未使用メモリ領域を動的にホストへ返却する ◦ コンパクション ▪ 4KB単位の細かなフリーページを可能な限り2MB単位の大きなブロックにまとめ • ページフォルト時のオーバーヘッドを抑制 ◦ コールドページの特定 ▪ カーネルプロセスが常にページを監視しコールドページを特定 • ファイルベースのコールドページは解放 • 匿名のコールドページはスワップアウト ◦ フリーページの報告 ▪ 2MB の連続空きを見つけた場合、ハイパーバイザーに報告しその後ハイパーバイザーがそのメモリを回収する 一部はNitroの機能
本日の発表の流れ • 自己紹介 • Aurora Serverlessとは ◦ Auroraとは、Aurora Serverlessとは... •
Aurora Serverles v1で抱えていた課題 ◦ Proxyのボトルネック、Proxyのコード追従コスト、マイグレーションに再起動が必要... • Aurora Serverless v2による改善 ◦ Proxy層の廃止、インプレーススケーリング、ライブマイグレーション... • 評価手法と評価結果 • 展望 • まとめ • 質疑応答
評価手法と評価結果 • 評価は以下の二通りで行われた ◦ 実際の運用データ ◦ シミュレーション結果 • 評価結果 ◦
ほぼインプレーススケーリングで処理可能になった ▪ ほぼ=99.98% ◦ ライブマイグレーションが必要になった場合 ▪ 1回またはそれに近い回数で済んでいる ▪ 平均マイグレーション回数が1.56~1.68程度と低い値である ◦ ホストが過度の負荷状態に達するケースの割合も低い ▪ 再パッキングが必要となる状況が最小限に抑えられている
本日の発表の流れ • 自己紹介 • Aurora Serverlessとは ◦ Auroraとは、Aurora Serverlessとは... •
Aurora Serverles v1で抱えていた課題 ◦ Proxyのボトルネック、Proxyのコード追従コスト、マイグレーションに再起動が必要... • Aurora Serverless v2による改善 ◦ Proxy層の廃止、インプレーススケーリング、ライブマイグレーション... • 評価手法と評価結果 • 展望 • まとめ • 質疑応答
展望 • リアクティブ制御と、予測的手法との統合によるさらなる最適化の可能性 ◦ 時間帯効果のような予測可能なワークロード特性を十分に活用できていない ▪ ライブマイグレーションを事前にスケジューリング ▪ ホストをより効果的に解放してコストを削減したりできる可能性がある ◦
予測の精度をあげることで、よりコスト効率よく運用が行える余地がある • 機械学習や強化学習に基づいた高度なワークロード予測を入れることも見据えている
本日の発表の流れ • 自己紹介 • Aurora Serverlessとは ◦ Auroraとは、Aurora Serverlessとは... •
Aurora Serverles v1で抱えていた課題 ◦ Proxyのボトルネック、Proxyのコード追従コスト、マイグレーションに再起動が必要... • Aurora Serverless v2による改善 ◦ Proxy層の廃止、インプレーススケーリング、ライブマイグレーション... • 評価手法と評価結果 • 展望 • まとめ • 質疑応答
まとめ • Aurora Serverless v1には以下の課題があった ◦ Proxy層のボトルネック ◦ ProxyのDBエンジンの機能追加への追従コスト ◦
スケールアップマイグレーション時の再起動 ▪ 結果的にマイグレーションタイミングの制約が強かった • v2では次の手法を用いた ◦ セッション転送のためのProxyを廃止 ▪ Proxyのボトルネックと追従コストを解決 ◦ スケール時の再起動を不要にし、スケーリングタイミングを柔軟に ▪ インプレーススケーリング • ACUを動的に変更する ▪ ライブマイグレーション • ホストに余剰がない場合ライブマイグレーションを行いダウンタイムを最小化
質疑応答