Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ある日突然 DB の性能が 1/2(サイズのインスタンス相当)になった話
Search
hmatsu47
PRO
September 02, 2024
Technology
0
59
ある日突然 DB の性能が 1/2(サイズのインスタンス相当)になった話
ゆる SRE 勉強会 #7 ~ 1 周年記念企画 真夏の SRE 怖い話 ~ 2024/8/30
hmatsu47
PRO
September 02, 2024
Tweet
Share
More Decks by hmatsu47
See All by hmatsu47
CloudWatch Database Insights 関連アップデート
hmatsu47
PRO
0
13
さいきんの MySQL との付き合い方 〜 MySQL 8.0 より後の世界へようこそ 〜
hmatsu47
PRO
0
18
ベクトルストア入門
hmatsu47
PRO
0
18
Aurora DSQL について
hmatsu47
PRO
0
14
DynamoDB Global Tables MRSC・pgvector 0.8.0・caching_sha2_password 関連アップデート
hmatsu47
PRO
0
15
10 年(+1 年)の振り返りと 2025 年の活動予定
hmatsu47
PRO
0
32
RDS/Aurora アップデート(2024 年版)
hmatsu47
PRO
0
39
Aurora DSQL と楽観的同時実行制御(OCC)
hmatsu47
PRO
0
52
Claude 3.5 で Haiku
hmatsu47
PRO
0
30
Other Decks in Technology
See All in Technology
”知のインストール”戦略:テキスト資産をAIの文脈理解に活かす
kworkdev
PRO
9
3.8k
7,000名規模の 人材サービス企業における プロダクト戦略・戦術と課題 / Product strategy, tactics and challenges for a 7,000-employee staffing company
techtekt
0
230
30 代子育て SRE が考える SRE ナレッジマネジメントの現在と将来
kworkdev
PRO
0
190
17年のQA経験が導いたスクラムマスターへの道 / 17 Years in QA to Scrum Master
toma_sm
0
520
GitHub MCP Serverを使って Pull Requestを作る、レビューする
hiyokose
2
630
Lightdashの利活用状況 ー導入から2年経った現在地_20250409
hirokiigeta
2
240
ソフトウェアプロジェクトの成功率が上がらない原因-「社会価値を考える」ということ-
ytanaka5569
0
150
ペアプログラミングにQAが加わった!職能を超えたモブプログラミングの事例と学び
tonionagauzzi
1
160
ソフトウェア開発現代史: なぜ日本のソフトウェア開発は「滝」なのか?製造業の成功体験とのギャップ #jassttokyo
takabow
3
1.8k
React Server Componentは 何を解決し何を解決しないのか / What do React Server Components solve, and what do they not solve?
kaminashi
6
1.3k
50人の組織でAIエージェントを使う文化を作るためには / How to Create a Culture of Using AI Agents in a 50-Person Organization
yuitosato
6
2.5k
Tokyo dbt Meetup #13 dbtと連携するBI製品&機能ざっくり紹介
sagara
0
380
Featured
See All Featured
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
12
640
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.5k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
135
33k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
102
19k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Gamification - CAS2011
davidbonilla
81
5.2k
Bash Introduction
62gerente
611
210k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
How to Think Like a Performance Engineer
csswizardry
22
1.5k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
30
2.3k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
22
2.6k
Transcript
ある日突然 DB の性能が ½ になった話 ゆる SRE 勉強会 #7 ~
1 周年記念企画 真夏の SRE 怖い話 ~ 2024/8/30 まつひさ(hmatsu47)
ある日突然 DB の性能が ½ になった話 ゆる SRE 勉強会 #7 ~
1 周年記念企画 真夏の SRE 怖い話 ~ 2024/8/30 まつひさ(hmatsu47) サイズのインスタンス相当
自己紹介 松久裕保(@hmatsu47) • https://qiita.com/hmatsu47 • 現在: ◦ 名古屋で Web インフラのお守り係をしています
◦ SRE チームに所属しつつ技術検証の支援をしています ▪ フロントエンド(Next.js App Router)など ◦ 仕事に関係なく pgvector の周辺を追っかけ中です ▪ 本来(?)は MySQLer です 3
それは真夏…じゃなくて真冬の出来事 • 2018 年、正月 ◦ その前に、 4
前年の某社(オンプレ運用) • 壊れるストレージ ◦ 冗長化電源が両系同時故障 • 繋がらない修理窓口 ◦ 専属担当者付きのプレミアムサポートのはずなのに ▪
下位サポート窓口の支援に追われて本来の担当窓口に出られず🤔 • 終わらない修理立ち会い ◦ 保守部品への交換完了→動作確認→保守部品の不良発覚→再修理 ◦ 金曜夜に故障→土曜に直らず→日曜夜まで修理は続く 5
秋になり、 • なんとか AWS への Lift & Shift が完了 ◦
DB は MySQL → Aurora MySQL へ ◦ でも、若干不安定… ◦ アクセスが多いときフェイルオーバーすると DB 接続が刺さる ▪ オンプレ比でネットワークレイテンシが大きくなったため 6
有効な解決策がないまま、年末年始へ • そして 2018 年 1 月 3 日、 7
あいつらがやってきた! • Meltdown & Spectre 8 コンニチハ! \ /
と同時に、 • AWS のコンピュート基盤にパッチが当てられる(1 回目) ◦ 結果、起きたことは… 9
AWS コンピュート基盤性能低下 • 「EC2 上で動作中の memcached の性能が ⅔ になった」 ◦
ネットから流れてきた情報 • …Aurora は? 10
やっぱり性能低下していた • 同タイプ 1 段階下(½ サイズ)相当の性能に(約 ⅔) https://qiita.com/hmatsu47/items/656ebb6575c31bf1a90e 11
仕事始め早々、 • 祈りながら🐶のメトリクスグラフを眺め続けることに ◦ DB(Aurora)も心配だけど Web(EC2)も気になる… • いざとなったらスケールアップできるよう手配 ◦ 稟議を通す(💰の弾丸)
◦ ついでに新しいインスタンスタイプへの変更(R3 → R4)を準備 12
数日後、いきなり • 性能が(ほぼ)元に戻った https://qiita.com/hmatsu47/items/656ebb6575c31bf1a90e 13
結局、 • スケールアップは不要に ◦ 新しいインスタンスタイプへの変更(R3 → R4)のみ実施 ▪ 少しだけ性能アップ 14
その後、 • DB 接続の改善を実施 ◦ コネクションプーリングライブラリを(高速なものに)置き換え • フェイルオーバーが怖くなくなった! 15
一安心。 • しかし、怖い話には続きが… 16
ある日の偉い人(フィクションです。たぶん) 【補足】 当時、満足な性能が出てクラウド間レプリケーションが可能な 他クラウドの MySQL 系マネージドサービスはありませんでした (GCP の Cloud
SQL for MySQL は v1・v2 とも要件を満たさず) さすがに IaaS はいやです… 17 AWS だけでは不安だ マルチクラウド化を進めてくれ