Slide 1

Slide 1 text

ある日突然 DB の性能が ½ になった話 ゆる SRE 勉強会 #7 ~ 1 周年記念企画 真夏の SRE 怖い話 ~ 2024/8/30 まつひさ(hmatsu47)

Slide 2

Slide 2 text

ある日突然 DB の性能が ½ になった話 ゆる SRE 勉強会 #7 ~ 1 周年記念企画 真夏の SRE 怖い話 ~ 2024/8/30 まつひさ(hmatsu47) サイズのインスタンス相当

Slide 3

Slide 3 text

自己紹介 松久裕保(@hmatsu47) ● https://qiita.com/hmatsu47 ● 現在: ○ 名古屋で Web インフラのお守り係をしています ○ SRE チームに所属しつつ技術検証の支援をしています ■ フロントエンド(Next.js App Router)など ○ 仕事に関係なく pgvector の周辺を追っかけ中です ■ 本来(?)は MySQLer です 3

Slide 4

Slide 4 text

それは真夏…じゃなくて真冬の出来事 ● 2018 年、正月 ○ その前に、 4

Slide 5

Slide 5 text

前年の某社(オンプレ運用) ● 壊れるストレージ ○ 冗長化電源が両系同時故障 ● 繋がらない修理窓口 ○ 専属担当者付きのプレミアムサポートのはずなのに ■ 下位サポート窓口の支援に追われて本来の担当窓口に出られず🤔 ● 終わらない修理立ち会い ○ 保守部品への交換完了→動作確認→保守部品の不良発覚→再修理 ○ 金曜夜に故障→土曜に直らず→日曜夜まで修理は続く 5

Slide 6

Slide 6 text

秋になり、 ● なんとか AWS への Lift & Shift が完了 ○ DB は MySQL → Aurora MySQL へ ○ でも、若干不安定… ○ アクセスが多いときフェイルオーバーすると DB 接続が刺さる ■ オンプレ比でネットワークレイテンシが大きくなったため 6

Slide 7

Slide 7 text

有効な解決策がないまま、年末年始へ ● そして 2018 年 1 月 3 日、 7

Slide 8

Slide 8 text

あいつらがやってきた! ● Meltdown & Spectre 8 コンニチハ! \ /

Slide 9

Slide 9 text

と同時に、 ● AWS のコンピュート基盤にパッチが当てられる(1 回目) ○ 結果、起きたことは… 9

Slide 10

Slide 10 text

AWS コンピュート基盤性能低下 ● 「EC2 上で動作中の memcached の性能が ⅔ になった」 ○ ネットから流れてきた情報 ● …Aurora は? 10

Slide 11

Slide 11 text

やっぱり性能低下していた ● 同タイプ 1 段階下(½ サイズ)相当の性能に(約 ⅔) https://qiita.com/hmatsu47/items/656ebb6575c31bf1a90e 11

Slide 12

Slide 12 text

仕事始め早々、 ● 祈りながら🐶のメトリクスグラフを眺め続けることに ○ DB(Aurora)も心配だけど Web(EC2)も気になる… ● いざとなったらスケールアップできるよう手配 ○ 稟議を通す(💰の弾丸) ○ ついでに新しいインスタンスタイプへの変更(R3 → R4)を準備 12

Slide 13

Slide 13 text

数日後、いきなり ● 性能が(ほぼ)元に戻った https://qiita.com/hmatsu47/items/656ebb6575c31bf1a90e 13

Slide 14

Slide 14 text

結局、 ● スケールアップは不要に ○ 新しいインスタンスタイプへの変更(R3 → R4)のみ実施 ■ 少しだけ性能アップ 14

Slide 15

Slide 15 text

その後、 ● DB 接続の改善を実施 ○ コネクションプーリングライブラリを(高速なものに)置き換え ● フェイルオーバーが怖くなくなった! 15

Slide 16

Slide 16 text

一安心。 ● しかし、怖い話には続きが… 16

Slide 17

Slide 17 text

ある日の偉い人(フィクションです。たぶん)            【補足】            当時、満足な性能が出てクラウド間レプリケーションが可能な            他クラウドの MySQL 系マネージドサービスはありませんでした            (GCP の Cloud SQL for MySQL は v1・v2 とも要件を満たさず)            さすがに IaaS はいやです… 17 AWS だけでは不安だ マルチクラウド化を進めてくれ