Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
ある日突然 DB の性能が ½ になった話 ゆる SRE 勉強会 #7 ~ 1 周年記念企画 真夏の SRE 怖い話 ~ 2024/8/30 まつひさ(hmatsu47)
Slide 2
Slide 2 text
ある日突然 DB の性能が ½ になった話 ゆる SRE 勉強会 #7 ~ 1 周年記念企画 真夏の SRE 怖い話 ~ 2024/8/30 まつひさ(hmatsu47) サイズのインスタンス相当
Slide 3
Slide 3 text
自己紹介 松久裕保(@hmatsu47) ● https://qiita.com/hmatsu47 ● 現在: ○ 名古屋で Web インフラのお守り係をしています ○ SRE チームに所属しつつ技術検証の支援をしています ■ フロントエンド(Next.js App Router)など ○ 仕事に関係なく pgvector の周辺を追っかけ中です ■ 本来(?)は MySQLer です 3
Slide 4
Slide 4 text
それは真夏…じゃなくて真冬の出来事 ● 2018 年、正月 ○ その前に、 4
Slide 5
Slide 5 text
前年の某社(オンプレ運用) ● 壊れるストレージ ○ 冗長化電源が両系同時故障 ● 繋がらない修理窓口 ○ 専属担当者付きのプレミアムサポートのはずなのに ■ 下位サポート窓口の支援に追われて本来の担当窓口に出られず🤔 ● 終わらない修理立ち会い ○ 保守部品への交換完了→動作確認→保守部品の不良発覚→再修理 ○ 金曜夜に故障→土曜に直らず→日曜夜まで修理は続く 5
Slide 6
Slide 6 text
秋になり、 ● なんとか AWS への Lift & Shift が完了 ○ DB は MySQL → Aurora MySQL へ ○ でも、若干不安定… ○ アクセスが多いときフェイルオーバーすると DB 接続が刺さる ■ オンプレ比でネットワークレイテンシが大きくなったため 6
Slide 7
Slide 7 text
有効な解決策がないまま、年末年始へ ● そして 2018 年 1 月 3 日、 7
Slide 8
Slide 8 text
あいつらがやってきた! ● Meltdown & Spectre 8 コンニチハ! \ /
Slide 9
Slide 9 text
と同時に、 ● AWS のコンピュート基盤にパッチが当てられる(1 回目) ○ 結果、起きたことは… 9
Slide 10
Slide 10 text
AWS コンピュート基盤性能低下 ● 「EC2 上で動作中の memcached の性能が ⅔ になった」 ○ ネットから流れてきた情報 ● …Aurora は? 10
Slide 11
Slide 11 text
やっぱり性能低下していた ● 同タイプ 1 段階下(½ サイズ)相当の性能に(約 ⅔) https://qiita.com/hmatsu47/items/656ebb6575c31bf1a90e 11
Slide 12
Slide 12 text
仕事始め早々、 ● 祈りながら🐶のメトリクスグラフを眺め続けることに ○ DB(Aurora)も心配だけど Web(EC2)も気になる… ● いざとなったらスケールアップできるよう手配 ○ 稟議を通す(💰の弾丸) ○ ついでに新しいインスタンスタイプへの変更(R3 → R4)を準備 12
Slide 13
Slide 13 text
数日後、いきなり ● 性能が(ほぼ)元に戻った https://qiita.com/hmatsu47/items/656ebb6575c31bf1a90e 13
Slide 14
Slide 14 text
結局、 ● スケールアップは不要に ○ 新しいインスタンスタイプへの変更(R3 → R4)のみ実施 ■ 少しだけ性能アップ 14
Slide 15
Slide 15 text
その後、 ● DB 接続の改善を実施 ○ コネクションプーリングライブラリを(高速なものに)置き換え ● フェイルオーバーが怖くなくなった! 15
Slide 16
Slide 16 text
一安心。 ● しかし、怖い話には続きが… 16
Slide 17
Slide 17 text
ある日の偉い人(フィクションです。たぶん) 【補足】 当時、満足な性能が出てクラウド間レプリケーションが可能な 他クラウドの MySQL 系マネージドサービスはありませんでした (GCP の Cloud SQL for MySQL は v1・v2 とも要件を満たさず) さすがに IaaS はいやです… 17 AWS だけでは不安だ マルチクラウド化を進めてくれ