Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
質問箱の負荷対策
Search
umemotoryo
October 31, 2019
Programming
0
490
質問箱の負荷対策
umemotoryo
October 31, 2019
Tweet
Share
More Decks by umemotoryo
See All by umemotoryo
障害対応で実施する3つのこと
umemotoryo
0
600
Other Decks in Programming
See All in Programming
OTP を自動で入力する裏技
megabitsenmzq
0
110
TipKitTips
ktcryomm
0
170
RubyとGoでゼロから作る証券システム: 高信頼性が求められるシステムのコードの外側にある設計と運用のリアル
free_world21
0
290
CSC307 Lecture 15
javiergs
PRO
0
250
API Platformを活用したPHPによる本格的なWeb API開発 / api-platform-book-intro
ttskch
1
140
ベクトル検索のフィルタを用いた機械学習モデルとの統合 / python-meetup-fukuoka-06-vector-attr
monochromegane
2
420
Goの型安全性で実現する複数プロダクトの権限管理
ishikawa_pro
2
340
20260313 - Grafana & Friends Taipei #1 - Kubernetes v1.36 的開發雜記:那些困在 Alpha 加護病房太久的 Metrics
tico88612
0
200
社内規程RAGの精度を73.3% → 100%に改善した話
oharu121
13
8.1k
nilとは何か 〜interfaceの構造とnil!=nilから理解する〜
kuro_kurorrr
3
1.9k
nuget-server - あなたが必要だったNuGetサーバー
kekyo
PRO
0
250
クライアントワークでSREをするということ。あるいは事業会社におけるSREと同じこと・違うこと
nnaka2992
1
340
Featured
See All Featured
Test your architecture with Archunit
thirion
1
2.2k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Embracing the Ebb and Flow
colly
88
5k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
970
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
830
Java REST API Framework Comparison - PWX 2021
mraible
34
9.2k
How to Talk to Developers About Accessibility
jct
2
150
Darren the Foodie - Storyboard
khoart
PRO
3
2.9k
GraphQLとの向き合い方2022年版
quramy
50
14k
HDC tutorial
michielstock
1
540
How to make the Groovebox
asonas
2
2k
Transcript
質問箱の負荷対策
2 画像・図・グラフなど • 名前: 梅本稜 • 担当サービス ◦ 質問箱 •
実装 ◦ サーバーサイド ◦ インフラ • ジラフ歴: だいたい5年 • DDos経験: 3回 自己紹介
3 1. アーキテクチャ図(簡易版) 2. よくわからないけど繋がらなくなる 3. DBのコネクションがいっぱいになる 4. Redisのメモリが不足する 目次
4 アーキテクチャ図(簡易版) Infrastructure Master Cloud SQL Slave Cloud SQL Kubernetes
cluster Application Kubernetes Engine Worker Kubernetes Engine Nginx Ingress Kubernetes Engine Infrastructure Cloud Memorystore Cloud Memorystore S3 Cloud Memorystore S3 proxyr Kubernetes Engine
5 よくわからないけど 繋がらなくなる
6 アラートをトリガーに 電話が来る 夜22~23時ごろ誰もデプロイはしていない 一旦脳死でpodを増やすも復活しない
7 前提 podを増やしても復活しない GCPで障害は発生していない 仮説 1. LBが死んでいる 2. DBで詰まっている 3.
Redisのメモリが溢れている 問題を切り分ける
8 1. LBが死んでいる a. これはGCPのワークロードからpodの状態を確認して問題なし 2. DBが詰まっている a. DBにshow processlistを実行すると60秒以上実行されているクエ
リが多く発見される b. しかもレプリケーションが3時間近く遅延 3. Redisのメモリが溢れている a. Stackdriverで見ると溢れていない 仮説検証する
9 1. 質問テーブルと回答テーブルをjoinしたクエリ 2. ユーザーテーブルのレコードに頻繁にアップデートが実行されロック 3. indexを貼っていないカラムで検索してフルスキャン&filesort DBが詰まっている原因
10 一次対応 Redisで出来るだけキャッシュする 実行箇所をコメントアウトして空のオブジェクトを返す 恒久対応 joinせずに2回クエリを実行する 処理を見るとjoinする必要がないものがあったのでjoinをやめる 質問テーブルと回答テーブルをjoinし たクエリの対策
11 一次対応 アクセス日はユーザーに見えないので更新するメソッドをコメントアウト 恒久対応 アクセスと同時にアップデートしていたので非同期にする 現在はBigQueryで管理 ユーザーテーブルのレコードに 頻繁にアップデートが実行されロック
12 一次対応 Redisに出来るだけキャッシュする コメントアウトして空のオブジェクトを返す 恒久対応 explainを使用して適切なindexを探す 検索する値の順番を整理する indexを貼っていないカラムで検索し てフルスキャン&filesort
13 DBのコネクションが いっぱいになる CloudSQLのmysqlの最大コネクションの 4000コネクションに到達
14 緑の線がmasterのDB オレンジの線がslaveのDB Stackdriverから の通知で電話が 来る 画像・図・グラフなど
15 Pumaの場合 PumaのWorker * pool らしい(ソースコードまで追ってないです) なので Pod * PumaのWorker
* pool が4000以下になるように database.yml設定を変更する コネクションの総数を計算する 方法を調べる
16 show processlistで表示される行数と Pod * PumaのWorker * pool の数を比較して減らす 怖かったので1つずつpoolを減らして様子をみる
同時にPumaの処理待ちをStackdriverで監視して処理が詰まらないことを 確認しながら行なった 質問箱の場合は最終的に 7 になった(cpu 6core, memory 32GB) database.ymlの変更
17 Redisのメモリが不足する キャッシュしすぎた
18 1. 負荷対策でキャッシュしたものが増えた 2. sidekiqで処理待ちになったjobが400万近くあった 3. キャッシュによってどの程度の容量が必要か計算していなかった 経緯
19 lib/peing_cache_pool.rbをに以下をコードを設置 複数のRedisを接続できるように変更
20 ジラフではエンジニアを募集しています! もし興味がある方は僕に声をかけて欲しいです! 最後に