Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
リリースを支える負荷測定
Search
gree_tech
PRO
January 17, 2020
Technology
0
560
リリースを支える負荷測定
「WFS Tech Talk #2」で発表された資料です。
https://gree.connpass.com/event/158257/
gree_tech
PRO
January 17, 2020
Tweet
Share
More Decks by gree_tech
See All by gree_tech
変わるもの、変わらないもの :OSSアーキテクチャで実現する持続可能なシステム
gree_tech
PRO
0
3.2k
マネジメントに役立つ Google Cloud
gree_tech
PRO
0
37
今この時代に技術とどう向き合うべきか
gree_tech
PRO
3
2.5k
生成AIを開発組織にインストールするために: REALITYにおけるガバナンス・技術・文化へのアプローチ
gree_tech
PRO
0
240
安く・手軽に・現場発 既存資産を生かすSlack×AI検索Botの作り方
gree_tech
PRO
0
220
生成AIを安心して活用するために──「情報セキュリティガイドライン」策定とポイント
gree_tech
PRO
1
1.6k
あうもんと学ぶGenAIOps
gree_tech
PRO
0
340
MVP開発における生成AIの活用と導入事例
gree_tech
PRO
0
370
機械学習・生成AIが拓く事業価値創出の最前線
gree_tech
PRO
0
260
Other Decks in Technology
See All in Technology
Bill One急成長の舞台裏 開発組織が直面した失敗と教訓
sansantech
PRO
2
390
顧客との商談議事録をみんなで読んで顧客解像度を上げよう
shibayu36
0
280
コミュニティが変えるキャリアの地平線:コロナ禍新卒入社のエンジニアがAWSコミュニティで見つけた成長の羅針盤
kentosuzuki
0
130
SREじゃなかった僕らがenablingを通じて「SRE実践者」になるまでのリアル / SRE Kaigi 2026
aeonpeople
6
2.5k
SREチームをどう作り、どう育てるか ― Findy横断SREのマネジメント
rvirus0817
0
330
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.6k
pool.ntp.orgに ⾃宅サーバーで 参加してみたら...
tanyorg
0
100
今こそ学びたいKubernetesネットワーク ~CNIが繋ぐNWとプラットフォームの「フラッと」な対話
logica0419
2
190
セキュリティについて学ぶ会 / 2026 01 25 Takamatsu WordPress Meetup
rocketmartue
1
310
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
15
93k
SREが向き合う大規模リアーキテクチャ 〜信頼性とアジリティの両立〜
zepprix
0
470
30万人の同時アクセスに耐えたい!新サービスの盤石なリリースを支える負荷試験 / SRE Kaigi 2026
genda
4
1.3k
Featured
See All Featured
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.4k
My Coaching Mixtape
mlcsv
0
49
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.1k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
780
How STYLIGHT went responsive
nonsquared
100
6k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
130
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.3k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
57
The Cost Of JavaScript in 2023
addyosmani
55
9.5k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.1k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
71k
Transcript
リリースを支える負荷試験 2020.1.14 藤田 貴大
自己紹介 • 藤田 貴大 @takfjt • WFS サーバエンジニア • (前職)組み込み
→ (転職)インフラ → Webゲーム → QA → WFSサーバ
開発体制について
開発体制 インフラチーム サーバチーム プロダクトチーム プロダクトチーム プロダクトチーム プロダクトチーム プロダクトチーム プロダクトチーム
サーバチーム プロダクトチーム プロダクトチーム プロダクトチーム プロダクトチーム プロダクトチーム プロダクトチーム 担当としてプロダクトチームの中で開発 私は全体のサポート
プロダクトチーム プロダクトチーム プロダクトチーム インフラチーム インフラチーム プロダクトチーム プロダクトチーム プロダクトチーム プラットフォーム (GCP,
AWS) ミドルウェア (K8s, MySQL, etc…) モニタリング (Grafana, sumologic, etc…)
今回の話
なぜ、負荷試験?
ゲームはリリースが大切 •スケジュールは入念に計画されている •CM、広告、生放送、etc... •原作があるものであれば、テレビ放映や 映画上映にタイミングをあわせることも
サーバエンジニアが 最も恐れること
リリース後 即メンテ
どれくらい止まるのか •サーバ追加 ⇒ 数時間 •バグ修正 ⇒ 数時間〜数日 •けっこう根本的な見直し ⇒ 数週間
•イチから書き直し ⇒ 数ヶ月?
負荷対策は必須
どういう対策をする?
zܭଌ͢͠ɻܭଌ͢Δ·Ͱ ͷͨΊͷௐΛͯ͠ͳΒͳ͍z 3PC1JLF http://www.lysator.liu.se/c/pikestyle.html 邦訳参照 https://ja.wikipedia.org/wiki/UNIX%E5%93%B2%E5%AD%A6
ということで計測 ↓ 負荷試験
確認したいこと • 想定した負荷をかけて問題無く動作すること • 過大な負荷をかけたとき、まずどこがボトル ネックになるのかが明らかになること • 想定より負荷が高いAPIがないか確認すること
想定した負荷
ユーザの量と行動を 想定した負荷
ユーザの量 • プロダクトに試算してもらう • 過去の経験
ユーザの行動 • 実際にプレイしたAPIアクセスと リクエスト、レスポンスの情報を準備して貰う • インタビューして、だいたいの動作を想定する • 最終的には、簡易的にゲームアプリ相当の 処理を実装することになる(つらい)
負荷試験ツール • 既存のツールを使う(Locust) • 自分で作る • 要求すること • dockerイメージを作ってKubernetesで運用 •
WorkerからMasterに接続
Master Worker Worker Worker Worker Worker Worker Kubernetes + Workerから接続
Worker Worker Worker • 環境構築が簡単 • 台数が多いと費用もかかる • ReplicaSetだけでWorkerの 数を制御できる • Masterへの接続は名前解決に任せ られる
Kubernetes • 負荷試験では必需品 • 本番のゲームサーバもKubernetesを使っています • 今後も利用する予定です • Kubernetesによる運用は現在進行形で 経験値を蓄積中です
実施
負荷試験環境 • 本番相当の環境 • リリース前の本番環境をつかっています • タイミングによっては、そのまま本番投入 • 本番相当のモニタリングが必須
MySQL Redis Memcached ゲームサーバ モニタリング 負荷計測ツール Master Workers 構成図
負荷試験ツール モニタリング (CPU) 試験中画面の例
やってみると
次々と現れるボトルネックや不具合 ちょっとの負荷で落ちるAPIサーバ 飽和するMemcached 失敗する名前解決 Bad Gateway 何故か偏るDB負荷 跳ね上がるログの量
地道に解決 • ちょっとの負荷で落ちるAPIサーバ → Dockerコンテナ内の設定漏れ • 飽和するMemcached → サーバ追加 •
失敗する名前解決 → DNSキャッシュサーバを設置
地道に解決 • Bad Gateway → ロードバランサとAPIサーバの KeepAlive設定のミス • 何故か偏るDB負荷 →
負荷試験ツールのバグ • 跳ね上がるログの量 → 開発モードの状態で大量のデバッグログを 出している状態で、本番相当の負荷を かけてしまった
その他 • モニタリングの調整なども同時進行で実施 • 数値がおかしい • こういうグラフが欲しいなど • インフラチームと連携 •
想定以上の負荷が発生したとき DBのレイテンシが悪化することを確認
負荷試験ビフォーアフター ビフォー アフター トラフィック
結果
無事リリース🎉 (海外配信を含む)
まとめ • 負荷試験を実施した • リリース後の負荷に関する問題はゼロ • Kubernetesを活用している • プロダクトチーム、インフラチームとの 連携でやっている