俺たちの！パフォーマンス計測

俺たちの！パフォーマンス計測 2020.02.10 LLRエンジニア交流会 LT

遠藤幹太 Mikita Endoh / @trunkatree 株式会社ROBOT PAYMENT / SRE
Team - 北の自然が好きです

もちろんパフォーマンス計測してます

レスポンスタイムグラフあります

でも、これって本当にあてになるの？

なぜそう思うか →

- ユーザーの利用頻度は一定じゃない - 月末月初が多い、など - 機能によってバラツキがある - よく使われるところ、たまにしか使われないところ - パフォーマンス性能にもバラツキがある
- オプション機能がいろいろある - 使う企業、使わない企業

- パフォーマンスの良くない機能が使われたからメトリクスが悪化した？ - 何かよくない原因があってメトリクスが悪化した？ - 一部機能を使った一部ユーザーに対してだけレスポンスが悪い？ - 全体的にレスポンスが悪い？ - パフォーマンス改善施策をリリースしたけど、結果どうなったの？

実際のところどうなの？

よりユーザーに寄り添った計測がしたい！

各webトランザクションごとのメトリクスを確認できる

今どういう状況か？は、これを見ればいいね！

New Relic の細かいメトリクスは1週間ほどしか保存されない

では中長期的な推移は？

じゃあ自分たちで保存しておこう

ということで、簡単につくりました →

New Relic のAPIからメトリクスをとってきて RDS に保存

- monitorサーバで cron で日次でシェルスクリプトを動かしています - 今はRDBに保存していますが、時系列DBなども考えていきたいです

日次で、各webトランザクションごとの - リクエスト数 - Apdex（ユーザー満足度） - レスポンスタイム - 標準偏差 -
5パーセンタイル - 50パーセンタイル - 90パーセンタイル - 95パーセンタイル - 99パーセンタイルをとってきて保存

今はで見れます

今後、うまいこと可視化していきたいですね - ヒートマップをつくる？ - どこがよくないのか？が視覚的にわかりやすい - いい感じのパフォーマンス指標をつくる、算出する - これを見ればわかる！
というような

etc. - 全ユーザーが使う機能だけを対象にパフォーマンス指標を算出する - 日常的に使われる機能だけを対象にパフォーマンス指標を算出する - 中長期的な推移を観測し傾向を把握する - パフォーマンス改善施策をリリースした際に、結果どうだったか -
どの機能にどう影響が出ているかを把握する

厳密に言えば、「SLO」はユーザー体験を正確に表現できていないと意味がない

こういった細かい計測が必要なのではないでしょうか？

Thank you. We are hiring !

俺たちの！パフォーマンス計測

俺たちの！パフォーマンス計測

trunkatree

More Decks by trunkatree

Other Decks in Programming

Featured

Transcript