Railsパフォーマンス・チューニング入門

Rails パフォーマンス・チューニング⼊⾨弥⽣株式会社黒曜 (@kokuyouwind)

$ whoami 黒曜 @kokuyouwind Misoca → 弥⽣株式会社 (We're Hiring!) ⼀応Rails
エンジニア最近はAWS とかDocker 周りを弄っていることが多い

Rails は便利！

🤔 「どうして」便利なんだろう…… ？

「いい感じ」に書ける！

「いい感じ」に書ける！⼈間の「意図」を表現しやすい ↓

例えば…… Event.find_by(name: 'Kaigi on Rails') .sessions .find_or_create_by(speaker: 'kokuyou .update(start_time: '10:50')
1 2 3 4

例えば…… イベントの中から「Kaigi on Rails 」を探して、発表者がkokuyouwind のセッションを⾒つける。 ( 存在しない場合は作る) そして、セッション開始時刻を10:50
に更新する。 Event.find_by(name: 'Kaigi on Rails') .sessions .find_or_create_by(speaker: 'kokuyou .update(start_time: '10:50') 1 2 3 4

⼈間の「意図」は表現しやすい

実際の挙動は？どんなクエリが、合計何回実⾏される？イベントやセッションがたくさんあっても⼤丈夫？ Event.find_by(name: 'Kaigi on Rails') .sessions .find_or_create_by(speaker: 'kokuyou
.update(start_time: '10:50') 1 2 3 4

細かい「挙動」は把握しづらいことがある

細かい挙動が把握しづらいと…… それ⾃体は悪いことではない低レベルの挙動は抽象化されていたほうが、⾼レベルの意図を理解しやすい気をつけないと、効率の悪い処理になる場合がある DB 処理は ActiveRecord -> SQL
-> 実⾏計画と 2 段階に翻訳されるので、より把握しづらいパフォーマンス悪化や、最悪応答不能になることも

パフォーマンスの計測・改善をしよう！

アジェンダパフォーマンスの計測 DB 処理のチューニング CPU 処理のチューニングケーススタディまとめ

パフォーマンスを改善するには問題がどこにあるか分析する必要がある

パフォーマンスに影響を与える要素 CPU フロントエンドサーバサイド⼊出⼒データベースファイルネットワーク

パフォーマンスに影響を与える要素 CPU フロントエンドサーバサイド⼊出⼒データベース ← だいたいここが問題ファイルネットワーク

APM (Application Monitoring Management) https://www.skylight.io/support/skylight-guides

APM ツールでわかることどのエンドポイントが重いか https://www.skylight.io/support/skylight-guides

APM ツールでわかることどの処理やクエリに時間がかかっているか https://www.skylight.io/support/skylight-guides

とりあえず好きなAPM ツールを導⼊するのがオススメ ( 定期的に⾒よう！)

重いクエリの要因は⾊々あるが、特に重くなりやすい3 つを取り上げる

重いクエリ三銃⼠ N+1 FULL SCAN Filesort

MySQL の気持ちになって考えてみよう ※ MySQL 以外を使ってる⼈は「XXX( 任意のRDBMS) の気持ちになって」と読み替えてください

FULL SCAN( テーブルフルスキャン) N+1 FULL SCAN Filesort

FULL SCAN の例 id speaker start_time end_time 1 tenderlove 10:10
10:40 2 kokuyouwind 10:50 11:10 3 toshimaru 11:10 11:30 4 lulalala 11:30 11:40 5 beta_chelsea 12:40 12:50 6 makicamel 12:50 13:10 sessions

FULL SCAN の例ジョーカー(joker1007) さんのセッション開始時刻はいつ？ SELECT start_time FROM sessions
WHERE speaker = "joker1007"; 1 2 3 Sessions.find_by(speaker: 'joker10 .pluck(:start_time) 1 2

FULL SCAN の例 id speaker start_time end_time 1 tenderlove 10:10
10:40 2 kokuyouwind 10:50 11:10 3 toshimaru 11:10 11:30 4 lulalala 11:30 11:40 5 beta_chelsea 12:40 12:50 6 makicamel 12:50 13:10 発表者名を順に全部⾒る( テーブルフルスキャン)

100 万件あったら 100 万件全部読む( かもしれない) 死

インデックスをつけよう

インデックスのイメージ索引 speaker id b beta_chelsea 5 f fukajun 11
j joker1007 17 k koic 16 kokuyouwind 2 l lulalala 4 index(speaker on sessions)

インデックスのイメージ索引 speaker id b beta_chelsea 5 f fukajun 11
j joker1007 17 k koic 16 kokuyouwind 2 l lulalala 4 j から始まるspeaker を⼀発で⾒つける

インデックスのイメージ索引 speaker id j joker1007 17 ID からレコードを⾒つけてstart_time を⾒つける
id speaker start_time end_time 16 koic 16:20 16:40 17 joker1007 16:40 17:00 18 a_matsuda 17:10 17:40

FULL SCAN しなくなった

Filesort N+1 FULL SCAN Filesort

Filesort の例 id event_id speaker start_time end_time 1 1 tenderlove
11:45 12:10 2 2 tenderlove 10:10 10:40 3 2 koic 16:20 16:40 4 1 koic 14:00 14:25 5 2 kokuyouwind 10:50 11:10 id name 1 RubyKaigi Takeout 2020 2 Kaigi on Rails events sessions

Filesort の例 Kaigi on Rails のセッションを開始時刻順で教えて？ SELECT * FROM
events WHERE name = 'Kaigi on Rails'; SELECT * FROM sessions WHERE event_id = 2 ORDER BY start_time ASC; 1 2 3 4 5 6 Events.find_by(name: 'Kaigi on Rai .sessions.order(:start_time) 1 2

Filesort の例索引 event_id id 1 1 1 1 4
2 2 2 2 3 2 5 id name 1 RubyKaigi Takeout 2020 2 Kaigi on Rails events index (event_id on sessions)

Filesort の例 id event_id speaker start_time end_time 2 2 tenderlove
10:10 10:40 3 2 koic 16:20 16:40 5 2 kokuyouwind 10:50 11:10 sessions index (event_id on sessions) 索引 event_id id 2 2 2 2 3 2 5 ↑ 順に並んでいない！

Filesort の例 id speaker start_time end_time 2 tenderlove 10:10 10:40
3 koic 16:20 16:40 5 kokuyouwind 10:50 11:10 id speaker start_time end_time 2 tenderlove 10:10 10:40 5 kokuyouwind 10:50 11:10 3 koic 16:20 16:40 ⾒つけたレコードをstart_time 順にメモリ上で並べ替える！ (Filesort)

LIMIT で件数を制限しても、全件(100 万件かも) を読み込んで並び替えないと返せない死

処理順に合わせて複合インデックスをつけよう

複合インデックスの例索引 event_id start_time id (1, 11) 1 11:45 1
(1, 14) 1 14:00 4 (2, 10) 2 10:10 2 2 10:50 5 (2, 16) 2 16:20 3 index (event_id, start_time on sessions) ↑ event_id とstart_time を組み合わせた索引

複合インデックスの例索引 event_id start_time id (2, 10) 2 10:10 2
2 10:50 5 (2, 16) 2 16:20 3 index (event_id, start_time on sessions) id speaker start_time end_time 2 tenderlove 10:10 10:40 5 kokuyouwind 10:50 11:10 3 koic 16:20 16:40 sessions start_time でソート済みの状態で取れる！

filesort しなくなった

複合インデックス( 悪い例) 索引 start_time event_id id (10, 2) 10:10 2
1 10:50 2 4 (11, 1) 11:45 1 2 (14, 1) 14:00 1 5 (16, 2) 16:20 2 3 index (start_time, event_id on sessions) ↑ start_time が先だと、 event_id=2 を索引から探せない！

複合インデックス( 悪い例) 索引 start_time speaker id (10:10, t) 10:10 tenderlove
1 (10:50, k) 10:50 kokuyouwind 2 (11:10, t) 11:10 toshimaru 3 (11:30, l) 11:30 lulalala 4 index (start_time, speaker on sessions) start_time だけで昇順に並ぶため、speaker はソートされない必要ならam/pm 区分カラムなどを作る必要がある Sessions.where(start_time: '0:00'..'12 .order_by(:speaker) 1 2

N+1 クエリ N+1 FULL SCAN Filesort

N+1 クエリの例イベントごとに、イベント名とセッションの発表者を表示して？ SELECT * FROM events; SELECT *
FROM sessions WHERE event_id SELECT * FROM sessions WHERE event_id 1 2 3 4 Events.each do |event| p event.name event.sessions.each { p _1.speake end 1 2 3 4

N+1 クエリの例イベントが100 個あると… SELECT * FROM events; -- =>
100 個のイベント SELECT * FROM sessions WHERE event_id = 1 SELECT * FROM sessions WHERE event_id = 2 SELECT * FROM sessions WHERE event_id = 3 -- ... SELECT * FROM sessions WHERE event_id = 9 SELECT * FROM sessions WHERE event_id = 1 1 2 3 4 5 6 7 8 9

SQL クエリを繰り返し⼤量に発⾏する死… ぬほどではないけどめっちゃ重い

includes をつかおう

includes の例 SELECT * FROM events; -- => 100 個のイベント
SELECT * FROM sessions WHERE event_id IN (1, 2, . 1 2 3 4 Events.includes(:sessions).each do |e p event.name event.sessions.each { p _1.speaker end 1 2 3 4 クエリ2 回で完了！

N+1 クエリしなくなった

問題の⾒極め⽅ APM などで時間のかかっているクエリを特定する

問題の⾒極め⽅ 1 クエリで時間がかかっている場合、EXPLAIN を⾒る type に "ALL" や "index" がいたらFULL
SCAN type がref などで、key が使われてればOK ！

問題の⾒極め⽅ extras に "Using ﬁlesort" がいたらFilesort "Using ﬁlesort" が消えればOK ！
1 クエリで時間がかかっている場合、EXPLAIN を⾒る

問題の⾒極め⽅ APM で同じクエリが何回も流れていたらN+1 クエリを疑う NewRelic は呼び出し回数を教えてくれる https://docs.newrelic.com/docs/apm/transactions/transaction-traces/transaction-traces-database-queries-page Skylight は
マークを付けてくれる https://www.skylight.io/support/performance-tips#repeated-queries

CPU 処理のチューニング「単独で重い処理」はそんなに多くない軽い処理でも繰り返し回数が多いと重くなる以下のコードはA, B がそれぞれ1,000 件の配列だと member? 内の⽐較処理を1,000,000
回呼び出す ( ⽐較処理が1 ナノ秒の処理でも1 秒かかる) A.filter { B.member?(_1 1

対策1: データ構造とアルゴリズムの⾒直し Array は全件探索になりやすいデータ構造「キーから値を探す」ならHash 「共通部分や差分を取る」ならSet RDB やRedis などのミドルウェア側で処理する⼿もアルゴリズムを⾒直すことで効率が良くなる可能性
⼀般的なアルゴリズムを調べるループを早く打ち切れるように処理順を変える

対策2: メモ化・キャッシュを利⽤する同じ処理が何度も⾏われる場合に効果的リクエストごとで⼗分ならメモ化リクエストを跨いで保持したいならRails キャッシュ根本的解決ではないため注意が必要初回処理時は重い( 必要ならキャッシュを温める) 古いキャッシュがバグを起こすこともあるので
キャッシュキーの選定には熟慮が必要

ケース1: 関連⽂書の取得請求書から、関連⽂書 ( 変換した・された⾒積書・納品書) を取る際に N+1 が発⽣していた

ケース1: 関連⽂書の取得任意の2 要素に関連を持たせるため、クラス名とID から⾃⼒でLookup していた FromType FromID ToType
ToID Estimate 1 Invoice 1 Invoice 1 DeliverySlip 1 Invoice 1 DeliverySlip 2 def converted_docs DocumentConversion .find_by(from_type: 'Invoice', fro .map do |doc| doc.to_type.constantize.find(doc end end 1 2 3 4 5 6 7

ケース1: 関連⽂書の取得ポリモーフィック関連付けに書き換え、 includes を指定できるようにした class Invoice has_many :document_conversions, as:
:source_docu has_many :converted_delivery_slips, through: :document_conversions, source: :converted_document, source_type: 'DeliverySlip' end # usage Invoice.all.includes(:converted_delivery_slips) 1 2 3 4 5 6 7 8 9 10

ケース2: PDF 変換 gem を更新したら PDF ⽣成処理が急に重くなったブログ記事: https://tech.misoca.jp/entry/2020/06/12/110000

ケース2: PDF 変換 stackprof を使って調査した結果、gem 内から CompareWithRange#cover? が⼤量に呼ばれていた

ケース2: PDF 変換 def group_original_code_points_by_bit(os2) Hash.new { |h, k| h[k]
= [] }.tap do |result| os2.file.cmap.unicode.first.code_map.each_key do |co # === ↓2 重ループ内で cover? を呼んでいる！！！ === range = UNICODE_RANGES.find { |r| r.cover?(code_po # ... 1 2 3 4 5 6 7 8 https://github.com/prawnpdf/ttfunk/blob/1.6.2.1/lib/ttfunk/table/os2.rb#L273-L275

ケース2: PDF 変換アルゴリズムを変えて、 cover? の呼び出しを減らすPull Request を送った ( 未マージ)
https://github.com/prawnpdf/ttfunk/pull/83

まとめパフォーマンス改善には、まず計測からとりあえずAPM ツールを⼊れて、定期的に⾒よう重いDB クエリはEXPLAIN してインデックスを貼ろう FULL SCAN やﬁlesort
は重いので倒そう複合インデックスは効き⽅を想像して貼ろう N+1 クエリが発⽣しないようincludes しよう CPU 処理の問題は、プロファイラで根本原因を調査しようデータ構造やアルゴリズムを⾒直せないか考えよう

Railsパフォーマンス・チューニング入門

Railsパフォーマンス・チューニング入門

More Decks by kokuyouwind

Other Decks in Programming

Featured

Transcript