exists?で起きるN+1問題にSetで対処する

exists?で起きるN+1問題にSetで対処する 2021-07-21 株式会社リゾーム社内勉強会 @patorash

稀によくあるコード # CSVファイルの行数だけUser.exists?が実行されるやーつ csv.foreach do |row| name = row['名前'] age
= row['年齢'] hobby = row['趣味'] # User.find_or_create_by!とか言わないで… unless User.exists?(name: name, age: age, hobby: hobby) User.create!(name: name, age: age, hobby: hobby) end end

何が問題か？ • CSVファイルの⾏数だけexists?が実⾏される • exists?の1回の実⾏時間が仮に1msだったとしても、CSVが1,000⾏あれば1秒かかる。1万⾏あれば10秒、10万⾏あれば100秒…と増えていく • usersテーブルにデータがたくさんあると、exists?の時間は更にかかる • 1msではなく5msなら？
• 1,000⾏なら5秒、1万⾏なら50秒、10万⾏なら500秒

どうしてこんなことに… • 重複データを検知したいから

どうすれば… • とはいえ、重複しているかどうかは DBに問い合わせしなければわからないじゃないか！ • N回のクエリが発⽣するのも⽌むを得ない！

そう考えていた頃が私にもありました

標準ライブラリSetを使え！ • Setは、数学の集合を扱うクラス • 集合とは、重複のないオブジェクトの集まりです。Arrayの持つ演算機能とHash の⾼速な検索機能を合わせ持ちます。 Setは内部記憶としてHashを使うため、集合要素の等価性はObject.eql?と Object#hashを⽤いて判断されます。したがって、集合の各要素には、これらのメソッドが適切に定義されている必要があります。集合の順序は保証されません。
（Ruby リファレンスマニュアルより）

どういうこと？ • Setを使うと、配列の要素毎にhash関数が呼ばれて、それがkeyに設定された Hashを持つことになる。（内部的に） # これはつまり… set = Set.new(["a", "b"])
# 内部としてはこういう感じになっている hash = ["a", "b"].each_with_object({}) {|v, o| o[v.hash] = v } # => {690777552598146486=>"a", -2489798041940868951=>"b"} # これはつまり… set.include?("a") # => true # こういうこと。総当りせず、hash値がキーとヒットするかを調べるので速い hash.keys.include?("a".hash) # => true

つまり… • usersテーブルの内容を全て持ってきてSetに⼊れてしまえばN回発⾏されるクエリは必要ない！（富豪的発想） • なぜ富豪的？ • メモリにusersテーブルの全データを載せるから

修正後 # 事前に全データを取得して集合を作る user_data = User.in_batches.flat_map do |records| records.pluck(:name, :age,
:hobby) end.to_set # N回クエリが呼ばれなくなったやつ users = csv.map do |row| name = row['名前'] age = row['年齢'].to_i hobby = row['趣味'] # CSVの行には重複データがない前提 unless user_data.include?([name, age, hobby]) User.new(name: name, age: age, hobby: hobby) end end User.import!(users) # activerecord-importでバルクインサート

推測するな、計測せよ • ⽐較対象 • exists?（1万回クエリ呼ぶ） • Array#include?（全データをロードして線形探索。つまり、O(n)） • Set#include?（全データをロードしてハッシュ探索。つまり、O(1)） •
事前準備 • rails newしてsqlite3でusersテーブルに1万件登録 • 名前1..名前10000というデータ • 1万件の配列のデータで⽐較させる • 名前10001..名前20000というデータ。exists?やinclude?は必ずfalseとなる。

推測するな、計測せよ（結果） bin/rails runner script/benchmark.rb Warming up -------------------------------------- exists? 1.000 i/100ms
Array#include? 1.000 i/100ms Set#include? 1.000 i/100ms Calculating ------------------------------------- exists? 0.085 (± 0.0%) i/s - 1.000 in 11.734614s Array#include? 0.059 (± 0.0%) i/s - 1.000 in 17.012424s Set#include? 8.503 (± 0.0%) i/s - 43.000 in 5.064850s Comparison: Set#include?: 8.5 i/s exists?: 0.1 i/s - 99.78x (± 0.00) slower Array#include?: 0.1 i/s - 144.66x (± 0.00) slower

推測するな、計測せよ 1. Set#include?（全データをロードしてハッシュ探索） 2. exists?（1万回クエリ呼ぶ）・・・100倍遅い 3. Array#include?（全データをロードして線形探索）・・・145倍遅い

ご清聴ありがとうございました

exists?で起きるN+1問題にSetで対処する

exists?で起きるN+1問題にSetで対処する

patorash

More Decks by patorash

Other Decks in Technology

Featured

Transcript