ActiveRecordでの大量データとの付き合い方 / How to handle a lot of records with ActiveRecord

ActiveRecordでの⼤量データとの付き合い⽅ @yuji_developer 2019/08/30 Special Thanks: Tomohiko Mimura

⽬次プロフィール話すこと／話さないこと ActiveRecordの基本的な話 ActiveRecordでのバッチ処理の基本的な話メモリー使⽤量を削減する話関連Gemsの話失敗談その1 失敗談その2 まとめ
2

プロフィール Yuji Hanamura Ruby/Rails programmer https://github.com/yujideveloper 3

話すこと Ruby on Rails 5.2.3時点の話 ActiveRecordと関連Gemの話 ActiveRecordで数⼗万〜数億レコードくらいを扱ってきた経験の話話さないこと設計の話 SQLチューニングの話
Rubyコードのチューニングの話 ActiveRecord使わないようにする話計測の話 4

ActiveRecordの基本的な話 5

ActiveRecordとは Ruby on Rails標準のORM Active Recordパターンを実装しているテーブルとクラスが⼀対⼀レコードとオブジェクトが⼀対⼀ https://railsguides.jp/active_record_basics.html 6

レコードを作成するコードの例 Account のインスタンスを作って値を設定して save! するとDBに保存される account = Account.new account.name =
"John Doe" account.email = "[email protected]" account.is_active = true account.save! 7

１件のレコードを取得するコードの例指定した条件でDBからレコードを取得して Account のインスタンスにして返す account = Account.find_by!(email: "[email protected]") 8

複数件のレコードを取得するコードの例以下のコードは1⾏⽬の時点ではクエリーは発⾏されない ActiveRecord::Relation ( Account::ActiveRecord_Relation ) のインスタンスが返る 2⾏⽬の accounts.each
で Account のインスタンスが必要になるのでクエリーが発⾏される作成された Account のインスタンスは Account::ActiveRecord_Relation 内にキャッシュされる 5⾏⽬の accounts.each では Account のインスタンスがキャッシュ済みなのでクエリーは発⾏されない accounts = Account.where(is_active: true) accounts.each do |account| # do something end accounts.each do |account| # do something end 9

ActiveRecordでのバッチ処理の基本的な話 10

ActiveRecord::Batches のメソッド群を使う ActiveRecord::Batches#find_each ActiveRecord::Batches#find_in_batches ActiveRecord::Batches#in_batches 11

find_each 1レコードずつ処理する場合に使⽤するデフォルトでは1000件ずつメモリーにロードしてクラスのインスタンスを1件ずつブロックに渡す例: 1アカウント毎にメール送信 Account.where(is_active: true).find_each do |account|
account.send_mail_magazine end SELECT "accounts".* FROM "accounts" WHERE "accounts"."is_active" = 1 ORDER BY "accounts"."id" ASC LIMIT 1000 SELECT "accounts".* FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" > 1943 ORDER BY "accounts"."id" ASC LIMIT 1000 12

find_in_batches 複数レコードをまとめて処理したい場合に使⽤するデフォルトでは1000件ずつメモリーにロードしてクラスのインスタンスの配列をブロックに渡す例: 1000件ごとにトランザクションかけて処理する Account.where(is_active: true).find_in_batches do |accounts|
Account.transaction do accounts.each do |account| # do something end end end SELECT "accounts".* FROM "accounts" WHERE "accounts"."is_active" = 1 ORDER BY "accounts"."id" ASC LIMIT 1000 BEGIN ... COMMIT SELECT "accounts".* FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" > 1943 ORDER BY "accounts"."id" ASC LIMIT 1000 BEGIN ... COMMIT 13

in_batches レコード群ごとにクエリーを発⾏したい場合に使⽤するデフォルトで1000件ずつ処理するActiveRecord::Relationをブロックに渡す例: 1000件ごとにUPDATEクエリーを発⾏する Account.where(is_active: true).in_batches do |account_relation| #
account_relationはAccount::ActiveRecord_Relationのインスタンス account_relation.update_all(is_active: false, updated_at: Time.current) end SELECT "accounts"."id" FROM "accounts" WHERE "accounts"."is_active" = 1 ORDER BY "accounts"."id" ASC LIMIT 1000 UPDATE "accounts" SET "is_active" = 0, "updated_at" = '2019-08-28 14:57:06.163225' WHERE "accounts"."is_active" = 1 AND "accounts"."id" IN (4, 5, ..., 1942, 1943) SELECT "accounts"."id" FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" > 1943 ORDER BY "accounts"."id" ASC LIMIT 1000 UPDATE "accounts" SET "is_active" = 0, "updated_at" = '2019-08-28 14:57:06.192346' WHERE "accounts"."is_active" = 1 AND "accounts"."id" IN (1946, 1949, ..., 2495, 2500) 14

メモリー使⽤量を削減する話 15

ActiveRecord::Calculations#pluck を使う pluck を使うことでAccountクラスのインスタンスを作らずにカラムの値だけ読み込むことができる⽣SQLとは違い型変換は⾏われる Account.where(is_active: true).in_batches do |accounts|
accounts.pluck(:name, :email).each do |name, email| # do something end end SELECT "accounts"."id" FROM "accounts" WHERE "accounts"."is_active" = 1 ORDER BY "accounts"."id" ASC LIMIT 1000 SELECT "accounts"."name", "accounts"."email" FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" IN (1, 3, ..., 2056, 2059) SELECT "accounts"."id" FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" > 2059 ORDER BY "accounts"."id" ASC LIMIT 1000 SELECT "accounts"."name", "accounts"."email" FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" IN (2061, 2062, ..., 2499, 2500) 16

pluck と Struct を組み合わせて使う pluck の結果はそのままだと扱いにくい普通の2次元配列（1次元の場合もあるが） Struct で軽量なクラスを作って使⽤する SimpleAccount
= Struct.new(:name, :email) Account.where(is_active: true).in_batches do |account_relation| accounts = account_relation.pluck(:name, :email).map! { |columns| SimpleAccount.new(*columns) } accounts.each do |account| # do something end end SELECT "accounts"."id" FROM "accounts" WHERE "accounts"."is_active" = 1 ORDER BY "accounts"."id" ASC LIMIT 1000 SELECT "accounts"."name", "accounts"."email" FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" IN (1, 3, ..., 2056, 2059) SELECT "accounts"."id" FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" > 2059 ORDER BY "accounts"."id" ASC LIMIT 1000 SELECT "accounts"."name", "accounts"."email" FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" IN (2061, 2062, ..., 2499, 2500) 17

なぜ Struct なのか︖ 組み込みライブラリーオブジェクトっぽく扱いたい Hash だとコードを追わないと構造がわかりにくい Hash はtypoに弱いお⼿軽に定義できる
POROでもいいけどちょっと定義が⾯倒任意のメソッドを追加できるそこそこ⾼速似たようなクラスに OpenStruct があるが遅い OpenStruct は Hash 同様にtypoに弱い 18

関連Gemsの話 19

Bluk insert ActiveRecord-Import gemを使う Rails 6.0からは insert_all や upsert_all など標準で機能が提供されるよう
になった Account.bulk_import accounts INSERT INTO "accounts" ("id","name","email","is_active","created_at","updated_at","created_by","updated_by") VALUES (NULL,'new account 0','[email protected]',NULL,'2019-08-28 15:05:13.555747','2019-08-28 15:05:13.555747',NULL,NULL), (NULL,'new account 1','[email protected]',NULL,'2019-08-28 15:05:13.555747','2019-08-28 15:05:13.555747',NULL,NULL), (NULL,'new account 2','[email protected]',NULL,'2019-08-28 15:05:13.555747','2019-08-28 15:05:13.555747',NULL,NULL), (NULL,'new account 3','[email protected]',NULL,'2019-08-28 15:05:13.555747','2019-08-28 15:05:13.555747',NULL,NULL), (NULL,'new account 4','[email protected]',NULL,'2019-08-28 15:05:13.555747','2019-08-28 15:05:13.555747',NULL,NULL), (NULL,'new account 5','[email protected]',NULL,'2019-08-28 15:05:13.555747','2019-08-28 15:05:13.555747',NULL,NULL), (NULL,'new account 6','[email protected]',NULL,'2019-08-28 15:05:13.555747','2019-08-28 15:05:13.555747',NULL,NULL), (NULL,'new account 7','[email protected]',NULL,'2019-08-28 15:05:13.555747','2019-08-28 15:05:13.555747',NULL,NULL), (NULL,'new account 8','[email protected]',NULL,'2019-08-28 15:05:13.555747','2019-08-28 15:05:13.555747',NULL,NULL), (NULL,'new account 9','[email protected]',NULL,'2019-08-28 15:05:13.555747','2019-08-28 15:05:13.555747',NULL,NULL) 20

並列処理 Parallel gemを使う Parallel.each(Account.where(is_active: true).in_batches, in_threads: 10) do |account_relation| ActiveRecord::Base.connection_pool.with_connection
do account_relation.update_all(is_active: false, updated_at: Time.current) end end SELECT "accounts"."id" FROM "accounts" WHERE "accounts"."is_active" = 1 ORDER BY "accounts"."id" ASC LIMIT 1000 SELECT "accounts"."id" FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" > 2059 ORDER BY "accounts"."id" ASC LIMIT 1000 ... SELECT "accounts"."id" FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" > 22232 ORDER BY "accounts"."id" ASC LIMIT 1000 UPDATE "accounts" SET "is_acive" = 0, "updated_at" = '2019-08-29 15:26:53.659967' WHERE "accounts"."is_active" = 1 AND "accounts"."id" IN (1, 3, ..., 2056, 2059) ... UPDATE "accounts" SET "is_active" = 0, "updated_at" = '2019-08-29 15:27:23.589577' WHERE "accounts"."is_active" = 1 AND "accounts"."id" IN (4185, 4188, ..., 6154, 6158) UPDATE "accounts" SET "is_active" = 0, "updated_at" = '2019-08-29 15:27:23.907770' WHERE "accounts"."is_active" = 1 AND "accounts"."id" IN (20253, 20257, ..., 22231, 22232) 21

失敗談その1 22

何をしようとしたのか︖ Parallel gemと in_batches を使って並列で⼀気に処理しようとした Parallel.each(Account.where(is_active: true).in_batches, in_threads: 10) do
|accounts| ActiveRecord::Base.connection_pool.with_connection do accounts.each do |account| # do something end end end 23

何が起きたのか︖ Parallel.each は第⼀引数を配列に変換して保持する Account::ActiveRecord_Relation の配列が保持される ActiveRecord::Relation はインスタンスが必要になったタイミングでレコードをロードしてキャッシュする処理対象の数百万件のレコードがすべてモデルのインスタンスになってメモリー上に載ってしまった
結果としてメモリー不⾜で処理が詰まりOOMKillerの餌⾷になった SELECT "accounts"."id" FROM "accounts" WHERE "accounts"."is_active" = 1 ORDER BY "accounts"."id" ASC LIMIT 1000 SELECT "accounts"."id" FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" > 2059 ORDER BY "accounts"."id" ASC LIMIT 1000 ... SELECT "accounts"."id" FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" > 20252 ORDER BY "accounts"."id" ASC LIMIT 1000 SELECT "accounts"."id" FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" > 22232 ORDER BY "accounts"."id" ASC LIMIT 1000 SELECT "accounts".* FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" IN (1, 3, ..., 2056, 2059) SELECT "accounts".* FROM "accounts" WHERE "accounts"."is_active" = 1 AND "accounts"."id" IN (2061, 2062, ..., 4183, 4184) ... 24

どうやって解決したか最初に処理対象のレコードの id をメモリーにロードロードした処理対象の id を each_slice で分割して少しずつ読み込みながら処理した
account_ids = Account.where(is_active: true).pluck(:id) Parallel.each(account_ids.each_slice(1000), in_threads: 10) do |ids| ActiveRecord::Base.connection_pool.with_connection do Account.where(id: ids).each do |account| # do something end end end 25

他に考えた案 ActiveRecord::Relation#spawn を使う未確認だが clone されて別インスタンスになるのでキャッシュされる先が変わるはず 26

失敗談その2 27

何をしようとしたのか︖ 他テーブルとJOINしてフィルターしながら更新処理をしようとした Favorite.where(is_public: false).joins(:account).merge(Account.where(is_active: true)).in_batches do |favorites| favorites.update_all(is_public: true, updated_at:
Time.current) end 28

何が起きたのか︖ 予想よりもだいぶ遅かった in_batches の対象選択クエリーでJOINするとJOIN対象のレコード数が多くなる in_batches の対象選択と更新とそれぞれでJOINが⾏われた SELECT "favorites"."id" FROM "favorites"
INNER JOIN "accounts" ON "accounts"."id" = "favorites"."account_id" WHERE "favorites"."is_public" = 0 AND "accounts"."is_active" = 1 ORDER BY "favorites"."id" ASC LIMIT 1000 UPDATE "favorites" SET "is_public" = 1, "updated_at" = '2019-08-29 11:34:41.676789' WHERE "favorites"."id" IN ( SELECT "favorites"."id" FROM "favorites" INNER JOIN "accounts" ON "accounts"."id" = "favorites"."account_id" WHERE "favorites"."is_public" = 0 AND "accounts"."is_active" = 1 AND "favorites"."id" IN (1, 2, ..., 2034, 2036) ) SELECT "favorites"."id" FROM "favorites" INNER JOIN "accounts" ON "accounts"."id" = "favorites"."account_id" WHERE "favorites"."is_public" = 0 AND "accounts"."is_active" = 1 AND "favorites"."id" > 2036 ORDER BY "favorites"."id" ASC LIMIT 1000 UPDATE "favorites" SET "is_public" = 1, "updated_at" = '2019-08-29 11:34:41.676789' WHERE "favorites"."id" IN ( SELECT "favorites"."id" FROM "favorites" INNER JOIN "accounts" ON "accounts"."id" = "favorites"."account_id" WHERE "favorites"."is_public" = 0 AND "accounts"."is_active" = 1 AND "favorites"."id" IN (2041, 2043, ..., 4002, 4005) ) ... 29

どうやって解決したか in_batches のブロック内で joins するように変更したブロック内でJOINすれば主キーで対象が絞られた状態でJOINするので対象レコード数が少なくなる Favorite.where(is_public: false).in_batches do
|favorites| favorites.joins(:account).merge(Account.where(is_active: true)).update_all(is_public: true, updated_at: Time.current) end 30

まとめ ActiveRecordのクラスのインスタンス⽣成は重い⼤量データを扱うときは ActiveRecord::Batches のメソッド群を使い分ける pluck や Struct を使ってメモリー消費を抑える⽤法容量を守る
レコード数が少ないのが分かり切っているのに find_each などを使わない︕ pluck などを多⽤して可読性を落とさないように注意︕ 実際にどういうクエリーが発⾏されるのかを確認しながら開発するの⼤事 31

ActiveRecordでの大量データとの付き合い方 / How to handle a lo...

ActiveRecordでの大量データとの付き合い方 / How to handle a lot of records with ActiveRecord

Yuji Hanamura

More Decks by Yuji Hanamura

Other Decks in Programming

Featured

Transcript

ActiveRecordでの⼤量データとの付き合い⽅ @yuji_developer 2019/08/30 Special Thanks: Tomohiko Mimura

⽬次プロフィール話すこと／話さないこと ActiveRecordの基本的な話 ActiveRecordでのバッチ処理の基本的な話メモリー使⽤量を削減する話関連Gemsの話失敗談その1 失敗談その2 まとめ

プロフィール Yuji Hanamura Ruby/Rails programmer https://github.com/yujideveloper 3

話すこと Ruby on Rails 5.2.3時点の話 ActiveRecordと関連Gemの話 ActiveRecordで数⼗万〜数億レコードくらいを扱ってきた経験の話話さないこと設計の話 SQLチューニングの話

ActiveRecordの基本的な話 5

ActiveRecordとは Ruby on Rails標準のORM Active Recordパターンを実装しているテーブルとクラスが⼀対⼀レコードとオブジェクトが⼀対⼀ https://railsguides.jp/active_record_basics.html 6

レコードを作成するコードの例 Account のインスタンスを作って値を設定して save! するとDBに保存される account = Account.new account.name =

１件のレコードを取得するコードの例指定した条件でDBからレコードを取得して Account のインスタンスにして返す account = Account.find_by!(email: "[email protected]") 8

複数件のレコードを取得するコードの例以下のコードは1⾏⽬の時点ではクエリーは発⾏されない ActiveRecord::Relation ( Account::ActiveRecord_Relation ) のインスタンスが返る 2⾏⽬の accounts.each

ActiveRecordでのバッチ処理の基本的な話 10

ActiveRecord::Batches のメソッド群を使う ActiveRecord::Batches#find_each ActiveRecord::Batches#find_in_batches ActiveRecord::Batches#in_batches 11

find_each 1レコードずつ処理する場合に使⽤するデフォルトでは1000件ずつメモリーにロードしてクラスのインスタンスを1件ずつブロックに渡す例: 1アカウント毎にメール送信 Account.where(is_active: true).find_each do |account|

in_batches レコード群ごとにクエリーを発⾏したい場合に使⽤するデフォルトで1000件ずつ処理するActiveRecord::Relationをブロックに渡す例: 1000件ごとにUPDATEクエリーを発⾏する Account.where(is_active: true).in_batches do |account_relation| #

メモリー使⽤量を削減する話 15

ActiveRecord::Calculations#pluck を使う pluck を使うことでAccountクラスのインスタンスを作らずにカラムの値だけ読み込むことができる⽣SQLとは違い型変換は⾏われる Account.where(is_active: true).in_batches do |accounts|

pluck と Struct を組み合わせて使う pluck の結果はそのままだと扱いにくい普通の2次元配列（1次元の場合もあるが） Struct で軽量なクラスを作って使⽤する SimpleAccount

なぜ Struct なのか︖ 組み込みライブラリーオブジェクトっぽく扱いたい Hash だとコードを追わないと構造がわかりにくい Hash はtypoに弱いお⼿軽に定義できる

関連Gemsの話 19

Bluk insert ActiveRecord-Import gemを使う Rails 6.0からは insert_all や upsert_all など標準で機能が提供されるよう

並列処理 Parallel gemを使う Parallel.each(Account.where(is_active: true).in_batches, in_threads: 10) do |account_relation| ActiveRecord::Base.connection_pool.with_connection

失敗談その1 22

何をしようとしたのか︖ Parallel gemと in_batches を使って並列で⼀気に処理しようとした Parallel.each(Account.where(is_active: true).in_batches, in_threads: 10) do

どうやって解決したか最初に処理対象のレコードの id をメモリーにロードロードした処理対象の id を each_slice で分割して少しずつ読み込みながら処理した

他に考えた案 ActiveRecord::Relation#spawn を使う未確認だが clone されて別インスタンスになるのでキャッシュされる先が変わるはず 26

失敗談その2 27

何をしようとしたのか︖ 他テーブルとJOINしてフィルターしながら更新処理をしようとした Favorite.where(is_public: false).joins(:account).merge(Account.where(is_active: true)).in_batches do |favorites| favorites.update_all(is_public: true, updated_at:

何が起きたのか︖ 予想よりもだいぶ遅かった in_batches の対象選択クエリーでJOINするとJOIN対象のレコード数が多くなる in_batches の対象選択と更新とそれぞれでJOINが⾏われた SELECT "favorites"."id" FROM "favorites"

どうやって解決したか in_batches のブロック内で joins するように変更したブロック内でJOINすれば主キーで対象が絞られた状態でJOINするので対象レコード数が少なくなる Favorite.where(is_public: false).in_batches do

まとめ ActiveRecordのクラスのインスタンス⽣成は重い⼤量データを扱うときは ActiveRecord::Batches のメソッド群を使い分ける pluck や Struct を使ってメモリー消費を抑える⽤法容量を守る