Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Redisのメモリ溢れと戦った話 / tech-meetup2_akechi

85da685d91fda190e2e3162d0de248a4?s=47 Recruit
January 21, 2022

Redisのメモリ溢れと戦った話 / tech-meetup2_akechi

2022/01/20_RECRUIT TECH MEETUP #2での、明智の講演資料になります

85da685d91fda190e2e3162d0de248a4?s=128

Recruit

January 21, 2022
Tweet

More Decks by Recruit

Other Decks in Technology

Transcript

  1. Redisのメモリ溢れと戦った話 明智 那央

  2. 自己紹介:明智那央(あけちなお) 略歴 2015年新卒入社 2015年〜2017年:社内向け基盤の開発を担当 2017年〜2019年:『ホットペッパービューティー』の開発を担当 2019年〜2019年:『ホットペッパーグルメ』の開発を担当 202019年12月〜:SREチームリーダーに任用

  3. 本日お話したいこと Redisのメモリ溢れに対応する中で得たもの • Redisに関するナレッジ • リソース枯渇時の対応心得

  4. アジェンダ 1. Redisの導入 2. メモリ溢れの発生 3. メモリ溢れの再発 4. 恒久対応の検討 5.

    OSメモリの枯渇 6. 恒久対応の実施(不十分) 7. 突然のF/O 8. 恒久対応の実施
  5. ホットペッパーグルメのシステム構成 ORACLE Elasticsearch カスタマー クライアント DBはカスタマーとクライアント向けプ ロダクトで共用している

  6. セッション管理にRedisを導入 Redis導入の目的 • アクセス断を伴わないリリース方式への変更 ◦ stickysessionのため、Tomcat再起動時にセッションが破棄 されていた • DBの負荷軽減 ◦

    負荷が高いセッションの処理をDBから切り離し
  7. RAFTEL LB Redisのシステム構成 Application VIP(write/read) healthchecker healthchecker healthchecker sentinel sentinel

    sentinel Master Slave Slave replication healthcheck healthcheckで確認 ・Redis自体の生存 ・RedisがMasterであること ・stopfileがないこと load balance
  8. アジェンダ 1. Redisの導入 2. メモリ溢れの発生 3. メモリ溢れの再発 4. 恒久対応の検討 5.

    OSメモリの枯渇 6. 恒久対応の実施(不十分) 7. 突然のF/O 8. 恒久対応の実施
  9. Redisがメモリ上限を使い切る 導入後24日でメモリ上限に到達し、キーの削除処理が走り出した 影響:セッションが有効期限前に破棄される可能性がある メモリ上限:16GB ★導入日

  10. 対応:Redisのメモリ上限を引き上げ • 引き上げるメモリのサイジング ◦ 24日で16GBに到達したので、1日で0.67GB増えている ◦ 0.67(GB/日) * 30(日) *

    1.3(安全率) = 27GB • スペックがメモリ32GBだったので、同期に必要なメモリを確保するためにメ モリ64GBのサーバにスケールアップ
  11. Slaveに同期されない スケールアップ中にF/Oが発生し、その後Slaveに同期されなくなった 原因:同期に必要なメモリを確保できなかった healthchecker healthchecker healthchecker sentinel sentinel sentinel Master

    Slave Slave replication replication
  12. Slaveへの同期の仕組み healthchecker healthchecker healthchecker sentinel sentinel sentinel Master Slave Slave

    replication ①Masterノードでダンプファイ ルを出力する (バックグラウンド実行) ②出力したダンプファイルを Slaveノードに転送する ③Slaveノードでダンプファイル をメモリにロードする
  13. Slaveに同期されなかった理由 healthchecker healthchecker healthchecker sentinel sentinel sentinel Master Slave Slave

    replication ①Masterノードでダンプファイ ルを出力する (バックグラウンド実行) ②出力したダンプファイルを Slaveノードに転送する ③Slaveノードでダンプファイル をメモリにロードする cannot allocate memory
  14. 対応:swap領域の拡張 • swapをオンラインで拡張し、同期に必要なメモリを確保する • 拡張の流れ 1. swap割り当て用のディスクを確保する(ddコマンド) 2. 確保したディスクをswapファイルに変換する(mkswapコマンド) 3.

    swapファイルを有効化する(swaponコマンド)
  15. swap領域を拡張してスケールアップ再実施 swap領域を拡張することでSlaveに同期できるようになり、スケールアップ作 業は問題なく完了(使用量の増加によりメモリ上限を 33GBに引き上げ) healthchecker healthchecker healthchecker sentinel sentinel sentinel

    Master Slave Slave replication replication
  16. アジェンダ 1. Redisの導入 2. メモリ溢れの発生 3. メモリ溢れの再発 4. 恒久対応の検討 5.

    OSメモリの枯渇 6. 恒久対応の実施(不十分) 7. 突然のF/O 8. 恒久対応の実施
  17. Redisがメモリ上限を使い切る(再) 再びメモリ上限に到達し、キーの削除処理が走り出した 影響:セッションが有効期限前に破棄される可能性がある メモリ上限:33GB ★スケールアップ日

  18. “ Note that maxmemory should be set calculating the overhead

    that Redis has, other than data, and the fragmentation overhead. So if you think you have 10GB of free memory, set it to 8 or 9.” —Redisの公式ドキュメント https://redis.io/topics/admin ➡OSのfree memoryの8~9割に  設定すべきと解釈
  19. 対応:Redisのメモリ上限を引き上げ(再) • 引き上げるメモリのサイジング ◦ Redisが確保しているメモリは33GB ◦ OSのfree memoryは17GB ◦ free

    memory(33+17) * 0.9 = 45GB • Slaveへの同期にはRedisと同じメモリ量が必要になるため、 swap領域も拡張
  20. Redisのメモリ上限を引き上げ メモリ上限の引き上げ作業は問題なく完了 healthchecker healthchecker healthchecker sentinel sentinel sentinel Master Slave

    Slave replication replication
  21. 再びメモリ上限に到達し、キーの削除処理が走り出した 影響:セッションが有効期限前に破棄される可能性がある Redisがメモリ上限を使い切る(再) メモリ上限:45GB

  22. アジェンダ 1. Redisの導入 2. メモリ溢れの発生 3. メモリ溢れの再発 4. 恒久対応の検討 5.

    OSメモリの枯渇 6. 恒久対応の実施(不十分) 7. 突然のF/O 8. 恒久対応の実施
  23. Redisに格納しているデータ セッション名 有効期間 用途 memory 短期 予約遷移でのデータ引き回し token 短期 セキュリティ関連対策のトークン

    permanentdb 長期 オートログイン判定 info 長期 有効期間を制御するためのメタ情報
  24. Redisに格納されているデータの分析 • どこに手を打つべきなのかを明確にするために、各セッションの メモリ使用量を把握する必要がある • 分析方法 ◦ redis-rdb-toolsを使って、ダンプファイルからメモリ使用量を 算出する

  25. redis-rdb-tools • Redisのダンプファイルを解析するためのPythonツール • 主な機能 ◦ メモリレポートを生成する←今回はこれ目的で使用 ◦ ダンプファイルをJSONに変換する ◦

    標準diffツールを使ってダンプファイルを比較する
  26. Redisに格納されているデータの分析結果 • infoはキーの登録数・データ量がともに最も多く占めている • Redisのメモリ使用量とダンプデータのサイズが大きく乖離している セッション名 有効 期間 登録数 データ量

    件数 割合(%) サイズ(GB) 割合(%) memory 短期 58883 0.08 0.11 0.60 token 短期 5082154 6.22 3.41 18.77 permanentdb 長期 966779 1.18 0.79 4.34 info 長期 75551260 92.52 13.86 76.28 合計 81659079 100 18.17 100 有効期限切れのキーが 削除されていない?
  27. Redisの有効期限切れキーの削除アルゴリズム • passive wayとactive wayの2つの方法で有効期限切れキーの 削除を行う • active way:1秒間に10回下記の処理を実行する 1.

    有効期限が設定されているキーを20個サンプリングする 2. サプリングしたキーの中で有効期限切れキーを削除する 3. 有効期限切れキーが25%(5個)より多ければステップ1に戻る →有効期限切れキーの割合は25%以下になるはず
  28. 有効期限切れキーが多い理由(仮説) • 有効期限の長いinfoキーがほとんどの割合を占めているので、 有効期限の短いmemoryやtokenがサンプリングされる確率が 低く、結果として有効期限は切れているが削除されていない • 有効期限の異なるキーが混在していることが問題

  29. 削除アルゴリズムをソースコードでも確認 わかったこと • RedisのDB毎に削除アル ゴリズムが実行される

  30. 対応:RedisのDBを分離 キーの有効期間に応じてRedisのDBを分離することで、有効期限切れキーの 削除を促進する memory token permanentdb info permanentdb info memory

    token 分離
  31. permanentdbとinfoの有効期限が切れ始めるあたりからデータが 平準化されるが、55GB(最大75GB)程度必要になる Redis DB分離の効果見立て(分離前) セッション名 有効期間 1分あたりの発行数 memory 短期 850

    token 短期 1765 permanentdb 長期 22 info 長期 2637
  32. infoが増加し終わったあたりからデータが平準化され、38GB程度必要になる Redis DB分離の効果見立て(分離後) セッション名 有効期間 1分あたりの発行数 memory 短期 850 token

    短期 1765 permanentdb 長期 22 info 長期 2637
  33. アジェンダ 1. Redisの導入 2. メモリ溢れの発生 3. メモリ溢れの再発 4. 恒久対応の検討 5.

    OSメモリの枯渇 6. 恒久対応の実施(不十分) 7. 突然のF/O 8. 恒久対応の実施
  34. ホストのメモリ使用率が95%に到達した ホストのメモリ使用率が警告域に 95%

  35. 対応:Redisのメモリ上限を引き下げ • メモリ上限を45GBから40GBに引き下げることで、Redisが 使用するメモリ量を削減する • セッションが有効期限前に破棄される可能性があるが、今も 起きていることなのでOSメモリ枯渇の解消を優先

  36. F/Oが発生しSlaveに同期されない メモリ上限引き下げ時にF/Oが発生し、Slaveに同期されなくなった 原因:同期に必要なメモリを確保できなかった healthchecker healthchecker healthchecker sentinel sentinel sentinel Master

    Slave Slave replication replication
  37. 対応:swap領域の拡張(再) • swapをオンラインで拡張し、同期に必要なメモリを確保する • 拡張の流れ 1. swap割り当て用のディスクを確保する(ddコマンド) 2. 確保したディスクをswapファイルに変換する(mkswapコマンド) 3.

    swapファイルを有効化する(swaponコマンド)
  38. swap拡張してもSlaveに同期されない swap領域を拡張しても、Slaveに同期されなくなった 原因:同期に必要なメモリを確保できなかった healthchecker healthchecker healthchecker sentinel sentinel sentinel Master

    Slave Slave replication replication
  39. 対応:有効期限切れキーを削除 • 有効期限切れキーを削除することで、Redisが使用するメモリ量を 削減する ◦ scanコマンドを使ったpassive wayで削除する • コンテプラン 1.

    overcommit_memoryを有効化する a. Redisの推奨設定だが、OOM Killerによるプロセス強制削除の リスクがある 2. セッションデータを全て破棄する a. 最悪の場合に備えて事業調整
  40. 有効期限切れキーを削除してSlave復旧 有効期限切れキーの削除とovercommit_memoryを有効化することで Slaveへの同期されるようになった healthchecker healthchecker healthchecker sentinel sentinel sentinel Master

    Slave Slave replication replication
  41. アジェンダ 1. Redisの導入 2. メモリ溢れの発生 3. メモリ溢れの再発 4. 恒久対応の検討 5.

    OSメモリの枯渇 6. 恒久対応の実施(不十分) 7. 突然のF/O 8. 恒久対応の実施
  42. Redis DB分離の実施 • 実装としてはdiconファイルの変更のみ • テストで分離後も問題ないことを確認して、リリースへ

  43. Redisに登録されているキーの数が大幅に増えているので、想定通り有効期限 切れキーの削除は行われているが、その分新しいキーが登録されている Redis DB分離の効果 DB分離実施日 ★ DB分離後に二千万件程度増加している

  44. アジェンダ 1. Redisの導入 2. メモリ溢れの発生 3. メモリ溢れの再発 4. 恒久対応の検討 5.

    OSメモリの枯渇 6. 恒久対応の実施(不十分) 7. 突然のF/O 8. 恒久対応の実施
  45. F/Oが発生しSlaveに同期されない(再) F/Oが発生し、Slaveに同期されなくなった 原因:同期に必要なメモリを確保できなかった healthchecker healthchecker healthchecker sentinel sentinel sentinel Master

    Slave Slave replication replication
  46. 対応:overcommit_memoryを有効化(再) • overcommit_memoryを有効化して、同期に必要なメモリを 確保できるようにする

  47. Slaveに同期されない overcommit_memoryを有効化しても、Slaveに同期されない 原因:ダンプファイルを出力するプロセスがOOM Killerに殺される healthchecker healthchecker healthchecker sentinel sentinel sentinel

    Master Slave Slave replication replication
  48. 対応:Redisプロセスの再起動 • Redisのプロセスを再起動することにより、Redisが使用する メモリ量を削減する • 作業手順 1. sentinelのMasterがダウンしたと判断する時間を伸ばす(F/O防止) 2. 有効期限切れキーを削除する(使用メモリ量を事前に削減)

    3. フォアグラウンドでダンプファイルを出力する 4. Redisのプロセスを再起動する 5. 手順1の切り戻し
  49. Redisプロセスを再起動してSlave復旧 Redisのプロセスを再起動することでSlaveへの同期されるようになった healthchecker healthchecker healthchecker sentinel sentinel sentinel Master Slave

    Slave replication replication
  50. アジェンダ 1. Redisの導入 2. メモリ溢れの発生 3. メモリ溢れの再発 4. 恒久対応の検討 5.

    OSメモリの枯渇 6. 恒久対応の実施(失敗) 7. 突然のF/O 8. 恒久対応の実施
  51. 有効期限切れキーを日次削除 • 有効期限切れキーを日次で削除することで、Redisが使用するメモリ量を 削減する • 削除対象 1. Redis上有効期限が切れているもの a. scanコマンドで削除可能

    2. infoに紐づくキーがないもの a. infoに紐づいていない場合は、delコマンドで削除可能
  52. 有効期限切れキー削除時の注意点 • 使っているRedisがシングルスレッドでしか使えないため、 有効期限切れキーの削除を一気に行うとオンラインの処理に 影響を与えてしまう恐れがある • オンライン処理に影響を与えないように、本番相当の負荷をかけてRedis のレイテンシが悪化しないかを事前に確認する

  53. 有効期限切れキー削除ジョブを装着後は、Redisのメモリ使用量が10GB以下 に抑えることができた 恒久対応の効果

  54. まとめ • 『ホットペッパーグルメ』で発生したRedisのメモリ溢れに対応した内容を共 有しました a. Redisに関するナレッジ ▪ 有効期限切れキーの削除アルゴリズム b. リソース枯渇時の対応心得

    ▪ 二次障害を発生させない事前準備 ▪ ソースコードレベルでの挙動把握