在庫の最適化を実現する SaaSデータ基盤の裏側

在庫の最適化を実現する SaaSデータ基盤の裏側フルカイテン株式会社横田

Atsushi Yokota バックエンドエンジニア 2 • 2020年10月よりフルカイテンに参画。 • FULL KAITEN V3の新規開発に携わり、Rustによる
GraphQLサーバーの構築やデータ基盤の構築を担当 • バックエンドグループマネージャー自己紹介

3 在庫を利益に変えるクラウド今ある在庫で売上・利益を最大化！直感的に操作できる使いやすいツール運用定着まで徹底サポート！ EC・店舗・倉庫、
全ての在庫をAIで予測・分析し､商品力をワンクリックで見える化｡とは

4 導入実績 ※一部抜粋/順不同 ※2023年10月時点

1. データ基盤の重要ポイント 2. リリース当初のアーキテクチャー 3. 刷新後のアーキテクチャー 4. 刷新の結果 5. 今後の展望
Agenda

6 フルカイテンにおけるデータ基盤の重要ポイント • 毎日同じ時刻に日次バッチが画面に反映されていること在庫管理者売価設定や在庫移動の意思決定早く売れそうか売れ残りそ
うか

7 フルカイテンにおけるデータ基盤の重要ポイント • アカウント毎のデータ量は、数万件〜数億件まで様々 • 大きなアカウントと小さなアカウントの間には1000倍以上の差店舗商品 ✕ データ量

8 リリース当初のデータ基盤概要(2021年5月〜)

リリース当初のデータ基盤概要(2021年5月〜) • リリース後、新規アカウントの追加で日次バッチが遅延

日次バッチが遅延した原因(1) Redshiftの集計処理でクエリ遅延が発生

11 日次バッチが遅延した原因(1) - Redshiftの集計処理でクエリ遅延が発生 • Redshiftは、大量データの集計処理が高速に実行可能 • ただし、日次バッチ処理が午前中に重なっていた • Concurrency
Scalingの書き込みは2021年当時は未対応(現在は対応済み)。多くの中間テーブルを作成する集計処理のためクエリ遅延が発生

日次バッチが遅延した原因(2) OpenSearchのデータ投入で遅延が発生

13 日次バッチが遅延した原因(2) - OpenSearchのデータ投入で遅延が発生 • 大量データのソート、フィルタリングは非常に高速 • ただし、インデックス作成に時間がかかり、大量データの投入が重なるとエラーが発生することがある •
結果、データの投入待ち時間が長くなり、日次バッチにかかる時間の 40%を占める状況になった

14 問題点のまとめ • 新規アカウントが増加するにつれて、リソースの奪い合いが発生 • 大きめのアカウント(約3.5億件)で画面反映まで、毎日15時間もかかる状態 • データ量の小さなお客様もバッチ処理の反映が遅くなるようになった。。

15 刷新後のデータ基盤概要(2022年11月〜現在)

刷新後のデータ基盤概要(2022年11月〜現在)

データ基盤の刷新(1) - Redshiftの集計をPySpark on Glueに移行 PySpark on Glueによる並列分散処理

18 Redshiftの集計をPySpark on Glueに移行した理由 • 複雑な集計処理が多く、中間テーブルの作成が必要であるため、メモリ上での集計を行うPySpark on Glueの方が処理速度が速い •
サーバレスのGlueを使用することで、他のアカウントの影響を受けることなく、並列分散処理が可能 • アカウント毎にワーカー数を指定することで、インフラコストを最適化することが可能

データ基盤の刷新(2) - OpenSearchからAthenaへ移行 Athena経由によるデータ取得

20 OpenSearchからAthenaへ移行した理由 • S3に格納されたデータを直接SQLでリクエストできるため、データ投入が不要 • リクエスト毎にリソースが割り当てられるため、重いリクエストも並列で実行することが可能 • FederatedQueryを使用することで、Auroraを含む他のデータストアと結合
可能書込 Parquet ファイル Glue Athena 取得 SQL Aurora

Athena導入の注意点 • ソートやフィルタリング処理は、OpenSearchの方が速いことが多い • 少量のデータに対してもレスポンス時間がかかる ◦ S3のExpress One Zoneで早くなるらしいトレードオフがあるので、
ユースケースに合わせた検討が必要

データ基盤の刷新(3) - オンデマンド処理の導入オンデマンド処理の導入

23 オンデマンド処理の導入理由 • ユーザーからのリクエストに応じて、必要な集計処理を行うオンデマンド処理に対応 • 日次バッチを待たずにアドホックな分析が可能になり、ユーザー体験が向上した • 参照頻度の低い日次集計をオンデマンド処理に移行
• Fargateの最大vCPU16個、メモリ128GiBに大幅拡張(2022年9 月)。これにより、ある程度のデータ量でもPandasで処理できるようになった。

24 データ基盤の刷新の結果 • 当初日次バッチに15時間かかっていたお客様も、3時間程度にまで短縮。 • サーバレスの有効活用により、スケーラビリティが向上。アカウント数の増加に対応できる構成になった。

25 今後の展望 • アーキテクチャーの再編 ◦ オンデマンド処理への移行 ◦ Glueジョブの分割 • パフォーマンス・チューニング
◦ データ構造の見直し ◦ Glueのworkerの自動設定 • 機械学習のライフサイクル管理 • サービスとして横断的なデータ解析プロダクトの状況は日々変化するデータ基盤の作り替えも積極的に行う

エンジニア募集中！一緒に世界の大量廃棄問題を解決しましょう！ https://note.com/fullkaiten_re フルカイテン公式note

在庫の最適化を実現する SaaSデータ基盤の裏側

在庫の最適化を実現する SaaSデータ基盤の裏側

Atsushi Yokota

More Decks by Atsushi Yokota

Other Decks in Programming

Featured

Transcript