GMOペパボのデータ基盤とデータ活用の現在地 / Current State of GMO Pepabo's Data Infrastructure and Data Utilization

GMOペパボのデータ基盤とデータ活用の現在地財津大夏 (@zaimy) GMOペパボ株式会社技術部データ基盤チーム 2025.08.01 第4回福岡データエンジニアリング勉強会

自己紹介財津大夏　ZAITSU Hiroka 技術部データ基盤チームシニアエンジニア 2012年よりホスティングやECサービスのディレクターとして、データ駆動のマーケティングやサービス運用改善に取り組む。2018年よりデータサイエンティスト、2022年よりデータエンジ
ニアとして、データ基盤の開発やその利用によるサービス改善に取り組んでいる。二児の父。スバルのファン。

アジェンダ本日お話しすること 1. ペパボとデータ基盤「Bigfoot」 2. データ基盤の仕組み 3. データ基盤に関わる組織 4. データ活用の事例
Bigfootくんキャラクターグッズ販売中です!!! https://suzuri.jp/zaimy/designs/13278107

ペパボとデータ基盤「Bigfoot」

GMOペパボ株式会社 "もっとおもしろくできる" という企業理念のもと、 "人類のアウトプットを増やす" ために様々なサービスを提供しています 5

ペパボで目指すもの DX Criteriaとデータ駆動 DX Criteria (v202506) - 企業のデジタル化とソフトウェア活用のためのガイドライン 5つのテーマのうちの1つ「データ駆動」の実現が社内のビジョンとして掲げられているマーケティング自動化
データを元にサービスの振る舞いを変える、サービスの動的改善自動的な意思決定意思決定に必要な指標を計測可能・明確にして自動化を可能にする例）統計的な判断意思決定後のシステム挙動の変更も自動化する例）バンディットアルゴリズム 6

ペパボで目指すものいきなりデータ駆動にはなれない実現を阻む一般的な課題データを集める仕組みがない集めたデータを分析する仕組みやスキルがない分析したデータを活用する仕組みや組織体制がない 7

データ基盤で目指すもの各段階においてシステムとリテラシによるデータ駆動を目指すデータ基盤がシステムレイヤの各要素を扱いやすくした上でリテラシ面のサポートをチームとして行うことでデータ駆動を目指す 8

データ基盤の仕組み

ペパボのデータ基盤「Bigfoot」 10

ペパボのデータ基盤「Bigfoot」 Extract, Load の工夫の例複数のサービスがある = 複数のデータベース, 設計の異なる複数のログがあるサービス DB
からデータ基盤までの EL パイプラインとログ設計を定型化サービス DB とデータ基盤の間に「データ抽出基盤 Yeti」を構成サービスの行動ログを生成する Rack/PHP 用のミドルウェアを用意 Zendesk など SaaS のデータの取り込みには Airbyte OSS/Cloud も利用 ➡︎ 知識のサイロ化を防ぎ、ベストプラクティスを複数のサービスで使い回す 11

ペパボのデータ基盤「Bigfoot」- Extract, Load の工夫の例サービス DB からデータ基盤までの EL パイプラインの定型化 -
Yeti Batch と CDC を組み合わせてサービス DB と BigQuery をニアリアルタイム同期する Batch: Embulk on-premiss または Embulk on AWS Batch (Fargate) を利用 Cloud Storage から BigQuery に Batch Load CDC: Debezium Server on AWS ECS を利用 Cloud Pub/Sub Topic へメッセージを送信 BigQuery Subscriptions で BigQuery に Streaming Insert 詳細は https://tech.pepabo.com/2023/04/20/cdc-for-realtime-analysis/ 12

ペパボのデータ基盤「Bigfoot」- Extract, Load の工夫の例ログ設計の定型化 - rack-bigfoot / php-bigfoot 数行の設定でサービスアプリケーションの通信内容からユーザーの行動ログを
取り出す Rack ミドルウェアや PHP ライブラリを用意アプリケーションと Fluentd を繋ぐ必要な共通パラメタをリクエスト・レスポンスヘッダから取得サービス固有のパラメタを付与することも可能 ➡︎ 各サービスでエンジニアがログ設計や収集を意識しなくても良い 13

ペパボのデータ基盤「Bigfoot」最近の技術的な取り組み OpenTelemetry を使ったログの収集と可視化 Debezium Server のトレースと同期遅延の計測 BigQuery の on-demand
と editions の併用ジョブ内容によって自動的に最適な環境を選択する仕組みの開発コスト最適化とパフォーマンスの向上マーケティング向け SaaS との連携強化 Bigfoot を使ったマーケティングオートメーションこれまでデータを活用できていなかった業務領域もデータ駆動にしていく 14

データ基盤に関わる組織

データ基盤に関わる組織ペパボ（事業部制組織）の特徴事業部メンバーはドメイン知識が深い一方で業務範囲が広い事業部にデータ活用の推進者が不在マネージャーやディレクターが業務の一環としてデータ分析データ活用の程度はさまざまエンジニアの横断組織はあるが、サービス運営に関わるビジネス職の横断組織はない
16

データ基盤に関わる組織データ基盤立ち上げ当初（2016年~）当時大規模投資を行っていたminne事業部で開発開発者と利用者が同じ小さな組織の中にいてスキルセットも備わった状態データを活用した施策の実行サイクルが回っていた種々の情報の可視化や行動ログに基づくユーザーセグメントの利用など 17

データ基盤に関わる組織全社基盤への移行期（2019年頃~）当初の開発者と利用者が別組織（研究所やデータ基盤チーム）に異動同メンバーが別組織から主に作り込む形になった機械学習による推薦, バンディットアルゴリズム, 行動ログの複雑な集計などサービスのアプリケーションの実装のみ事業部パートナーのエンジニアが担当結果、以下の問題が発生事業部（特にデータ分析者）にデータ基盤を使った何かのオーナーシップがない
メンテナンスされずに施策ごと自然消滅データ基盤は「よくわからない、難しいもの」という認知 18

データ基盤に関わる組織改善の試み（2024年~） 1. Team Topologiesの導入チームタイプとインタラクションモードの見直し 2. ELTモデルに基づく責任範囲の明確化データパイプラインの各段階での責任分担 3.
Transform層のフレームワーク化 dbtへの移行とAirflow DAGのテンプレート化 4. ディレクターの基盤チーム加入によるサポート強化利用者視点での支援とドキュメント・メタデータの整備 19

データ基盤に関わる組織 - 改善の試み（2024年~） Team Topologiesの導入 - チームタイプ組織のチーム構造を適切に設計する方法論 4つのチームタイプ 1.
ストリームアラインドチーム: 価値の流れに沿って作業 2. プラットフォームチーム: セルフサービス機能を提供 3. イネイブリングチーム: 他チームの能力獲得を支援 4. コンプリケイテッドサブシステムチーム: 専門知識が必要なサブシステムを担当 20

データ基盤に関わる組織 - 改善の試み（2024年~） Team Topologiesの導入 - チームタイプ従来のチームタイプ認識事業部からはコンプリケイテッドサブシステムチームに見えていた「専門的なことはお任せしたいです」
しかしデータ基盤チームがサブシステム全てを担当するとスケールしない改善後の認識イネイブリングチームとして明確化やること、やらないことを明確にした ELTの各ステップを境界に責任範囲を決定 21

データ基盤に関わる組織 - 改善の試み（2024年~） ELTモデルに基づく責任範囲の明確化改善前: ELTの責任範囲が曖昧失敗時などは「事業部とデータ基盤チームで面倒を見る」という建て付け実際はデータ基盤チームが対応することがほとんど改善後: 責任範囲を明確化
Extract & Load: データ基盤チーム Transform & サービスアプリケーションへのReverse EL: 事業部 SaaSなどへのReverse EL: データ基盤チーム共通化しやすい部分はデータ基盤チーム、ドメイン知識が必要な部分は事業部 22

データ基盤に関わる組織 - 改善の試み（2024年~） Transform層のフレームワーク化改善前: DWH上のTransformはすべてAirflow DAG Pythonコードを書けば何でもできる BigQueryなどGoogle Cloudサービスの実行、Pythonコードの実行など
柔軟性は高いが習得が困難改善後: 用途に応じて最適化 DWH上のデータ変換のみ → dbt on Airflowに移行 DAGが必要だが再利用可能なパターン → DAGをテンプレート化事業部別、やりたいこと別に10行程度のコード追加で生成可能にした 23

データ基盤に関わる組織 - 改善の試み（2024年~）ディレクターの基盤チーム加入従来: エンジニア向け基盤（X-as-a-Service的発想）コードサンプル, ドキュメントを読めばわかる改善後: ビジネス職かつデータ分析経験者によるコラボレーションの追加
ビジネス職の中でデータ基盤を社内トップクラスに活用していた3名が加入データ分析者の困りごとに近い立場でコミュニケーションできる利用者向けドキュメントの整備利用者にとって必要なメタデータの追加 24

データ基盤に関わる組織 - 現在当たり前レベルが向上しはじめた改善前: スプレッドシートにデータがある集計ロジックも各所にある集計されたデータを見て「こういう傾向がある」で終わりがち改善後: SSoTなデータをもとに仮説と施策と検証のサイクルを回す
まず仮説ありきで検証可能な施策を実行するデータ作成の作業ではなくデータ活用にフォーカスする 25

データ基盤に関わる組織 - 現在チームの変化データ基盤チームの変化データ基盤からデータ基盤サービスへ XaaSを目指しつつ、営業・コンサル・コーチング的コラボレーション事業部の変化事業部パートナーによるTransformの新規作成とその活用他事業部で既に行っているSaaS活用を実装コストなしで水平展開
データで困ったとき、やりたいことがあるときのデータ基盤チームへの声かけ増 26

データ活用の事例

データ活用の事例まずはデータ可視化 Redash, Looker Studio などを各事業部のメンバーが利用サービスの種々の KPI 問い合わせ対応の生産性
エンジニアの生産性 etc... データを元に仮説と施策と検証のサイクルを回す SSoT なデータだけが使われる世界を目指して取り組み中 28

データ活用の事例離脱ユーザーへのリテンション行動ログから離脱ユーザーを抽出するワークフローを作成商品をカートに入れたが買わなかったユーザー同じ商品を何度も見ているユーザーワークフローの処理結果をアプリケーションに取り込みメール配信やアプリ内通知でリテンション施策を実行さらに行動ログからユーザーごとにアクティブになりやすい時間を特定該当の時間に配信することで高い開封率と注文率を実現 29

データ活用の事例類似画像推薦 CLIP を使って画像の特徴をベクトル化 Vertex AI Matching Engine で高速なベクトル検索構成の検討や試行錯誤を含めて、開発開始から
2 週間でリリース詳細は https://tech.pepabo.com/2023/06/13/suzuri-similar-image-recommendation/ 30

データ活用の事例その他機械学習を用いたECサイトでの商品レコメンデーション協調フィルタリングなど行動ログを用いた嗜好推定商品情報のトピックモデリング BigQuery の日本語データを Dataflow と Vertex
AI でトピックモデリング https://speakerdeck.com/zaimy/topic-modeling-of-japanese-data-in-bigquery-with-dataflow-and-vertex-ai バンディットアルゴリズムによる推薦やサイト内検索ロジックの改善 Synapse: 文脈と時間経過に応じて推薦手法の選択を最適化するメタ推薦システム https://speakerdeck.com/monochromegane/smash21-synapse 31

データ活用の事例その他 ECサイトの売上予測プロダクト担当者とデータサイエンティストで Prophet を使って EC サービスの注文額を予測する https://tech.pepabo.com/2022/12/16/minne-sales-prediction/ ECサイトの規約違反品の検出
財津大夏, 三宅悠介, 松本亮介, ハンドメイド作品を対象としたECサイトにおける大量生産品の検出, 研究報告インターネットと運用技術（IOT）, Vol.2018-IOT-41, pp.1-8, May 2018. サーバーの計画的オートスケーリングでクラウドサービス利用料金を半分に削減三宅悠介, 松本亮介, 力武健次, 栗林健太郎, アクセス頻度予測に基づく仮想サーバの計画的オートスケーリング, 情報科学技術フォーラム講演論文集, Vol.17, No.4, pp.7-12, Sep 2018. 32

データ活用で "もっとおもしろくできる"

GMOペパボのデータ基盤とデータ活用の現在地 / Current State of GMO P...

GMOペパボのデータ基盤とデータ活用の現在地 / Current State of GMO Pepabo's Data Infrastructure and Data Utilization

Hiroka Zaitsu

More Decks by Hiroka Zaitsu

Other Decks in Technology

Featured

Transcript

GMOペパボのデータ基盤とデータ活用の現在地財津大夏 (@zaimy) GMOペパボ株式会社技術部データ基盤チーム 2025.08.01 第4回福岡データエンジニアリング勉強会

アジェンダ本日お話しすること 1. ペパボとデータ基盤「Bigfoot」 2. データ基盤の仕組み 3. データ基盤に関わる組織 4. データ活用の事例

ペパボとデータ基盤「Bigfoot」

GMOペパボ株式会社 "もっとおもしろくできる" という企業理念のもと、 "人類のアウトプットを増やす" ために様々なサービスを提供しています 5

ペパボで目指すものいきなりデータ駆動にはなれない実現を阻む一般的な課題データを集める仕組みがない集めたデータを分析する仕組みやスキルがない分析したデータを活用する仕組みや組織体制がない 7

データ基盤で目指すもの各段階においてシステムとリテラシによるデータ駆動を目指すデータ基盤がシステムレイヤの各要素を扱いやすくした上でリテラシ面のサポートをチームとして行うことでデータ駆動を目指す 8

データ基盤の仕組み

ペパボのデータ基盤「Bigfoot」 10

ペパボのデータ基盤「Bigfoot」 Extract, Load の工夫の例複数のサービスがある = 複数のデータベース, 設計の異なる複数のログがあるサービス DB

ペパボのデータ基盤「Bigfoot」- Extract, Load の工夫の例サービス DB からデータ基盤までの EL パイプラインの定型化 -

ペパボのデータ基盤「Bigfoot」- Extract, Load の工夫の例ログ設計の定型化 - rack-bigfoot / php-bigfoot 数行の設定でサービスアプリケーションの通信内容からユーザーの行動ログを

ペパボのデータ基盤「Bigfoot」最近の技術的な取り組み OpenTelemetry を使ったログの収集と可視化 Debezium Server のトレースと同期遅延の計測 BigQuery の on-demand

データ基盤に関わる組織

データ基盤に関わる組織改善の試み（2024年~） 1. Team Topologiesの導入チームタイプとインタラクションモードの見直し 2. ELTモデルに基づく責任範囲の明確化データパイプラインの各段階での責任分担 3.

データ基盤に関わる組織 - 改善の試み（2024年~） Team Topologiesの導入 - チームタイプ組織のチーム構造を適切に設計する方法論 4つのチームタイプ 1.

データ基盤に関わる組織 - 改善の試み（2024年~） Team Topologiesの導入 - チームタイプ従来のチームタイプ認識事業部からはコンプリケイテッドサブシステムチームに見えていた「専門的なことはお任せしたいです」

データ基盤に関わる組織 - 改善の試み（2024年~） Transform層のフレームワーク化改善前: DWH上のTransformはすべてAirflow DAG Pythonコードを書けば何でもできる BigQueryなどGoogle Cloudサービスの実行、Pythonコードの実行など

データ活用の事例

データ活用の事例まずはデータ可視化 Redash, Looker Studio などを各事業部のメンバーが利用サービスの種々の KPI 問い合わせ対応の生産性

データ活用の事例類似画像推薦 CLIP を使って画像の特徴をベクトル化 Vertex AI Matching Engine で高速なベクトル検索構成の検討や試行錯誤を含めて、開発開始から

データ活用の事例その他機械学習を用いたECサイトでの商品レコメンデーション協調フィルタリングなど行動ログを用いた嗜好推定商品情報のトピックモデリング BigQuery の日本語データを Dataflow と Vertex

データ活用の事例その他 ECサイトの売上予測プロダクト担当者とデータサイエンティストで Prophet を使って EC サービスの注文額を予測する https://tech.pepabo.com/2022/12/16/minne-sales-prediction/ ECサイトの規約違反品の検出

データ活用で "もっとおもしろくできる"