Upgrade to Pro — share decks privately, control downloads, hide ads and more …

不動産情報サイトにおけるリアルタイムデータ分析基盤の活用

Red Frasco
December 07, 2023

 不動産情報サイトにおけるリアルタイムデータ分析基盤の活用

2023/12/07 に開催された Jagu'e'r(Japan Google Cloud Usergroup for Enterprise)データ利活用分科会 LT 大会の登壇資料です。

Red Frasco

December 07, 2023
Tweet

More Decks by Red Frasco

Other Decks in Technology

Transcript

  1. ෆಈ࢈৘ใαΠτʹ͓͚Δ
    ϦΞϧλΠϜσʔλ෼ੳج൫ͷ׆༻
    Jagu'e'r データ利活⽤分科会 LT⼤会
    2023.12.07

    View full-size slide

  2. ⽬次
    1. ⾃⼰紹介/弊社紹介
    2. 本⽇話すこと/話さないこと
    3. なぜリアルタイムデータが必要なのか
    4. 分析基盤のシステム構成
    5. リアルタイムデータの活⽤⽅法
    6. その他

    View full-size slide

  3. ⾃⼰紹介
    杉⼭ 隆(Takashi Sugiyama)
    3
    • 所属
    • 株式会社Red Frasco
    • 職種
    • データエンジニア/MLエンジニア
    • 技術
    • Google Cloud, Python, Golang
    • よく使うGCPサービス
    • Cloud Composer, Dataflow, Dataproc, BigQuery, ...

    View full-size slide

  4. 株式会社Red Frasco
    • https://www.red-frasco.com/
    • 不動産業界に特化したプロダクト開発・集客⽀援を実施
    • 今回はとある 賃貸不動産情報サイトのデータ分析基盤 のお話
    4

    View full-size slide

  5. 本⽇話すこと/話さないこと
    • 話すこと
    • データ分析基盤内のリアルタイムデータについて
    • ⽬的、取得⽅法、活⽤⽅法・・・等
    • 話さないこと
    • データ分析基盤のその他の仕組み
    • データパイプライン、DWH、BI・・・等
    5

    View full-size slide

  6. なぜリアルタイムデータが必要なのか(1/2)
    • 賃貸不動産情報サイトにおけるユーザーの⾏動パターン
    • ほとんどのユーザは初回訪問でコンバージョン(Web での問い合わせ
    等)する
    • そのためセッション内での訴求が重要となり、⾏動ログ等のユーザ
    データをリアルタイムで取得、さらにセッション内の⾏動を計測でき
    るようにすることが望まれる
    6

    View full-size slide

  7. なぜリアルタイムデータが必要なのか(2/2)
    • Google アナリティクスでは要件を満たせなかった
    • BigQuery Export 機能
    • エクスポートされるタイミングが遅い(要件定義時は翌⽇午後)
    • 最近早くなってきた(翌⽇早朝)が、それでも要件を満たしていない
    • ストリーミングエクスポート機能
    • 翌⽇以降にエクスポートされたレコードと⽐較すると、2〜3割程度のレコード⽋
    損がある︖(※今回の対象サイトだけかもしれません。ご参考まで。)
    • 将来的には GA からリアルタイムデータへの移⾏を検討
    • UA → GA4 の移⾏に伴う作業が⼤変だった・・・
    7

    View full-size slide

  8. 分析基盤のシステム構成(1/6)
    全体構成
    8

    View full-size slide

  9. 分析基盤のシステム構成(2/6)
    本⽇話す内容はここ︕
    9

    View full-size slide

  10. 分析基盤のシステム構成(3/6)
    拡⼤ + 開発中の機能も表⽰
    10

    View full-size slide

  11. 分析基盤のシステム構成(4/6)
    • ログを取得する仕組みは API で提供
    • アプリケーション側に極⼒⼿が⼊らないように
    • 開発チームとの分離
    • バックエンドは Cloud Run で構築
    • 運⽤が楽︕
    11

    View full-size slide

  12. 分析基盤のシステム構成(5/6)
    • ログの保存先は2つ
    • Cloud Run → Bigtable
    • ログをすぐに利⽤したい場合の保存先
    • 過去2⽇分を保存
    • Cloud Run → Pub/Sub → Dataflow → BigQuery
    • 通常利⽤の保存先
    • 過去分全てを保存
    12

    View full-size slide

  13. 分析基盤のシステム構成(6/6)
    • 当初は Bigtable ではなく Firestore を利⽤していたが
    書き込みエラーが多く出たため変更
    • エラー原因は結局分からず・・・
    • 「500/50/5」ルールはきちんと守っていた・・・はず・・・
    13

    View full-size slide

  14. リアルタイムデータの活⽤⽅法
    • レコメンド機能
    • ユーザーの⾏動ログを基にした User-to-Item レコメンド
    • 直近(同⼀セッション内)の⾏動ログを特徴量として使⽤
    • 鋭意開発中︕
    14

    View full-size slide

  15. その他
    • その他の機能も機会があれば話させてください︕
    もしくは懇親会で︕
    • Embedding を使⽤した Item-to-Item レコメンド
    • Cloud Composer のノウハウ
    • Redash on GKE・・・等
    15

    View full-size slide

  16. Thanks for
    listening!

    View full-size slide