Upgrade to Pro — share decks privately, control downloads, hide ads and more …

dbtでGA4の生ログを扱いやすくする話

 dbtでGA4の生ログを扱いやすくする話

2023-02-16に開催したJagu'e'r分科会でのLT発表スライドです

Hirokazu Kobayashi

February 16, 2023
Tweet

More Decks by Hirokazu Kobayashi

Other Decks in Technology

Transcript

  1. GA4 x dbt
    Jagu'e'r LT 2023/02
    GA4の生ログの弱点と、それを補うdbtパッケージを試してみ

    View Slide

  2. 小林 寛和
    株式会社primeNumber 取締役執行役員 CPO
    hiro_koba_jp
    慶應義塾大学卒業後、2014年より株式会社リブセンス
    へ入社し、データエンジニアとして同社分析基盤
    立ち上げをリード。
    trocco®のプロダクト発案者で、現プロダクト責任者。
    Data Engineering Studyの共同主催者も務める。

    View Slide

  3. Agenda
    GA4の生ログの概要と、課題
    1
    dbtでGA4の生ログをより使いやすく
    2
    まとめ
    3

    View Slide

  4. GA4の生ログの概要と、課題

    View Slide

  5. GA4のさまざまな使い方
    Google AnalyticsのブラウザUIから見る
    Looker Studioとかでつないで可視化する
    GA4のBigQuery Exportを使い、生ログからデータ分析
    ©2023 primeNumber Inc. All Rights Reserved. Confidential. 5

    View Slide

  6. GA4のさまざまな使い方
    Google AnalyticsのブラウザUIから見る
    Looker Studioとかでつないで可視化する
    GA4のBigQuery Exportを使い、生ログからデータ分析
    ©2023 primeNumber Inc. All Rights Reserved. Confidential. 6

    View Slide

  7. GA4の生ログの弱点
    データ構造が扱いにくい
    event_timestampがUNIXTIMEなので変換が必要
    ログがいつ来るのか分からない・タイムラグがある
    ©2023 primeNumber Inc. All Rights Reserved. Confidential. 7

    View Slide

  8. データ構造が扱いにくい

    View Slide

  9. 集計しようとすると・・・

    View Slide

  10. GA4の生ログを使いやすくするために、
    dbtというツールを使ってみた

    View Slide

  11. 先程の弱点を解決するには
    ひたすらクエリで頑張る
    1
    扱いやすい形に整形してから使う
    2
    ©2023 primeNumber Inc. All Rights Reserved. Confidential. 11

    View Slide

  12. 先程の弱点を解決するには
    ひたすらクエリで頑張る
    1
    扱いやすい形に整形してから使う
    2
    ©2023 primeNumber Inc. All Rights Reserved. Confidential. 12

    View Slide

  13. データウェアハウス層を作っ


    扱いやすくしたい
    もう少し専門用語でいうと
    ©2023 primeNumber Inc. All Rights Reserved. Confidential. 13

    View Slide

  14. GA4のスキーマなんて全世界共通なんだし、
    誰かがいい感じの作ってくれてるんじゃない
    の?

    View Slide

  15. dbt-ga4なるものが!!!

    View Slide

  16. とりあえず使ってみ

    View Slide

  17. 導入手順
    dbtのプロジェクトを作る
    packages.ymlにdbt-ga4パッケージを追加
    dbt_project.ymlでご自身のGA4の設定を記載
    dbt deps実行
    dbt build実行
    1
    2
    3
    4
    5
    ©2023 primeNumber Inc. All Rights Reserved. Confidential. 17

    View Slide

  18. めちゃくちゃ楽

    View Slide

  19. 成果物を、もう少し詳し

    View Slide

  20. 全体像
    BigQuery Export
    GA4 BigQuery生ログテーブル

    (データレイク層)
    整形後のテーブル
    (データウェアハウス
    層)
    dbt-ga4
    ©2023 primeNumber Inc. All Rights Reserved. Confidential. 20

    View Slide

  21. View Slide

  22. View Slide

  23. スタースキーマっぽくなってる
    dim_sessions dim_users
    fct_session

    fct_pages
    ©2023 primeNumber Inc. All Rights Reserved. Confidential. 23

    View Slide

  24. View Slide

  25. View Slide

  26. View Slide

  27. できればこうして欲しかった
    1行がページビュー単位など、イベント別にテ
    ーブルを用意する
    dim_sessionに情報もたせ過ぎない
    パーティショニング対応
    タイムラグ問題は解決していない・・・
    探索的な分析をする最小粒度なので
    デバイスや国・地域などもディメンションテーブル化
    ©2023 primeNumber Inc. All Rights Reserved. Confidential. 27

    View Slide

  28. 最後に宣伝を・・・

    View Slide

  29. View Slide

  30. trocco「Web行動ログ収集SDK」
    Web分析に必要なデータを取得
    1タグでPV、イベント、メール開封ログなどが収集可能
    GAと同じデータが生ログで、任意のDWHに蓄積
    セッションやチャネルの定義はGAを踏襲
    お好きなDWH(BigQuery/Redshift)に10分以内に転送
    BigQueryのパーティショニングにも各種対応
    広告アトリビューション分析が可能
    重複のない、正確なコンバージョン数の集計に必要な

    アトリビューション分析が行なえます。
    広告アトリビューション分析の詳細は担当営業まで

    お問い合わせ下さい
    ©2023 primeNumber Inc. All Rights Reserved. Confidential. 30

    View Slide

  31. この辺の話に興味ある方、つながってくださ
    い!
    (DMもウェルカムです)
    Twitter: @hiro_koba_jp
    ©2023 primeNumber Inc. All Rights Reserved. Confidential. 31

    View Slide

  32. ご清聴ありがとうございました

    View Slide