Upgrade to Pro — share decks privately, control downloads, hide ads and more …

dbt Coalesce 2022 に見る、アナリティクスエンジニアへの期待とその可能性 / techplay221101_01_yamabe

Recruit
November 01, 2022

dbt Coalesce 2022 に見る、アナリティクスエンジニアへの期待とその可能性 / techplay221101_01_yamabe

2022/11/01_リクルートが考える『意思決定に効くデータマネジメント』~アナリティクスエンジニア組織の立ち上げと事例紹介~での、山邉の講演資料になります

Recruit

November 01, 2022
Tweet

More Decks by Recruit

Other Decks in Technology

Transcript

  1. © Recruit Co., Ltd. All Rights Reserved dbt Coalesce 2022

    に見る アナリティクスエンジニアへの期待とその可能性 株式会社リクルート データ推進室 D3M 部 山邉 哲生 2022/11/01
  2. © Recruit Co., Ltd. All Rights Reserved 自己紹介 山邉 哲生

    (やまべ てつお) @beniyama データ推進室 データテクノロジーユニット D3M 部 部長 ソフトウェアエンジニアとして EC サイトやアドテクの開発に携わった後、 2015年に(株)リクルートマーケティングパートナーズに中途入社 スタディサプリのデータ分析基盤開発を牽引した後、Quipper 社への 出向などを経て 2021年10月よりデータ推進室に合流。まなび領域の データ活用責任者を務める他、D3M 部 部長などを兼任。 プライベートでは Looker ユーザー会の初代幹事を担当するなど、デー タマネジメント / アナリティクスエンジニアリング領域への関心が高い。 2 #recruitdata
  3. © Recruit Co., Ltd. All Rights Reserved まなび 領域 住まい

    領域 データ推進室の組織構成 3 データテクノロジー ユニット SaaS 領域 データプロダクト ユニット HR 領域 データサイエンス部 データエンジニアリング部 … D3M (Data Driven Decision Making) 部 山邉 データソリューションユニット データマネジメントを通して経営資源としてのデータの価値を 引き出し、意思決定の速度と精度を最大化するための組織 #recruitdata
  4. © Recruit Co., Ltd. All Rights Reserved まなび 領域 住まい

    領域 データ推進室の組織構成 4 データテクノロジー ユニット SaaS 領域 データプロダクト ユニット HR 領域 データサイエンス部 データエンジニアリング部 … D3M (Data Driven Decision Making) 部 1. 白子 3.林田 2.新堀 山邉 データソリューションユニット #recruitdata
  5. © Recruit Co., Ltd. All Rights Reserved データ推進室の組織構成 5 データサイエンティスト

    データエンジニア ? ・ メトリクスの設計・定義 ・ データマート・集計フローの構築 ・ ダッシュボード・モニタリング環境の構築 ・ データの品質担保 … データの流れ #recruitdata
  6. © Recruit Co., Ltd. All Rights Reserved アナリティクスエンジニア 分析にすぐ使えるクリーンなデータ環境を提供するために ソフトウェアの開発手法を活用して生産性の高いデータ管理を実現する

    データアナリストとデータエンジニアの架け橋となる存在 データ推進室の組織構成 6 データサイエンティスト データエンジニア データの流れ #recruitdata
  7. © Recruit Co., Ltd. All Rights Reserved dbt Coalesce 2022

    • dbt Labs 社が開催するアナリティクスエンジニアのカンファレンス ◦ https://coalesce.getdbt.com/ ◦ 開催期間 10/17 - 22 で今回で3回目の開催 ◦ dbt は data build tool の略で ELT の T(データ変換)を支援するツール ◦ SQL でもお馴染み coalesce の意味は 『〈別々の物・組織など〉を結合[合体]させる.』 • 現地(ニューオリンズ)とオンラインのハイブリッド開催 ◦ 基本的に全てのセッションはオンラインで同時放映・またアーカイブ視聴も可能 ◦ セッションごとに dbt slack にチャネルが作成され、Q&A はそこで非同期に実施できる ◦ 来年度はサンディエゴでの開催が発表され、すでに Super early bird 登録も開始 8 #recruitdata
  8. © Recruit Co., Ltd. All Rights Reserved 11 引用) Keynote:

    The End of the Road for The Modern Data Stack You Know #recruitdata
  9. © Recruit Co., Ltd. All Rights Reserved 12 引用) Keynote:

    The End of the Road for The Modern Data Stack You Know #recruitdata
  10. © Recruit Co., Ltd. All Rights Reserved トピックス #1 dbt

    Semantic Layer • 散らかりがちな 『売上』 や 『会員数』 などの重要 指標(メトリクス)を dbt 内で定義・一元管理し、 API 越しに呼び出し可能にする機能 • 集計対象の DWH に対して SQL を生成する Proxy Server や、メタ情報を取得するための Metadata API などから構成される • 後述の Headless BI と合わせて、メトリクス管 理と Viz を分離していくトレンドを感じる 13 引用) Hands-on: the dbt Semantic Layer #recruitdata
  11. © Recruit Co., Ltd. All Rights Reserved トピックス #2 Headless

    BI 14 引用) How Preset Integrates dbt with Apache Superset to Deliver on Headless BI & Surface Metrics • BI 内でビジネスロジックを通した集計をするので はなく、セマンティックレイヤーで集計済みのメトリ クスを使うことで、集計プロセスのブラックボック ス化を防ぎ数値の正確性を改善 • Apache Superset の商用クラウド版である Preset では更にダッシュボードをコード管理で きるようにすることで、バージョン管理やローカル 開発なども可能に #recruitdata
  12. © Recruit Co., Ltd. All Rights Reserved トピックス #3 dbt

    Python サポート 15 引用) dbt Labs + Snowflake: Why SQL and Python go perfectly well together • 従来の SQL に加え Python でモデルを記述す ることが可能になり、豊富なライブラリを活用でき るだけでなく DS との親和性も向上 • SQL モデルを参照することもできるので、SQL によるデータ抽出・変換と Python によるより複 雑な前処理の連携が可能に • Snowflake では Snowpark が提供する Python ランタイムとの組み合わせでシームレス な SQL/Python モデル連携を実現 #recruitdata
  13. © Recruit Co., Ltd. All Rights Reserved トピックス #4 モダンデータチーム組織論

    16 引用) Excel at nothing: How to be an effective generalist • ビジネスドメインごとのオーナーシップの形成や、 変換処理や分析業務の民主化、プロダクトとして のデータ提供など、データメッシュに代表されるよ うな環境の変化を意識するトーンが強い • 特に dbt のようなツールの出現によって、メトリ クス管理やプロダクトとしての(データの)品質担 保、活用促進などを(エンジニアよりも)アナリスト が実施していく、という視点が多かった印象 #recruitdata
  14. © Recruit Co., Ltd. All Rights Reserved トピックス #5 アナリティクスエンジニアのキャリアパス

    17 引用) The accidental analytics engineer • ELT の T 以降のプロセスをより粒度細かく分類 することで、各ステップにおいてアナリストやデー タサイエンティストに求められるものは何か、また その身につけ方はどういう選択肢があるか、とい うのを明示し、啓蒙するセッションも多かった • 一方でアナリティクスエンジニアがデータサイエン ティストの実験についても理解を深めていこう、と いう話もあり、Python サポートも相まってより 幅広い活用シーンを探求しているようにもみえた #recruitdata
  15. © Recruit Co., Ltd. All Rights Reserved Data warehouse 所感まとめ

    18 Data source Data source Data source Raw data Transformed data Metrics Non metrics Metrics Non metrics Metrics Non metrics BI Data science Marketing etc セマンティックレイヤーに代表されるように、Single Source of Truth を実現するためのメトリクス設計・管理・活用推進がアナリ ティクスエンジニアの主業務の一つとして位置付けられてきた データのプロダクト化に伴ってビジネスロジックは よりガバナンスをかけやすいメトリクスとしての一 元管理を指向する方向へ(Headless BI の出現) データメッシュに代表されるような中央集権モデルからの緩やかな移行を試みる流れと、それを支える Transformation 以降のツールの拡充。アナリスト側からそのスキルを獲得していきアナリティクスエンジニアに なっていくパスだけでなく、Python サポートによってより複雑な加工処理をサポートしていく動きも。 #recruitdata
  16. © Recruit Co., Ltd. All Rights Reserved 膨らむアナリティクスエンジニアの重要性と期待 • 今、改めて価値あるデータ活用のあり方が問われている

    ◦ セマンティクスのレベルで一貫性・保守性、継続的な品質チェック、利用のしやすさを担保したい ◦ 中央集権的に役割を切るのではなく、利用側である程度スピード感を持って実現したい • アナリティクスエンジニアは今後のデータ組織に欠かせない存在 ◦ ELT の T 以降のプロセスにエンジニアリングを適用し、プロダクトとしてのデータ管理を追求 ◦ 深いドメイン理解のもとエンジニアリングとビジネスのハブになるだけでなく、サイロ化を防ぐた めにデータチーム間のハブとしても機能 19 #recruitdata
  17. © Recruit Co., Ltd. All Rights Reserved この後のセッション 22 講演資料などのハッシュタグ

    #recruitdata イベント終了後にアンケートのご案内もあ りますので、是非ご回答をお願いします! #recruitdata
  18. © Recruit Co., Ltd. All Rights Reserved この後のセッション 23 流入データのテスト・品質管理

    変換・加工処理管理 メタデータ管理 メトリクス管理 モニタリング・活用推進 Data warehouse Data source Data source Data source Raw data Transformed data Metrics Non metrics Metrics Non metrics Metrics Non metrics BI Data science Marketing etc #recruitdata