2023年4月6日に、「ガートナー データ&アナリティクス サミット 2023」で発表した、山邉の資料です。
© Recruit Co., Ltd. All Rights Reserved意思決定につなげるためのデータマネジメント〜 今、注目を浴びるアナリティクスエンジニア 〜株式会社リクルート データ推進室山邉 哲生2023/04/06
View Slide
© Recruit Co., Ltd. All Rights Reserved自己紹介山邉 哲生 (やまべ てつお)株式会社リクルート プロダクト統括本部 プロダクト開発統括室データ推進室 販促領域データソリューション4ユニット(まなび)ディビジョンオフィサー2015年に(株)リクルートマーケティングパートナーズに入社。データエンジニアとしてスタディサプリシリーズのデータ分析基盤開発を牽引した後、Quipper 社を含めた当該領域のデータ部門責任者を担当。会社統合後、昨年度より事業領域横断で発足した D3M(Data DrivenDecision Making)部においてアナリティクスエンジニア組織を立ち上げ、データを活用した意思決定支援の取り組みを推進する。2
© Recruit Co., Ltd. All Rights Reservedデータ推進室の組織構成3データテクノロジーユニットデータプロダクトユニットデータソリューションユニットSaaS領域HR領域まなび領域…データサイエンス・機械学習エンジニアリング部データエンジニアリング部D3M (Data Driven Decision Making) 部データマネジメントを通して経営資源としてのデータの価値を引き出し、意思決定の速度と精度を最大化するための組織アナリティクスエンジニアリンググループ
© Recruit Co., Ltd. All Rights Reservedアジェンダ1. アナリティクスエンジニアとは2. アナリティクスエンジニア組織立ち上げの背景3. アナリティクスエンジニアの活動事例4. 現状の課題と今後の方向性4
© Recruit Co., Ltd. All Rights Reservedアナリティクスエンジニアとは● 意思決定者の 『問い』 に即時に応えられるデータを提供する人○ ELT アーキテクチャや dbt (data build tool) などの登場によって新たに確立された職種○ データアナリストとデータエンジニアの間の存在として近年注目を集めている5アナリティクスエンジニア● 『クリーン』 で 『変換・整理済み』 の即時分析可能なデータ提供● ソフトウェアエンジニアリングのベストプラクティスを活用した DataOps● データポータルやドキュメントなどの整備● 意思決定者へのトレーニングを通したデータ利活用支援データエンジニア● カスタマイズされたデータ統合処理の実装● パイプラインオーケストレーションの管理● データプロダクトや機械学習エンドポイントの開発やデプロイ● データウェアハウスの開発・運用や性能最適化データアナリスト● データ分析を通したインサイトの発見や将来予測● データに関する要求を取りまとめるために、事業側組織と密に連携● 重要な BI ダッシュボードの作成参考) The rise of the Analytics Engineer (https://www.youtube.com/watch?v=ixyzF4Dy9Us)
© Recruit Co., Ltd. All Rights Reservedアナリティクスエンジニアとは6データモデリング・変換処理開発● 分析要件に紐づくデータモデル定義● SQL や dbt を使用したデータ変換処理の開発ドキュメント・ポータル・メタデータ整備● データ利用者のためのドキュメント・ポータル作成● データへのメタデータ付与と継続的な更新データ品質管理● データの欠損や異常値の混入有無などのテスト● ビジネスロジック(データ変換処理)のテストDataOps● Git などを活用した構造的なデータ処理の管理● CI/CD を活用した運用の自動化・効率化可視化・メトリクス管理● BI によるモニタリング環境構築・基礎分析● 統一的な KPI/KGI 指標の運用管理データイネーブルメント● リバース ETL などによる外部システムでの利活用● SQL 勉強会などを通したデータ民主化の推進
© Recruit Co., Ltd. All Rights Reservedアナリティクスエンジニア組織立ち上げの背景7事業 DB / ASP アクセスログBIモニタリングアドホックレポートSQL実行環境外部システム連携データレイク層データウェアハウス層 データマート層 データカタログデータポータル意思決定者 / データ利用者データ推進室の管轄範囲
© Recruit Co., Ltd. All Rights Reservedアナリティクスエンジニア組織立ち上げの背景8事業 DB / ASP アクセスログBIモニタリングアドホックレポートSQL実行環境外部システム連携データレイク層データウェアハウス層 データマート層 データカタログデータポータル意思決定者 / データ利用者利活用推進に伴う、データ分析基盤への要求変化● 要求元の分散化 : データの民主化が進み、経営、プロダクト、マーケティング、CS、営業など様々な部署から依頼が来るように。● 難易度の高度化 : 多角的・系列的・横断的な分析要件に耐えうるデータの提供。スピード感のある意思決定のために即時提供が求められることも。● データマネジメントライフサイクルの長期化 : 新規機能やプロダクト立ち上げに始まり、中長期での継続的な品質担保が重要に。
© Recruit Co., Ltd. All Rights Reservedアナリティクスエンジニア組織立ち上げの背景9事業 DB / ASP アクセスログBIモニタリングアドホックレポートSQL実行環境外部システム連携データレイク層データウェアハウス層 データマート層 データカタログデータポータル意思決定者 / データ利用者データマネジメント課題の顕在化● 要求元の分散化 : 活用先が増えただけでなく、民主化が進む中でサイロ化の懸念が増大。● 難易度の高度化 : Quality / Cost / Delivery /Scope の要求が強くなる中で開発運用フローの効率化・生産性の改善が急務に。● データマネジメントサイクルの長期化 : データソースや利活用先は増え続ける傾向にあり、新規データ開発に加えて品質担保をし続ける対象も増える負担増の構造に。
© Recruit Co., Ltd. All Rights Reservedアナリティクスエンジニア組織立ち上げの背景10事業 DB / ASP アクセスログBIモニタリングアドホックレポートSQL実行環境外部システム連携データレイク層データウェアハウス層 データマート層 データカタログデータポータル意思決定者 / データ利用者Transform レイヤーETL から ELT にアーキテクチャが移行し、利活用に近いレイヤーで担保するべき品質や対象となるデータ、またアウトプットも増大の一歩を辿り、データ基盤の運用としてデータエンジニアだけで対応するのが難しくなってきた。Extract / Load レイヤー
© Recruit Co., Ltd. All Rights Reservedアナリティクスエンジニア組織立ち上げの背景11事業 DB / ASP アクセスログBIモニタリングアドホックレポートSQL実行環境外部システム連携データレイク層データウェアハウス層 データマート層 データカタログデータポータル意思決定者 / データ利用者Transform レイヤーModern Data Stack / Modern Data Team の潮流も受け、ビジネスレイヤーに近接した領域でデータ利活用推進・およびデータマネジメントの装着を行うアナリティクスエンジニアのポジションを新設。Extract / Load レイヤーアナリティクスエンジニア分析にすぐ使えるクリーンなデータ環境を提供するためにソフトウェアの開発手法を活用して生産性の高いデータ管理を実現するデータアナリストとデータエンジニアの架け橋となる存在データエンジニア
© Recruit Co., Ltd. All Rights Reservedアナリティクスエンジニア組織の役割12事業 DB / ASP アクセスログBIモニタリングアドホックレポートSQL実行環境外部システム連携データレイク層データウェアハウス層 データマート層 データカタログデータポータル意思決定者 / データ利用者● 要求元の分散化 => よりステークホルダーに近いレイヤーでの要求整理・要件定義を実施。また、SSOT (SingleSource of Truth) や再利用性を意識した継続的なデータモデリングを実施する。● 難易度の高度化 => 構造的なロジック・メタデータ管理、CI/CD や自動テストなど、ソフトウェアエンジニアリング手法を適用し、DataOps の実現を通して開発・運用効率を改善する。● データマネジメントサイクルの長期化 => 『Data as aproduct』 を念頭に、各種アウトプットの利用状況を定期的に確認しながらデータ環境の PDCA を回しつつ注力すべき箇所を特定する。
© Recruit Co., Ltd. All Rights Reserved意思決定者 / データ利用者アナリティクスエンジニア組織の役割13事業 DB / ASP アクセスログBIモニタリングアドホックレポートSQL実行環境外部システム連携データレイク層データウェアハウス層 データマート層 データカタログデータポータル● 狭義のアナリティクスエンジニアは dbt/Dataform などを活用し、分析的観点でのデータモデリングの実施、SQLなどでの変換処理の実装がメインの役割。● 一方、意思決定に寄与するための要求整理・要件定義、またBI ダッシュボードなどの成果物管理など、『Data as aproduct としてのデータマネジメント』 を実現するためには、意思決定者 / データ利用者 の目線に立ったアウトカムを出すことも求められる。● そのため、現状は 『データアナリスト』 や 『BI エンジニア』として定義される役割も包含した位置づけとしている。
© Recruit Co., Ltd. All Rights ReservedDataformGithubアナリティクスエンジニアの活動事例● 構造的なデータ変換処理の仕組み(Dataform)を導入し、依存関係を明確化● アナリストによるワークフロー開発を可能にしたことで開発速度を改善14テーブル Xテーブル A テーブル Bテーブル CSQLSQLテーブル Xテーブル A テーブル Bテーブル CSQLSQLアドホックな変換処理SQL の管理をしていたため、テーブルへの変更が思わぬ形で波及することにDataform 内で構造的にテーブル間の依存関係を管理することができ、リネージも自動生成が可能に変換処理もバージョン管理がされるため、プルリクエストベースの開発や自動テストなども可能に
© Recruit Co., Ltd. All Rights Reservedアナリティクスエンジニアの活動事例● SSOT (Single Source of Truth) 実現のためのデータマネジメントを実施● 統一データマートとして事業 KPI を実装するなど品質管理強度を改善15テーブル A テーブル B テーブル C独自のロジック 独自のロジック売上 売上指標の物理定義が異なるために抽出経路や担当者によって同じ指標でも数値が異なるテーブル A テーブル B テーブル CSSOTデータマート売上意思決定者側の議論に入り込み、指標定義の認識を揃えてビジネスロジックを一元化このデータマート以外からの抽出を許さないようにガバナンスを装着データポータル自動テストコーディングルール整備品質管理強度改善のための取り組み
© Recruit Co., Ltd. All Rights Reserved現状の課題と今後の方向性● 認知が急速に拡大してきたものの、他のデータ系職種に比べると未だ不明瞭な点は多い○ ジェネラリスト色が強い職種だが、専門性(スキル) + キャリアパスの定義が不可欠○ 参考) GitLab 社によるアナリティクスエンジニアのキャリアラダー● アナリティクスエンジニアという役割が明確になったことで、近接職種からの職種転換も今後進んでいくことが予想される○ データエンジニア : ゼロ ETL (AWS)などクラウドの進化の影響で ETL パイプライン開発難度が下がり、深い事業理解をもとによりビジネスに近いレイヤーから分析基盤を設計できることに価値が移る○ データアナリスト : 民主化とともによりステークホルダーに近いところでデータの加工処理や品質管理を実施することが必要となり、単独でも一定のデータマネジメントを実現できることも求められていく16
© Recruit Co., Ltd. All Rights Reservedまとめ● リクルートでは、データ利活用が進むに連れ顕在化したデータマネジメントにおける3つの課題感を背景に、アナリティクスエンジニアの組織を立ち上げた○ 要求元の分散化○ 難易度の高度化○ データマネジメントサイクルの長期化● アナリティクスエンジニアの活動によるデータ分析プロセスの効率化・生産性向上の事例が出来つつある○ 一方でスキル定義やキャリアパス設計など不明瞭な部分も多いため、引き続き制度設計を進めていく○ アナリティクスエンジニアの存在を前提としたデータマネジメント標準を形作り、より大規模な現場装着を実施していく17
© Recruit Co., Ltd. All Rights Reservedご参考資料● 社員紹介 アナリティクスエンジニア● アナリティクスエンジニアの募集を始めました● ビジネスとエンジニアリングをつなぐ「アナリティクスエンジニア」とは。リクルートが“価値あるデータ整備”のための新たな職種に着目した理由● リクルートが考える「意思決定に効くデータマネジメント」とは18