Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
#前向きデータ整備人 を参考に データ基盤を立ち上げた話 2020年7月14日 おおた / OTA2000
Slide 2
Slide 2 text
自己紹介
Slide 3
Slide 3 text
自己紹介 ◆ 2019年7月 マネーフォワード入社 ◆ 2019年11月~ データ整備人としてデータ分析基盤の立ち上げプロジェクトに参画 前職はGoogleアナリティクス360の正規代理店で、約5年ほどクライアント向けにウェブ行動デー タを軸としたプライベートDMPの構築などをしていました ◆ Twitter: @_OTA2000 ◆ Blog: /var/log/OTA2000 [PR] 一緒に働いてくれるデータエンジニアを募集しています
Slide 4
Slide 4 text
今日はなすこと
Slide 5
Slide 5 text
今日はなすこと 弊社のデータ分析基盤構築PJTが発足したのは 2019年11月頃でした。 第一回の #前向きデータ整備人 が開催されたのが 同時期(2019年11月27日)ということもあり、 各回の発表から「分析を推進する上でのマインドセット」 や「基盤構成」など非常に参考にさせていただきました。
Slide 6
Slide 6 text
今日はなすこと 今回は、わたしたちの分析基盤に #前向きデータ整備人 のエッセンスがどのように反映されているか 発表の場をお借りしてアウトプットします。 これまで参加されている方には振り返りの場として、 初参加の方には今後の参考になる発表を心がけていきます。
Slide 7
Slide 7 text
現在の分析基盤
Slide 8
Slide 8 text
現在の分析基盤 詳しくはコチラから ● プロダクトデータの収集: Embulk + DigDag ● 3rdパーティツールのデータ収集: Cloud Composer(Airflow) ● データプラットフォーム: BigQuery ● データプラットフォーム内のETL: Cloud Composer(Airflow) ● データ探索・可視化: Looker ● 構成管理: Terraform
Slide 9
Slide 9 text
現在の分析基盤
Slide 10
Slide 10 text
現在の分析基盤 Eurekaの DataPlatform開発状況と再現性の実現 (第二回) 元々、BigQueryを軸に分析基盤を構築するということで、 SREなどのエンジニアリソースもあまり割けない状況もあり、 フルマネージドのワークフローエンジンとしてCloud Composer を採用する方針でしたが、改めて実際に運用されている事例を聞くことでメ リデメなど分かった上で構築に進むことが出来ました。
Slide 11
Slide 11 text
現在の分析基盤 Eurekaの DataPlatform開発状況と再現性の実現 (第二回) この発表で特に参考にしたポイントは、 CI等の整備をおこない開発障壁を下げ、巻き込みやすい環境を 整えることでした。 また、AirflowにETLを集約したことで実行状況の可視化や GitHub上でのクエリのコード管理を実現し、 ブラックボックスをなくし再現性を高めることが出来ました。
Slide 12
Slide 12 text
なぜこの構成に至ったか
Slide 13
Slide 13 text
なぜこの構成に至ったか 意思決定に繋がる Intelligence とは (第二回) ● データを必要とするユーザーはなにを欲しているのか ○ データ自体ではなくIntelligenceを欲している ● なぜIntelligenceが必要なのか ○ 課題解決する上での意思決定をしたいから ● 意思決定には速度が求められる ○ 意思決定の速度が遅ければ機会損失にもつながる
Slide 14
Slide 14 text
なぜこの構成に至ったか 意思決定に繋がる Intelligence とは (第二回) つまり、データ整備人の役割とは、 「Intelligenceにつながるデータを素早く取り出せる環境を 構築することである。」と解釈しました。 多くの人を巻き込んで分析速度を高められる基盤を考えたとき、 前述のような構成が最適であるという結論に至りました。
Slide 15
Slide 15 text
プロジェクト初期のはなし
Slide 16
Slide 16 text
プロジェクト初期のはなし 最低限これだけは整備しておいた方がいいこと (第三回) 以下、引用です。 1. 重要な指標を簡単に取れるようにすること 2. 個人情報の隔離 3. 重要事項の記録
Slide 17
Slide 17 text
プロジェクト初期のはなし 最低限これだけは整備しておいた方がいいこと (第三回) 1. 重要な指標を簡単に取れるようにすること 重要な指標とは「全社レベルで共有すべきKPI」であり、 この指標を簡単に取り出すにはBIツールでのダッシュボード構築や BIツールにつなぐデータマート層の整備が重要です。 前述の基盤構成を採用したことでデータマート層の成り立ちが ひと目で分かる状態になり機動力UPに繋がりました。
Slide 18
Slide 18 text
プロジェクト初期のはなし 最低限これだけは整備しておいた方がいいこと (第三回) 2. 個人情報の隔離 漏れるリスクを負った状態の基盤で誰でもカジュアルに 分析出来る状態が危険であることは火を見るより明らかです。 現状、プロダクトやサードパーティツールといったデータソース からBigQueryへ持ち出す段階でカラム単位の削除やマスキング を行っています。
Slide 19
Slide 19 text
プロジェクト初期のはなし 最低限これだけは整備しておいた方がいいこと (第三回) 3. 重要事項の記録 データカタログの整備を進めています(現在進行系)。 抽出ロジックなどはGitHub上のETLコードを読めば 明らかな状態になっていますが、データの仕様や変更履歴に 関してはデータカタログを整備することで、なるべく自動的に 記録が反映されるような仕組みづくりに取り組んでいます。
Slide 20
Slide 20 text
まとめ
Slide 21
Slide 21 text
まとめ データ基盤の立ち上げ初期に意識したことは以下のとおりです。 1. データ整備することで得られるメリット明確にする a. 意思決定に関わるIntelligenceをデータという形で 素早く取り出せる b. データの正確性が担保される 2. リスクを考慮した基盤の構築 a. 個人情報の漏洩 b. 今後のプロジェクトを円滑に進められるよう先手を打つ
Slide 22
Slide 22 text
最後に… データ整備人(データエンジニア) の採用を積極的に進めています。 とりあえず話を聞いてみたい方 はぜひお声がけください! Twitter: @_OTA2000
Slide 23
Slide 23 text
Thank you!