「#前向きデータ整備人」を参考にデータ基盤を立ち上げた話

Slide 1

Slide 1 text

#前向きデータ整備人を参考にデータ基盤を立ち上げた話 2020年7月14日おおた / OTA2000

Slide 2

Slide 2 text

自己紹介

Slide 3

Slide 3 text

自己紹介 ◆ 2019年7月マネーフォワード入社 ◆ 2019年11月~ データ整備人としてデータ分析基盤の立ち上げプロジェクトに参画   前職はGoogleアナリティクス360の正規代理店で、約5年ほどクライアント向けにウェブ行動データを軸としたプライベートDMPの構築などをしていました ◆ Twitter: @_OTA2000 ◆ Blog: /var/log/OTA2000 [PR] 一緒に働いてくれるデータエンジニアを募集しています

Slide 4

Slide 4 text

今日はなすこと

Slide 5

Slide 5 text

今日はなすこと弊社のデータ分析基盤構築PJTが発足したのは  2019年11月頃でした。  第一回の #前向きデータ整備人が開催されたのが  同時期（2019年11月27日）ということもあり、  各回の発表から「分析を推進する上でのマインドセット」  や「基盤構成」など非常に参考にさせていただきました。 

Slide 6

Slide 6 text

今日はなすこと今回は、わたしたちの分析基盤に #前向きデータ整備人  のエッセンスがどのように反映されているか  発表の場をお借りしてアウトプットします。  これまで参加されている方には振り返りの場として、  初参加の方には今後の参考になる発表を心がけていきます。 

Slide 7

Slide 7 text

現在の分析基盤

Slide 8

Slide 8 text

現在の分析基盤詳しくはコチラから  ● プロダクトデータの収集: Embulk + DigDag  ● 3rdパーティツールのデータ収集: Cloud Composer(Airflow)  ● データプラットフォーム: BigQuery  ● データプラットフォーム内のETL: Cloud Composer(Airflow)  ● データ探索・可視化: Looker  ● 構成管理: Terraform 

Slide 9

Slide 9 text

現在の分析基盤

Slide 10

Slide 10 text

現在の分析基盤 Eurekaの DataPlatform開発状況と再現性の実現 (第二回)  元々、BigQueryを軸に分析基盤を構築するということで、  SREなどのエンジニアリソースもあまり割けない状況もあり、  フルマネージドのワークフローエンジンとしてCloud Composer  を採用する方針でしたが、改めて実際に運用されている事例を聞くことでメリデメなど分かった上で構築に進むことが出来ました。 

Slide 11

Slide 11 text

現在の分析基盤 Eurekaの DataPlatform開発状況と再現性の実現 (第二回)  この発表で特に参考にしたポイントは、  CI等の整備をおこない開発障壁を下げ、巻き込みやすい環境を  整えることでした。  また、AirflowにETLを集約したことで実行状況の可視化や  GitHub上でのクエリのコード管理を実現し、  ブラックボックスをなくし再現性を高めることが出来ました。 

Slide 12

Slide 12 text

なぜこの構成に至ったか

Slide 13

Slide 13 text

なぜこの構成に至ったか意思決定に繋がる Intelligence とは (第二回)  ● データを必要とするユーザーはなにを欲しているのか  ○ データ自体ではなくIntelligenceを欲している  ● なぜIntelligenceが必要なのか  ○ 課題解決する上での意思決定をしたいから  ● 意思決定には速度が求められる  ○ 意思決定の速度が遅ければ機会損失にもつながる 

Slide 14

Slide 14 text

なぜこの構成に至ったか意思決定に繋がる Intelligence とは (第二回)  つまり、データ整備人の役割とは、  「Intelligenceにつながるデータを素早く取り出せる環境を  構築することである。」と解釈しました。  多くの人を巻き込んで分析速度を高められる基盤を考えたとき、  前述のような構成が最適であるという結論に至りました。 

Slide 15

Slide 15 text

プロジェクト初期のはなし

Slide 16

Slide 16 text

プロジェクト初期のはなし最低限これだけは整備しておいた方がいいこと (第三回)  以下、引用です。  1. 重要な指標を簡単に取れるようにすること  2. 個人情報の隔離  3. 重要事項の記録 

Slide 17

Slide 17 text

プロジェクト初期のはなし最低限これだけは整備しておいた方がいいこと (第三回)  1. 重要な指標を簡単に取れるようにすること  重要な指標とは「全社レベルで共有すべきKPI」であり、  この指標を簡単に取り出すにはBIツールでのダッシュボード構築や  BIツールにつなぐデータマート層の整備が重要です。  前述の基盤構成を採用したことでデータマート層の成り立ちが  ひと目で分かる状態になり機動力UPに繋がりました。 

Slide 18

Slide 18 text

プロジェクト初期のはなし最低限これだけは整備しておいた方がいいこと (第三回)  2. 個人情報の隔離  漏れるリスクを負った状態の基盤で誰でもカジュアルに  分析出来る状態が危険であることは火を見るより明らかです。  現状、プロダクトやサードパーティツールといったデータソース  からBigQueryへ持ち出す段階でカラム単位の削除やマスキング  を行っています。 

Slide 19

Slide 19 text

プロジェクト初期のはなし最低限これだけは整備しておいた方がいいこと (第三回)  3. 重要事項の記録  データカタログの整備を進めています（現在進行系）。  抽出ロジックなどはGitHub上のETLコードを読めば  明らかな状態になっていますが、データの仕様や変更履歴に  関してはデータカタログを整備することで、なるべく自動的に  記録が反映されるような仕組みづくりに取り組んでいます。 

Slide 20

Slide 20 text

まとめ

Slide 21

Slide 21 text

まとめデータ基盤の立ち上げ初期に意識したことは以下のとおりです。  1. データ整備することで得られるメリット明確にする  a. 意思決定に関わるIntelligenceをデータという形で  素早く取り出せる  b. データの正確性が担保される  2. リスクを考慮した基盤の構築  a. 個人情報の漏洩  b. 今後のプロジェクトを円滑に進められるよう先手を打つ 

Slide 22

Slide 22 text

最後に…  データ整備人（データエンジニア）  の採用を積極的に進めています。  とりあえず話を聞いてみたい方  はぜひお声がけください！  Twitter: @_OTA2000 

Slide 23

Slide 23 text

Thank you!