「#前向きデータ整備人」を参考にデータ基盤を立ち上げた話

96aea5ecc4aeb3ffec49252f6bee7a0a?s=47 OTA2000
July 14, 2020

 「#前向きデータ整備人」を参考にデータ基盤を立ち上げた話

第5回 データアーキテクト(データ整備人)を”前向きに”考える会
https://analytics-and-intelligence.connpass.com/event/180202/

おおた / OTA2000
ブログ :https://blog.ota2000.com
Twitter:https://twitter.com/_OTA2000

96aea5ecc4aeb3ffec49252f6bee7a0a?s=128

OTA2000

July 14, 2020
Tweet

Transcript

  1. #前向きデータ整備人 を参考に データ基盤を立ち上げた話 2020年7月14日 おおた / OTA2000

  2. 自己紹介

  3. 自己紹介 ◆ 2019年7月 マネーフォワード入社 ◆ 2019年11月~ データ整備人としてデータ分析基盤の立ち上げプロジェクトに参画 
 前職はGoogleアナリティクス360の正規代理店で、約5年ほどクライアント向けにウェブ行動デー タを軸としたプライベートDMPの構築などをしていました

    ◆ Twitter: @_OTA2000 ◆ Blog: /var/log/OTA2000 [PR] 一緒に働いてくれるデータエンジニアを募集しています
  4. 今日はなすこと

  5. 今日はなすこと 弊社のデータ分析基盤構築PJTが発足したのは
 2019年11月頃でした。
 第一回の #前向きデータ整備人 が開催されたのが
 同時期(2019年11月27日)ということもあり、
 各回の発表から「分析を推進する上でのマインドセット」
 や「基盤構成」など非常に参考にさせていただきました。


  6. 今日はなすこと 今回は、わたしたちの分析基盤に #前向きデータ整備人
 のエッセンスがどのように反映されているか
 発表の場をお借りしてアウトプットします。
 これまで参加されている方には振り返りの場として、
 初参加の方には今後の参考になる発表を心がけていきます。


  7. 現在の分析基盤

  8. 現在の分析基盤 詳しくはコチラから
 • プロダクトデータの収集: Embulk + DigDag
 • 3rdパーティツールのデータ収集: Cloud

    Composer(Airflow)
 • データプラットフォーム: BigQuery
 • データプラットフォーム内のETL: Cloud Composer(Airflow)
 • データ探索・可視化: Looker
 • 構成管理: Terraform

  9. 現在の分析基盤

  10. 現在の分析基盤 Eurekaの DataPlatform開発状況と再現性の実現 (第二回)
 元々、BigQueryを軸に分析基盤を構築するということで、
 SREなどのエンジニアリソースもあまり割けない状況もあり、
 フルマネージドのワークフローエンジンとしてCloud Composer
 を採用する方針でしたが、改めて実際に運用されている事例を聞くことでメ リデメなど分かった上で構築に進むことが出来ました。


  11. 現在の分析基盤 Eurekaの DataPlatform開発状況と再現性の実現 (第二回)
 この発表で特に参考にしたポイントは、
 CI等の整備をおこない開発障壁を下げ、巻き込みやすい環境を
 整えることでした。
 また、AirflowにETLを集約したことで実行状況の可視化や
 GitHub上でのクエリのコード管理を実現し、
 ブラックボックスをなくし再現性を高めることが出来ました。


  12. なぜこの構成に至ったか

  13. なぜこの構成に至ったか 意思決定に繋がる Intelligence とは (第二回)
 • データを必要とするユーザーはなにを欲しているのか
 ◦ データ自体ではなくIntelligenceを欲している
 •

    なぜIntelligenceが必要なのか
 ◦ 課題解決する上での意思決定をしたいから
 • 意思決定には速度が求められる
 ◦ 意思決定の速度が遅ければ機会損失にもつながる

  14. なぜこの構成に至ったか 意思決定に繋がる Intelligence とは (第二回)
 つまり、データ整備人の役割とは、
 「Intelligenceにつながるデータを素早く取り出せる環境を
 構築することである。」と解釈しました。
 多くの人を巻き込んで分析速度を高められる基盤を考えたとき、
 前述のような構成が最適であるという結論に至りました。


  15. プロジェクト初期のはなし

  16. プロジェクト初期のはなし 最低限これだけは整備しておいた方がいいこと (第三回)
 以下、引用です。
 1. 重要な指標を簡単に取れるようにすること
 2. 個人情報の隔離
 3. 重要事項の記録


  17. プロジェクト初期のはなし 最低限これだけは整備しておいた方がいいこと (第三回)
 1. 重要な指標を簡単に取れるようにすること
 重要な指標とは「全社レベルで共有すべきKPI」であり、
 この指標を簡単に取り出すにはBIツールでのダッシュボード構築や
 BIツールにつなぐデータマート層の整備が重要です。
 前述の基盤構成を採用したことでデータマート層の成り立ちが
 ひと目で分かる状態になり機動力UPに繋がりました。


  18. プロジェクト初期のはなし 最低限これだけは整備しておいた方がいいこと (第三回)
 2. 個人情報の隔離
 漏れるリスクを負った状態の基盤で誰でもカジュアルに
 分析出来る状態が危険であることは火を見るより明らかです。
 現状、プロダクトやサードパーティツールといったデータソース
 からBigQueryへ持ち出す段階でカラム単位の削除やマスキング
 を行っています。


  19. プロジェクト初期のはなし 最低限これだけは整備しておいた方がいいこと (第三回)
 3. 重要事項の記録
 データカタログの整備を進めています(現在進行系)。
 抽出ロジックなどはGitHub上のETLコードを読めば
 明らかな状態になっていますが、データの仕様や変更履歴に
 関してはデータカタログを整備することで、なるべく自動的に
 記録が反映されるような仕組みづくりに取り組んでいます。


  20. まとめ

  21. まとめ データ基盤の立ち上げ初期に意識したことは以下のとおりです。
 1. データ整備することで得られるメリット明確にする
 a. 意思決定に関わるIntelligenceをデータという形で
 素早く取り出せる
 b. データの正確性が担保される
 2.

    リスクを考慮した基盤の構築
 a. 個人情報の漏洩
 b. 今後のプロジェクトを円滑に進められるよう先手を打つ

  22. 最後に…
 データ整備人(データエンジニア)
 の採用を積極的に進めています。
 とりあえず話を聞いてみたい方
 はぜひお声がけください!
 Twitter: @_OTA2000


  23. Thank you!