Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最強?のデータ組織アーキテクチャ

 最強?のデータ組織アーキテクチャ

みんなの考えた最強のデータアーキテクチャ(https://datatech-jp.connpass.com/event/258157/ )にて発表した資料です!!

今回は時間がありませんでしたが, 今後の発表でdata platformの詳しい中身について個別に紹介していきたいと思っています!

Atsushi Sumita

November 10, 2022
Tweet

More Decks by Atsushi Sumita

Other Decks in Technology

Transcript

  1. © 2013 - 2022 Finatext Ltd. 6 アーキテクチャの良さは文脈次第なので, 唯一の”最強”な解は存在しない 本発表の主題は弊社の文脈における課題と,

    それをどう解決しようとしているか 文脈とは? • 組織の性質 ◦ 全体の人数, エンジニアの人数, データエンジニアの人数 ◦ データリテラシーの普及度合い • データの性質やユースケース ◦ 量, 種類, 品質, ... ◦ ユーザーは誰か, リアルタイムか日次更新か, ... • 関連する他のシステムの性質 • …
  2. © 2013 - 2022 Finatext Ltd. 10 ナウキャストの紹介 Alternative Dataとは利活用の進んでいないビッグデータの総称

    Alternative Dataとは元々は金融領域の用語で、伝統的に使 われてきた財務情報や経済統計のようなデータ( Traditional Data)に対して、これまで利活用の進んでこなかったビッグデー タのことを指します。 データ利活用が活発なアメリカでは、様々な種類の Alternative Dataがサービスとして実際に提供されています。 参考) オルタナティブデータとは
  3. © 2013 - 2022 Finatext Ltd. 12 ナウキャストはデータエンジニアが主役となる組織! なので, 以下のような文脈があります

    • データが文字通りプロダクトである • データエンジニアがたくさんいる (15人以上) • データのクレンジング/マスタリングに深いドメイン理解が求められる この文脈で適切な組織アーキテクチャは何かを考える 逆に言うと, 今回お話する内容は • そもそもデータの重要性があまり認識されていない • データエンジニアがあまりいない • 扱っているデータの行儀が良くそこまで手間がかからない などの文脈ではおそらくあまりfitしないと思います!
  4. © 2013 - 2022 Finatext Ltd. 13 データソース毎に1つのチーム(1~5人)が形成されてきた raw data

    ETL DWH Data source A インフラ 管理 データ分析 Client • 一つのチーム内でインフラ/データパイプライン/データ分析まで一気通貫で行う組織構成 ◦ データを深く理解しないとETLも分析も出来ないため必然的にこうなった ◦ 必要なものは全てチーム内で調達出来るため, 迅速にデリバー出来る cleansed data Team A
  5. © 2013 - 2022 Finatext Ltd. 14 課題1: システムの品質向上に時間をかけられない •

    メインミッションのETL開発/分析以外の改善系タスクが後回しになりがち ◦ テスト/ドキュメント/リネージュが存在しない ◦ ETLジョブの監視が不十分 ◦ 本番環境しか存在せずデプロイがリスキー ◦ DWHの選定/運用をやりきれず, ETLジョブがfailしがち ◦ … • 特定のチームでうまく出来た改善が他のチームに横展開されない ◦ 他のチームにニーズがあるのか不明 ◦ 仕組みを汎用化するインセンティブがない
  6. © 2013 - 2022 Finatext Ltd. 15 課題2: 複数データの掛け合わせが出来ない (サイロ化)

    Data Source A Data Source B Data Source D Data Source C チーム毎にサイロ化したシステムができちゃった! (コンウェイの法則)
  7. © 2013 - 2022 Finatext Ltd. 16 課題2: 複数データの掛け合わせが出来ない(サイロ化) Data

    Source A Data Source B Data Source D Data Source C Data Source Aとの 比較分析したいけ ど, どこにどうアクセ スすればええのか わからんわー
  8. © 2013 - 2022 Finatext Ltd. 17 課題2: 複数データの掛け合わせが出来ない(サイロ化) Data

    Source A Data Source B Data Source D Data Source C Data Source Cってどんなのが あるんや?
  9. © 2013 - 2022 Finatext Ltd. 18 課題2: 複数データの掛け合わせが出来ない(サイロ化) Data

    Source A Data Source B Data Source D Data Source C 転送ジョブで対処? →組合せ爆発!
  10. © 2013 - 2022 Finatext Ltd. 20 最強?のデータ組織アーキテクチャ DWH インフラ

    管理 ETL基盤 CI/CD基盤 Platform team データ分析基 盤 2022年度からこの体制に変更! Team A Team B ETL ETL データ分析 データ分析 …
  11. © 2013 - 2022 Finatext Ltd. 21 最強?のデータ組織アーキテクチャ DWH インフラ

    管理 ETL基盤 CI/CD基盤 Platform team データ分析基 盤 各チームで共通して必要な開発業務を切り出しplatform teamが引き受ける Team A Team B ETL ETL データ分析 データ分析 …
  12. © 2013 - 2022 Finatext Ltd. 22 最強?のデータ組織アーキテクチャ DWH インフラ

    管理 ETL基盤 CI/CD基盤 ポイント: スケーラビリティのために分散志向だが, DWHは統一する Platform team データ分析基 盤 Team A Team B ETL ETL データ分析 データ分析 …
  13. © 2013 - 2022 Finatext Ltd. 23 Data platformどこまで出来てるの? DWH

    インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤 Not Perfect but done!
  14. © 2013 - 2022 Finatext Ltd. 24 Data platformどこまで出来てるの? DWH

    インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤 Coming soon!
  15. © 2013 - 2022 Finatext Ltd. 25 Data platformどこまで出来てるの? DWH

    インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤 Not yet!
  16. © 2013 - 2022 Finatext Ltd. 26 Data platformの具体的な中身は? •

    単一のDWH上でSSOTを実現しつつもcomputeは分離しておく ◦ snowflakeはここが優れている • 適切な権限管理体制を仕組み化 ◦ PIIやデータの外部提供の際に適切なレビューが必ず入る ◦ 危険性の高い変更はadminによるレビューが必ず入る DWH インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤
  17. © 2013 - 2022 Finatext Ltd. 27 Data platformの具体的な中身は? DWH

    インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤 • dbtを中心に構築 ◦ テスト/ドキュメント/リネージュが簡単に手に入る • SQLで書けないジョブ用にAirflowも用意
  18. © 2013 - 2022 Finatext Ltd. 28 Data platformの具体的な中身は? DWH

    インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤 • github actionで定義 ◦ 本番環境でdbt buildする前にdev/stgでdbt buildが回る ◦ udfやdocsのデプロイ ◦ … • モノレポ or boilerplateとして配布
  19. © 2013 - 2022 Finatext Ltd. 29 Data platformの具体的な中身は? DWH

    インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤 • マネージドnotebook環境やBI周りを想定中!
  20. © 2013 - 2022 Finatext Ltd. 30 Data platformの具体的な中身は? DWH

    インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤 • IaCでちゃんと管理!