Slide 1

Slide 1 text

© 2015 - 2022 Nowcast Inc. 最強?のデータ組織アーキテクチャ at みんなの考えた最強のデータアーキテクチャ 株式会社ナウキャスト 隅田 敦 1

Slide 2

Slide 2 text

© 2013 - 2022 Finatext Ltd. 2 twitter: @yummydum 隅田 敦 すみた あつし

Slide 3

Slide 3 text

© 2013 - 2022 Finatext Ltd. 3

Slide 4

Slide 4 text

© 2013 - 2022 Finatext Ltd. 4 最強?のデータ組織アーキテクチャを考える前に

Slide 5

Slide 5 text

© 2013 - 2022 Finatext Ltd. 5 なぜ組織アーキテクチャを考える必要があるのか? じゃあ逆に望ましい技術アーキテクチャを導くような組織作ろう! (逆コンウェイの法則) システムはそれを設計する組織の構造を模倣したものになる (コンウェイの法則)

Slide 6

Slide 6 text

© 2013 - 2022 Finatext Ltd. 6 アーキテクチャの良さは文脈次第なので, 唯一の”最強”な解は存在しない 本発表の主題は弊社の文脈における課題と, それをどう解決しようとしているか 文脈とは? ● 組織の性質 ○ 全体の人数, エンジニアの人数, データエンジニアの人数 ○ データリテラシーの普及度合い ● データの性質やユースケース ○ 量, 種類, 品質, ... ○ ユーザーは誰か, リアルタイムか日次更新か, ... ● 関連する他のシステムの性質 ● …

Slide 7

Slide 7 text

© 2013 - 2022 Finatext Ltd. 7 (補足) 今回の発表は過去の私の発表内容の続編です! スライドはこちら!

Slide 8

Slide 8 text

© 2013 - 2022 Finatext Ltd. 8 これまでの組織アーキテクチャ

Slide 9

Slide 9 text

© 2013 - 2022 Finatext Ltd. 9 株式会社ナウキャスト

Slide 10

Slide 10 text

© 2013 - 2022 Finatext Ltd. 10 ナウキャストの紹介 Alternative Dataとは利活用の進んでいないビッグデータの総称 Alternative Dataとは元々は金融領域の用語で、伝統的に使 われてきた財務情報や経済統計のようなデータ( Traditional Data)に対して、これまで利活用の進んでこなかったビッグデー タのことを指します。 データ利活用が活発なアメリカでは、様々な種類の Alternative Dataがサービスとして実際に提供されています。 参考) オルタナティブデータとは

Slide 11

Slide 11 text

© 2013 - 2022 Finatext Ltd. 11 ナウキャストの紹介 データの保有側・利用側の双方に価値を提供するAlternative Dataの Two-Sided Platformを展開

Slide 12

Slide 12 text

© 2013 - 2022 Finatext Ltd. 12 ナウキャストはデータエンジニアが主役となる組織! なので, 以下のような文脈があります ● データが文字通りプロダクトである ● データエンジニアがたくさんいる (15人以上) ● データのクレンジング/マスタリングに深いドメイン理解が求められる この文脈で適切な組織アーキテクチャは何かを考える 逆に言うと, 今回お話する内容は ● そもそもデータの重要性があまり認識されていない ● データエンジニアがあまりいない ● 扱っているデータの行儀が良くそこまで手間がかからない などの文脈ではおそらくあまりfitしないと思います!

Slide 13

Slide 13 text

© 2013 - 2022 Finatext Ltd. 13 データソース毎に1つのチーム(1~5人)が形成されてきた raw data ETL DWH Data source A インフラ 管理 データ分析 Client ● 一つのチーム内でインフラ/データパイプライン/データ分析まで一気通貫で行う組織構成 ○ データを深く理解しないとETLも分析も出来ないため必然的にこうなった ○ 必要なものは全てチーム内で調達出来るため, 迅速にデリバー出来る cleansed data Team A

Slide 14

Slide 14 text

© 2013 - 2022 Finatext Ltd. 14 課題1: システムの品質向上に時間をかけられない ● メインミッションのETL開発/分析以外の改善系タスクが後回しになりがち ○ テスト/ドキュメント/リネージュが存在しない ○ ETLジョブの監視が不十分 ○ 本番環境しか存在せずデプロイがリスキー ○ DWHの選定/運用をやりきれず, ETLジョブがfailしがち ○ … ● 特定のチームでうまく出来た改善が他のチームに横展開されない ○ 他のチームにニーズがあるのか不明 ○ 仕組みを汎用化するインセンティブがない

Slide 15

Slide 15 text

© 2013 - 2022 Finatext Ltd. 15 課題2: 複数データの掛け合わせが出来ない (サイロ化) Data Source A Data Source B Data Source D Data Source C チーム毎にサイロ化したシステムができちゃった! (コンウェイの法則)

Slide 16

Slide 16 text

© 2013 - 2022 Finatext Ltd. 16 課題2: 複数データの掛け合わせが出来ない(サイロ化) Data Source A Data Source B Data Source D Data Source C Data Source Aとの 比較分析したいけ ど, どこにどうアクセ スすればええのか わからんわー

Slide 17

Slide 17 text

© 2013 - 2022 Finatext Ltd. 17 課題2: 複数データの掛け合わせが出来ない(サイロ化) Data Source A Data Source B Data Source D Data Source C Data Source Cってどんなのが あるんや?

Slide 18

Slide 18 text

© 2013 - 2022 Finatext Ltd. 18 課題2: 複数データの掛け合わせが出来ない(サイロ化) Data Source A Data Source B Data Source D Data Source C 転送ジョブで対処? →組合せ爆発!

Slide 19

Slide 19 text

© 2013 - 2022 Finatext Ltd. 19 最強?のデータ組織アーキテクチャ

Slide 20

Slide 20 text

© 2013 - 2022 Finatext Ltd. 20 最強?のデータ組織アーキテクチャ DWH インフラ 管理 ETL基盤 CI/CD基盤 Platform team データ分析基 盤 2022年度からこの体制に変更! Team A Team B ETL ETL データ分析 データ分析 …

Slide 21

Slide 21 text

© 2013 - 2022 Finatext Ltd. 21 最強?のデータ組織アーキテクチャ DWH インフラ 管理 ETL基盤 CI/CD基盤 Platform team データ分析基 盤 各チームで共通して必要な開発業務を切り出しplatform teamが引き受ける Team A Team B ETL ETL データ分析 データ分析 …

Slide 22

Slide 22 text

© 2013 - 2022 Finatext Ltd. 22 最強?のデータ組織アーキテクチャ DWH インフラ 管理 ETL基盤 CI/CD基盤 ポイント: スケーラビリティのために分散志向だが, DWHは統一する Platform team データ分析基 盤 Team A Team B ETL ETL データ分析 データ分析 …

Slide 23

Slide 23 text

© 2013 - 2022 Finatext Ltd. 23 Data platformどこまで出来てるの? DWH インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤 Not Perfect but done!

Slide 24

Slide 24 text

© 2013 - 2022 Finatext Ltd. 24 Data platformどこまで出来てるの? DWH インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤 Coming soon!

Slide 25

Slide 25 text

© 2013 - 2022 Finatext Ltd. 25 Data platformどこまで出来てるの? DWH インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤 Not yet!

Slide 26

Slide 26 text

© 2013 - 2022 Finatext Ltd. 26 Data platformの具体的な中身は? ● 単一のDWH上でSSOTを実現しつつもcomputeは分離しておく ○ snowflakeはここが優れている ● 適切な権限管理体制を仕組み化 ○ PIIやデータの外部提供の際に適切なレビューが必ず入る ○ 危険性の高い変更はadminによるレビューが必ず入る DWH インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤

Slide 27

Slide 27 text

© 2013 - 2022 Finatext Ltd. 27 Data platformの具体的な中身は? DWH インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤 ● dbtを中心に構築 ○ テスト/ドキュメント/リネージュが簡単に手に入る ● SQLで書けないジョブ用にAirflowも用意

Slide 28

Slide 28 text

© 2013 - 2022 Finatext Ltd. 28 Data platformの具体的な中身は? DWH インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤 ● github actionで定義 ○ 本番環境でdbt buildする前にdev/stgでdbt buildが回る ○ udfやdocsのデプロイ ○ … ● モノレポ or boilerplateとして配布

Slide 29

Slide 29 text

© 2013 - 2022 Finatext Ltd. 29 Data platformの具体的な中身は? DWH インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤 ● マネージドnotebook環境やBI周りを想定中!

Slide 30

Slide 30 text

© 2013 - 2022 Finatext Ltd. 30 Data platformの具体的な中身は? DWH インフラ 管理 ETL基盤 CI/CD基盤 データ分析基 盤 ● IaCでちゃんと管理!

Slide 31

Slide 31 text

© 2013 - 2022 Finatext Ltd. 31 DataOpsNight3に是非おいでませ! イベントはこちらから! 僕の発表内容はこれ !

Slide 32

Slide 32 text

© 2013 - 2022 Finatext Ltd. 32 End