Slide 1

Slide 1 text

モダンデータアーキテクチャ ~ウィッシュじゃないよ、データメッシュ~ 2022/10/22 Chura DATA Tech Conference 2022 発表者 兼城 ⼤

Slide 2

Slide 2 text

ちゅらデータ株式会社 ・名前:兼城 ⼤(dai侍) ・仕事:データサイエンスとデー タエンジニアリングの⼆⼑流 ちゅらデータの初代ファーストペ ンギン。 データエンジニア関連の案件では、 Kubernetes、Terraformを使って データ分析基盤構築したり、 Airflowを使ったデータパイプライ ン構築等を担当。 データの⼤⾕翔平を⽬指してます。 ⾃⼰紹介

Slide 3

Slide 3 text

こんな⽅に聞いて欲しい • ⼤規模な組織で、迅速なデータ利活⽤を求めてる • モダンなデータアーキテクチャを知りたい • 5年後の未来を先取りしたい

Slide 4

Slide 4 text

データ

Slide 5

Slide 5 text

ウィッシュ!!!

Slide 6

Slide 6 text

じゃないよ

Slide 7

Slide 7 text

データメッシュ

Slide 8

Slide 8 text

⽬次 • 本テーマに対する動機づけ • これまでのアーキテクチャとその問題点 • データアーキテクチャとは • データアーキテクチャの歴史 • これまでのデータアーキテクチャの問題点 • データメッシュ • データメッシュとは • データメッシュの4原則 • なぜデータメッシュを導⼊するか • データメッシュ導⼊後の世界 • 参考⽂献 • Appendix • データメッシュのアーキテクチャ例

Slide 9

Slide 9 text

本テーマに対する 動機づけ

Slide 10

Slide 10 text

データメッシュが世に出るまで 1.How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh (Zhamak Dehghani,2019.5.20) - https://martinfowler.com/articl es/data-monolith-to-mesh.html 2. Data Mesh: Delivering Data- Driven Value at Scale(Zhamak Dehghani,2022.4.12) - https://www.amazon.co.jp/Dat a-Mesh-Delivering-Data- driven-Value/dp/1492092398 『 Data Mesh: Delivering Data-Driven Value at Scale 』 (Zhamak Dehghani,2022)

Slide 11

Slide 11 text

データメッシュに対する著名⼈の反応 ⾃分の組織がデータリソース を最⼤限に活⽤したいと願う ⼈なら、この本が私たちの理 解する最善の道を⽰してくれ ていると確信しました。 - Martin Fowler 上記の⽂章は、『Data Mesh: Delivering Data-Driven Value at Scale』(Zhamak Dehghani,2022)から引⽤し翻訳した Martin Fowlerの名著 『リファクタリング(第2版)』

Slide 12

Slide 12 text

データメッシュを知っておくと データエンジニアの最前線に⽴てるかも

Slide 13

Slide 13 text

本編はじまるよ

Slide 14

Slide 14 text

これまでのアーキテク チャとその問題点

Slide 15

Slide 15 text

データアーキテクチャとは 企業の(組織構造に関係なく)データニーズを明確にし、ニーズ に合うマスターとなる⻘写真を設計し、維持する。マスターとな る⻘写真を使ってデータ統合を⼿引きし、データ資産をコント ロールし、ビジネス戦略に合わせてデータへの投資を⾏う。 『データマネジメント知識体系ガイド 第⼆版』 DAMA International編著、DAMA⽇本⽀部・Metafindコンサルティング株式会社訳、⽇経BP社、2018 →どういったデータをどのように取得・保持・活⽤するかの設計

Slide 16

Slide 16 text

データアーキテクチャの歴史(第1世代) • データウェアハウスアーキテク チャ • 運⽤システムからビジネスインテ リジェンス (BI) システムにデー タを移動することを⽬的として構 築された • 主に、レポートおよび分析の視覚 化のユースケースのためにデータ アナリストにサービスを提供して いた • 時間の経過とともに、何千もの ETL ジョブ、テーブル、およびレ ポートが含まれており、複雑にな りがちだった 運⽤データ基盤からETLパイプラインで分析⽤データウェアハウスに取り込む 『 Data Mesh: Delivering Data-Driven Value at Scale 』(Zhamak Dehghani,2022)

Slide 17

Slide 17 text

データアーキテクチャの歴史(第2世代) • データレイクアーキテクチャ • データの新しい⽤途(機械学習モ デルのトレーニングプロセスにお けるデータサイエンティストの データへのアクセス)を満たす⽬ 的で構築された • 複雑で扱いにくいパイプラインは 時間と共に劣化し、管理されてい ないデータセットも存在しがち • データの系列と依存関係は不明瞭 で追跡が困難だった 元の形式に近いデータをデータレイク(中央リポジトリ)に保存 『 Data Mesh: Delivering Data-Driven Value at Scale 』(Zhamak Dehghani,2022)

Slide 18

Slide 18 text

データアーキテクチャの歴史(第3世代) • マルチモーダルクラウドアーキテ クチャ • クラウドベースのマネージドサー ビスを完全に採⽤し、クラウドの 弾⼒性を活⽤することで⼤規模な データを管理するコストを削減し た • 集中管理の仕組みは変わらない 分離されたコンピューティングとストレージを備えた最新のクラウドネイティブな実装 『 Data Mesh: Delivering Data-Driven Value at Scale 』(Zhamak Dehghani,2022)

Slide 19

Slide 19 text

これまでのデータアーキテクチャの問題点 1.データの検索に時間がかかる - 理由;1つのプラットフォームにデータが集約されているため 2.データの変更に弱い - 理由;取り込み、変換、吐き出しの機能が独⽴せず密結合に なっているため 3.データプラットフォームチームがタスクを捌き切れない - 理由;集中管理により、データに関連した全てのタスクに関わ りを持つため(他チームは他チームのドメインに集中できるが、 データプラットフォームチームは全チームの間に挟まれている)

Slide 20

Slide 20 text

データメッシュ

Slide 21

Slide 21 text

データメッシュとは 「Data mesh is a decentralized sociotechnical approach to share, access, and manage analytical data in complex and large-scale environments— within or across organizations. Data mesh is a new approach in sourcing, managing, and accessing data for analytical use cases at scale.」 『Data Mesh: Delivering Data-Driven Value at Scale』(Zhamak Dehghani,2022) →データメッシュは、複雑かつ⼤規模な環境において、組織内または組織 横断的に分析データを共有、アクセス、管理するための新しい分散型社会 技術的アプローチである

Slide 22

Slide 22 text

データメッシュの4原則 データメッシュは以下の4つの原則から成り⽴つ 1. ドメイン所有の原則 2. プロダクトとしてのデータ原則 3. セルフサービス型データプラットフォームの原則 4. フェデレーテッドコンピュータガバナンス原則

Slide 23

Slide 23 text

ドメイン所有の原則 • これまでのデータアーキテクチャ はパイプラインを受け持つチーム ごとに責任を持つシステム⽬線 だった • ドメイン(ビジネスユニット)ご とに後述するデータプロダクトを 所有し、その責任を持つ 責任は、ビジネスに合わせた責任の分割線に従う 『 Data Mesh: Delivering Data-Driven Value at Scale 』(Zhamak Dehghani,2022)

Slide 24

Slide 24 text

プロダクトとしてのデータ原則 • データ共有に必要なコンポーネントの最⼩単 位がデータプロダクト • データプロダクトは、どのドメインも利⽤可 能なため品質に責任を持つ • データプロダクトのベースラインユーザビリ ティ特性 1.発⾒可能性(Discoverable) 2.アドレス指定可能性(Addressable) 3.理解可能性(Understandable) 4.信頼性(Truthful) 5.ネイティブにアクセス可能(Natively Accessible) 6.相互運⽤可能(Interoperable) 7.独⽴して価値のあるもの(Valuable) 8.安全性(Secure) データそのものをプロダクトとして扱う 『 Data Mesh: Delivering Data-Driven Value at Scale 』(Zhamak Dehghani,2022)

Slide 25

Slide 25 text

セルフサービス型データプラットフォームの原則 • 各ドメインでの作業の重複を防ぐ のが⽬的 • ドメインにとらわれない機能横断 的な、ストレージ、アカウント、 コンピューティングなどのインフ ラを整備 • データプラットフォームチームが 役割を担う データプロダクトを構築、テスト、展開、保護、および維持できるようにするために必要 なすべての機能を持つデータプラットフォームを構築する 『 Data Mesh: Delivering Data-Driven Value at Scale 』(Zhamak Dehghani,2022)

Slide 26

Slide 26 text

フェデレーテッドコンピュータガバナンス原則 • ドメインデータプロダクトオー ナーとデータプラットフォーム オーナーから構成されるフェデ レーテッドチームが、⼀連のグ ローバルルールを作成し、ルール に基づいてデータプロダクトを作 成する データプロダクトが安全で信頼できるものであることを保証するガバナンス 『 Data Mesh: Delivering Data-Driven Value at Scale 』(Zhamak Dehghani,2022)

Slide 27

Slide 27 text

データメッシュの4原則まとめ データメッシュは以下の4つの原則から成り⽴つ 1.ドメイン所有の原則 →ドメインごとにパイプラインを構築する 2.プロダクトとしてのデータ原則 →データプロダクトの品質に責任を持つ 3.セルフサービス型データプラットフォームの原則 →ドメインにとらわれない共通機能をまとめる 4.フェデレーテッドコンピュータガバナンス原則 →グローバルルールに基づいてデータプロダクトを作成する

Slide 28

Slide 28 text

なぜデータメッシュを導⼊するか 以下のようなデータ活⽤の課題を抱えている状況のときに、データ メッシュの導⼊の検討を勧める - ⼤規模で複雑なデータ環境を持っている - 中央集権的なデータレイク設計でデータのビジネス活⽤が迅速にで きていない。新しいデータソースやユースケースが発⽣するたびに 調整コスト負荷が⽣じてしまう →逆に、⼩規模で単純なデータ環境を持っており、データの使⽤事例 が限定される状況であれば、データメッシュの導⼊を無理に取り⼊れ る必要はなさそう

Slide 29

Slide 29 text

データメッシュ導⼊後の世界 - データプラットフォームチームは、各ドメインの要求に頭を抱 える必要はない - これまでは、ドメインごとに優先順位をつけて対応していた - 各ドメインは、迅速なデータ活⽤が期待できる - これまでは、各ドメインは中央で集中管理しているデータプラット フォームチームに要求し、調整してパイプラインを構築していた。そ のため、データが使えるようになるまで時間がかかっていた

Slide 30

Slide 30 text

さあ始めよう

Slide 31

Slide 31 text

データ

Slide 32

Slide 32 text

メッシュ!!!

Slide 33

Slide 33 text

参考⽂献

Slide 34

Slide 34 text

参考⽂献 1. How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh (Zhamak Dehghani,2019) - https://martinfowler.com/articles/data-monolith-to-mesh.html 2. Data Mesh: Delivering Data-Driven Value at Scale(Zhamak Dehghani,2022) - https://www.amazon.co.jp/Data-Mesh-Delivering-Data-driven- Value/dp/1492092398 3. σʔλϚωδϝϯτ஌ࣝମܥΨΠυ ୈೋ൛(DAMA International編 著,DAMA⽇本⽀部・Metafindコンサルティング株式会社訳,⽇経BP 社,2018)

Slide 35

Slide 35 text

Appendix

Slide 36

Slide 36 text

データメッシュのアーキテクチャ例 AWS データメッシュリファレンスアーキテクチャ - https://aws.amazon.com/jp/blogs/news/how-to-create-a- modern-cpg-data-architecture-with-data-mesh/