Upgrade to Pro — share decks privately, control downloads, hide ads and more …

モダンデータアーキテクチャ~ウィッシュじゃないよデータメッシュ~

 モダンデータアーキテクチャ~ウィッシュじゃないよデータメッシュ~

「Chura DATA Tech Conference 2022」の登壇資料です。詳しくは以下のリンクからご覧ください。
https://cdtc2022.studio.site/

daidesukedonanika

October 25, 2022
Tweet

More Decks by daidesukedonanika

Other Decks in Technology

Transcript

  1. ⽬次 • 本テーマに対する動機づけ • これまでのアーキテクチャとその問題点 • データアーキテクチャとは • データアーキテクチャの歴史 •

    これまでのデータアーキテクチャの問題点 • データメッシュ • データメッシュとは • データメッシュの4原則 • なぜデータメッシュを導⼊するか • データメッシュ導⼊後の世界 • 参考⽂献 • Appendix • データメッシュのアーキテクチャ例
  2. データメッシュが世に出るまで 1.How to Move Beyond a Monolithic Data Lake to

    a Distributed Data Mesh (Zhamak Dehghani,2019.5.20) - https://martinfowler.com/articl es/data-monolith-to-mesh.html 2. Data Mesh: Delivering Data- Driven Value at Scale(Zhamak Dehghani,2022.4.12) - https://www.amazon.co.jp/Dat a-Mesh-Delivering-Data- driven-Value/dp/1492092398 『 Data Mesh: Delivering Data-Driven Value at Scale 』 (Zhamak Dehghani,2022)
  3. データアーキテクチャの歴史(第1世代) • データウェアハウスアーキテク チャ • 運⽤システムからビジネスインテ リジェンス (BI) システムにデー タを移動することを⽬的として構

    築された • 主に、レポートおよび分析の視覚 化のユースケースのためにデータ アナリストにサービスを提供して いた • 時間の経過とともに、何千もの ETL ジョブ、テーブル、およびレ ポートが含まれており、複雑にな りがちだった 運⽤データ基盤からETLパイプラインで分析⽤データウェアハウスに取り込む 『 Data Mesh: Delivering Data-Driven Value at Scale 』(Zhamak Dehghani,2022)
  4. データアーキテクチャの歴史(第2世代) • データレイクアーキテクチャ • データの新しい⽤途(機械学習モ デルのトレーニングプロセスにお けるデータサイエンティストの データへのアクセス)を満たす⽬ 的で構築された •

    複雑で扱いにくいパイプラインは 時間と共に劣化し、管理されてい ないデータセットも存在しがち • データの系列と依存関係は不明瞭 で追跡が困難だった 元の形式に近いデータをデータレイク(中央リポジトリ)に保存 『 Data Mesh: Delivering Data-Driven Value at Scale 』(Zhamak Dehghani,2022)
  5. データアーキテクチャの歴史(第3世代) • マルチモーダルクラウドアーキテ クチャ • クラウドベースのマネージドサー ビスを完全に採⽤し、クラウドの 弾⼒性を活⽤することで⼤規模な データを管理するコストを削減し た

    • 集中管理の仕組みは変わらない 分離されたコンピューティングとストレージを備えた最新のクラウドネイティブな実装 『 Data Mesh: Delivering Data-Driven Value at Scale 』(Zhamak Dehghani,2022)
  6. データメッシュとは 「Data mesh is a decentralized sociotechnical approach to share,

    access, and manage analytical data in complex and large-scale environments— within or across organizations. Data mesh is a new approach in sourcing, managing, and accessing data for analytical use cases at scale.」 『Data Mesh: Delivering Data-Driven Value at Scale』(Zhamak Dehghani,2022) →データメッシュは、複雑かつ⼤規模な環境において、組織内または組織 横断的に分析データを共有、アクセス、管理するための新しい分散型社会 技術的アプローチである
  7. プロダクトとしてのデータ原則 • データ共有に必要なコンポーネントの最⼩単 位がデータプロダクト • データプロダクトは、どのドメインも利⽤可 能なため品質に責任を持つ • データプロダクトのベースラインユーザビリ ティ特性

    1.発⾒可能性(Discoverable) 2.アドレス指定可能性(Addressable) 3.理解可能性(Understandable) 4.信頼性(Truthful) 5.ネイティブにアクセス可能(Natively Accessible) 6.相互運⽤可能(Interoperable) 7.独⽴して価値のあるもの(Valuable) 8.安全性(Secure) データそのものをプロダクトとして扱う 『 Data Mesh: Delivering Data-Driven Value at Scale 』(Zhamak Dehghani,2022)
  8. セルフサービス型データプラットフォームの原則 • 各ドメインでの作業の重複を防ぐ のが⽬的 • ドメインにとらわれない機能横断 的な、ストレージ、アカウント、 コンピューティングなどのインフ ラを整備 •

    データプラットフォームチームが 役割を担う データプロダクトを構築、テスト、展開、保護、および維持できるようにするために必要 なすべての機能を持つデータプラットフォームを構築する 『 Data Mesh: Delivering Data-Driven Value at Scale 』(Zhamak Dehghani,2022)
  9. 参考⽂献 1. How to Move Beyond a Monolithic Data Lake

    to a Distributed Data Mesh (Zhamak Dehghani,2019) - https://martinfowler.com/articles/data-monolith-to-mesh.html 2. Data Mesh: Delivering Data-Driven Value at Scale(Zhamak Dehghani,2022) - https://www.amazon.co.jp/Data-Mesh-Delivering-Data-driven- Value/dp/1492092398 3. σʔλϚωδϝϯτ஌ࣝମܥΨΠυ ୈೋ൛(DAMA International編 著,DAMA⽇本⽀部・Metafindコンサルティング株式会社訳,⽇経BP 社,2018)