Slide 1

Slide 1 text

© 2024 NTT DATA Group Corporation DataMeshの 実践と難しさ 株式会社NTTデータグループ 大山 真実 2024/05/10デタマネ会#8 LT&ディスカッション What is ”DataMesh”…? Date

Slide 2

Slide 2 text

自己紹介 株式会社NTTデータグループ 技術革新統括本部 システム技術本部 Data & Intelligence 技術部 課長 © 2024 NTT DATA Group Corporation 2 大山 真実 主な業務 • データプラットフォームのコンサルティング • Data&AI領域の技術開発とグローバル展開 主な経歴 • NTTデータ入社後、Hadoopなどビッグデータ基盤に携わる • NTT OSSセンターにて、PostgreSQLの研究開発 • 米国データベース企業に出向、テクニカルサポート担当 • 自動車メーカー出向、データプラットフォームアーキテクト

Slide 3

Slide 3 text

DataMeshとは? #1 3 © 2024 NTT DATA Group Corporation

Slide 4

Slide 4 text

改めて、DataMeshとは? 4 中央集権型プラットフォームのボトルネック問題を解消する自律分散型データプラットフォームのコンセプト データ所有者はデータをプロダクトとみなし、 データ利用者が満足するデータ提供を最優先とすることで、 ユーザーによる利活用促進を実現する。 データ管理の責任/意思 決定権をドメインに委任。 “自律的に行動可能とす る”ことで、アジリ ティー向上。 データの流れ 従来のデータプラットフォーム データメッシュ 中央集権的にデータを管理することで、最適化を目指す。 ただし中央組織がボトルネックとなる問題が 増えてきた。 データベース データ収集 データ蓄積 データ加工 データ活用 © 2024 NTT DATA Group Corporation

Slide 5

Slide 5 text

DataMeshの4原則 5 自律分散によってアジリティを高めるための4原則 Domain Oriented Ownership •業務ドメインごとに自律的にデータを管理し他の組織に提供。中央組織に頼らずに データを管理・提供することでボトルネックを回避。 Data as a Product •データを製品として他の組織に提供。つまり、データの連携先を顧客と捉えること で、データの説明責任と信頼性を確保。これによってデータの管理を各ドメインに 任せることによって生じるサイロ化の問題を回避 。 Self-Service Data Platform •各ドメインが独力でデータプロダクトを開発・運用できるよう支援する機能と、 データ利用者がセルフサービスでデータを扱える機能を備えたプラットフォームを 提供。ITの専門家でなくても使いやすいプラットフォームを提供することで、各ド メインが自分たちでデータを管理・利用することによるコストの増加、人材確保の 難しさを緩和。 Federated Computational Governance •個人情報保護などの共通ルールやデータプロダクト開発のインセンティブを設計す ることで全体最適化。共通ルールは中央で管理・統制されるのではなく各データプ ロダクトの中に実装する。中央集権的な体制がないことでデータが管理されていな い状態になることを回避。 Data Mesh by Zhamak Dehghani, O‘Reilly Media, Inc. より引用 © 2024 NTT DATA Group Corporation

Slide 6

Slide 6 text

DataMeshの特徴 6 ソフトウェアエンジニアリングに関する最新のベストプラクティスをデータエンジニアリングに適用 Sociotechnicalアプローチ (社会技術アプローチ) ドメイン駆動設計(戦略) チームトポロジー • 組織と人を複雑な相互依存する1つのシス テムとして扱う • 逆コンウェイの法則 社会技術理論–心理的安全性 (psychsafety.co.uk) “DataMesh”という技術があるわけでないことに注意 Data Mesh by Zhamak Dehghani, O‘Reilly Media, Inc. より引用 • 全組織共通の、単一の統合されたデータ モデルを構築するのは効果的でないし、 実現可能でもない • 「境界付けられたコンテキスト」で分割 • チームとチーム間のコミュニケーション、 データプロダクトとデータアクセスにパ ターンを作る • コミュニケーションの複雑性を下げる 【資料公開】30分で分かった気になるチームトポロジー | Ryuzee.com © 2024 NTT DATA Group Corporation

Slide 7

Slide 7 text

DataMesh実現へのアプローチ #2 7 © 2024 NTT DATA Group Corporation

Slide 8

Slide 8 text

実際やろうとするとDataMesh難しい… 8 組織と技術の観点で主な難しいポイント 組織的な難しいポイント 技術的な難しいポイント • 従来の役割分担からの 抜本的な変更 • セルフサービスデータ プラットフォームの実装 非専門家でもデータプロダクトを開発でき るようにするにはどうしたらいいか? • マルチクラウドでの実践 © 2024 NTT DATA Group Corporation

Slide 9

Slide 9 text

© 2024 NTT DATA Group Corporation 組織観点の難しさ:従来の役割分担からの抜本的な変更 9 組織間の役割分担、責任境界を変えるというのは本当に難しい、DataMeshの難しさはこれに集約される 業務システム、データソースの人たちはデータプロダクトの プロダクトオーナーに • 日本の大企業ではベンダーに開発を依頼するのが普通、 ベンダーがデータプロダクトを開発するのか?自社社 員がやるのか? • プロダクトマネジメントの実践…本業が忙しい中、そ んな余裕はあるのか? 情報システム部門やデータスチュワードはセルフサービス データプラットフォームの提供や教育などのサポートに • 事業部門の要件に従ったシステム開発からプラット フォームをプロダクトとして提供するという、一般的 な情報システム部門がこれまでやってこなかったやり 方 • プラットフォームエンジニアリングの難しさ データ利用者は自分たちでデータの取り出しや分析データモ デルの作成などをやらないといけない 「共通基盤」を超えよ! 今、Platform Engineeringに取り組むべ き理由 - Speaker Deck by Kazuto Kusama/@jacopen

Slide 10

Slide 10 text

アプローチ1:志のある人たちで小さく始める 10 具体的に1つのユースケースを対象として、 DataMeshのコンセプトに沿った役割分担に変え、 実装してみる Data Management at Scale, 2nd Edition By Piethein Strengholt O‘Reilly Media, Inc. より引用 データ収集 データ蓄積 データ加工 データ活用 ユースケースを拡大していきながら自組織に合った トポロジーを見つけていく ※この図はあくまでも イメージです トポロジーの例 Self-Service Data Platform © 2024 NTT DATA Group Corporation

Slide 11

Slide 11 text

アプローチ2:象徴的な成果をアピールする 11 例えば、データマーケットプレイス/データエクスチェンジを社内に公開する 私の経験ではデータマーケットプレ イスに少数でもいいのでデータプロ ダクトが並ぶと、それきっかけで DataMeshの取り組みが周知され、 みんなの関心を惹くようになる 社内向けデータマーケットプレイス/エクスチェンジとは? ▪ データプロダクトの発見と、アクセス申請のワークフローを管理するツール ▪ 一般のビジネスユーザーにもわかりやすいシンプルな画面 ▪ よく使われるデータプロダクトを目立たせることによって最適化 https://aws.amazon.com/jp/blogs/big-data/design-a-data- mesh-architecture-using-aws-lake-formation-and-aws-glue/ © 2024 NTT DATA Group Corporation

Slide 12

Slide 12 text

技術観点の難しさ:セルフサービスデータプラットフォームの実装 非専門家でもデータプロダクトを開発できるようにするにはどうしたらいいか? 12 アプローチ1 データプロダクトのテンプレートを提供する? アプローチ2 マルチクラウドプラットフォームを実装? Data Mesh by Zhamak Dehghani, O‘Reilly Media, Inc. からの引用 • 標準アクセスパターンの実装(SQL, REST API, Steamなど) • 認証認可、グローバルポリシーに基づくアクセス制御の機能 • データオブザーバビリティ、メタデータの提供機能 などをテンプレートに埋め込むことで認知負荷を下げる。 テンプレートってどう作るのがベスト? 特に大企業だと複数のクラウドサービスを使っているの が普通、マルチクラウドでどう実現するか • 複数のクラウドを跨ぐメタデータの収集 © 2024 NTT DATA Group Corporation