Slide 1

Slide 1 text

Informaticaのデータガバナンス& データカタログサービス 「CDGC」⼊⾨ 2024-07-23 データ事業本部 渡部晃季

Slide 2

Slide 2 text

Xへの投稿の際は、 ハッシュタグ #cm_odyssey でお願いいたします。 2 お願い

Slide 3

Slide 3 text

スライドは後ほど DevelopersIOにて共有します。 3 おしらせ

Slide 4

Slide 4 text

⾃⼰紹介 ● 名前 ○ 渡部晃季(わたなべこうき) ● 所属 ○ データ事業本部 ○ ビジネスソリューション部 ○ SAチーム ● お仕事 ○ データ分析基盤構築 ○ Informaticaでのソリューション提案 4

Slide 5

Slide 5 text

メタデータ管理 してますか? 5

Slide 6

Slide 6 text

メタデータとは?Youtubeを例に ● メタデータは、⼀⾔でいうと「データを説明するデータ」 ○ Youtube動画をデータとすると、メタデータはタイトル‧投稿時間‧閲覧数‧カ テゴリetc.. ● メタデータがなければ‧‧‧ ○ 検索できない ○ ホーム画⾯のレコメンドもできない 6

Slide 7

Slide 7 text

メタデータとは?企業のDBを例に ● メタデータは、⼀⾔でいうと「データについてのデータ」 ○ 企業のDBデータの場合は、メタデータはラベル‧テーブルの型桁‧データの品質etc ● メタデータがなければ‧‧‧ ○ データの検索はできないし意味理解が困難で、データ分析のスピードが落ちる 7 CustomerId CustomerName Sales 1 くらすめそ子 234,480 2 くらにゃん 1,980,000 3 渡部 198 通貨単位は? 何の顧客? 整数?⽂字?

Slide 8

Slide 8 text

メタデータ管理は⼤事 ● メタデータ管理は、データを利活⽤しやすくするために管理をすること ○ DMBOKの11の知識領域のひとつ 8 日本語版もあります ● データ分析に費やす時間のうち60~80%はデータ収集や準 備であるというのは有名な話 ● メタデータ管理はその時間を短縮させる重要な役割を持つ

Slide 9

Slide 9 text

メタデータ管理の課題 ● メタデータの付与‧保守作業は時間がかかる ● 部⾨‧システムごとにメタデータ管理⽅法が違う ○ Excel‧PowerPoint‧Notion‧Slack‧担当者の頭の中‧存在しない ● そもそもどこに資料があるかわからない ○ 資料がわからないので詳しい担当者に質問が集まってしまい、価値ある作業に時 間が捻出できなくなる 9

Slide 10

Slide 10 text

メタデータ管理の課題を解決するCDGC ● メタデータの付与‧保守作業は時間がかかる ○ →⾃動スキャンによるメタデータ割り当て ● 部⾨ごとにメタデータ管理⽅法が違う ○ →部⾨やシステム間でも統⼀されたメタデータ管理 ● そもそもどこに資料があるかわからない ○ →強⼒な検索機能によるデータ発⾒ 10

Slide 11

Slide 11 text

CDGCで確認できるようになるメタデータ 11 CustomerId CustomerName Sales 1 くらすめそ子 234,480 2 くらにゃん 1,980,000 3 渡部 198 通貨単位は円 ⾳楽事業の顧 客 整数 チケットシステム のOracleDBから 流れてきたデータ 個⼈情報 データ品質の スコアが78点

Slide 12

Slide 12 text

⽬次 ● メタデータ管理してますか? ● CDGCとは ● メタデータ管理の各STEPで役⽴つCDGC ● アーキテクチャ ● 料⾦ 12

Slide 13

Slide 13 text

CDGCとは 13

Slide 14

Slide 14 text

CDGCとは? ● エンタープライズ向けデータカタログ ● インフォマティカ社が提供するデータマネジメント統合サービス群のひとつ ● 正式名称「Cloud Data Governance and Catalog」 14

Slide 15

Slide 15 text

(参考)インフォマティカの特徴3選 ● データマネジメントにまつわるサービスを網羅的に提供 ● GUIでの開発 ● CDGC! 15 ★ETL/ELT ★データに関わるサービス全般提供

Slide 16

Slide 16 text

メタデータ管理の各STEPで 役⽴つCDGC 16

Slide 17

Slide 17 text

メタデータ管理PJの進め⽅ ゴール設定 ‧あるべき姿の定義 17 STEP 01 STEP 07 STEP 06 STEP 05 STEP 04 STEP 03 STEP 02 ロードマップ策 定 ‧メタデータ公開まで の流れを策定 ‧PJ体制の定義 メタデータ評価 ‧効果測定 ‧業務効率効果の報告 メタデータ公開 ‧メタデータ公開 ‧周知やトレーニング 管理運⽤体制 ‧データ管理の役割設 計 ‧メタデータ公開⽅針 ‧メタデータ保守⽅針 メタデータ設計 と収集 ‧メタデータ管理環境 構築 ‧ラベリング設計 ‧メタデータ収集 対象メタデータ 洗い出し ‧メタデータ収集の対 象システムを定義 ‧メタデータとして収 集する項⽬の整理

Slide 18

Slide 18 text

ここで役⽴つCDGC ゴール設定 ‧あるべき姿の定義 18 STEP 01 STEP 07 STEP 06 STEP 05 STEP 04 STEP 03 STEP 02 ロードマップ策 定 ‧メタデータ公開まで の流れを策定 ‧PJ体制の定義 メタデータ評価 ‧効果測定 ‧業務効率効果の報告 メタデータ公開 ‧メタデータ公開 ‧周知やトレーニング 管理運⽤体制 ‧データ管理の役割設 計 ‧メタデータ公開⽅針 ‧メタデータ保守⽅針 メタデータ設計 と収集 ‧メタデータ管理環境 構築 ‧ラベリング設計 ‧メタデータ収集 対象メタデータ 洗い出し ‧メタデータ収集の対 象システムを定義 ‧メタデータとして収 集する項⽬の整理

Slide 19

Slide 19 text

多様なデータソースへの対応 19 ● 事前定義されたカタログソースが豊富 ● 最速14クリックで簡単にメタデータ抽出が可能

Slide 20

Slide 20 text

- Kafka - MariaDB - Marketo using JDBC - Microsoft Azure Blob Storage - Microsoft Azure Cosmos DB using JDBC - Microsoft Azure Data Factory - Microsoft Azure Data Lake Storage Gen2 - Microsoft Azure SQL Server - Microsoft Azure Synapse - Microsoft Azure SQL Server Script - Microsoft Azure Synapse Script - Microsoft Dynamics CRM using JDBC - Microsoft Fabric Data Warehouse - Preview catalog source - Microsoft Fabric Data Lakehouse - Preview catalog source - Microsoft Fabric OneLake - Preview catalog source - Microsoft OneDrive - Microsoft Power BI - Microsoft Purview - Microsoft SharePoint Online - Microsoft SQL Server - Microsoft SQL Server Analysis Services - Microsoft SQL Server Integration Services - Microsoft SQL Server Reporting Services - Microsoft SQL Server Script - MicroStrategy - MongoDB using JDBC - MySQL - Oracle - Oracle Business Intelligence - Oracle Cloud Infrastructure GoldenGate - Preview catalog source - Amazon Athena - Amazon DynamoDB using JDBC - Amazon Redshift - Amazon S3 - Apache Atlas - Apache Cassandra using JDBC - Apache Hive - AWS Glue - Databricks - Databricks Delta Lake - Dropped Support3 - dbt - Preview catalog source - erwin Data Modeler File - erwin Mart Server - File System - Google BigQuery - Google Cloud Storage - Google Looker - Greenplum - Hadoop Distributed File System - IBM Cognos - IBM Db2 for LUW - IBM Db2 for LUW Script - IBM Db2 for z/OS - IBM Db2 for z/OS using JDBC - IBM InfoSphere DataStage - IBM Netezza - IBM Netezza using JDBC - NetSuite using JDBC - IDERA ER/Studio Data Architect - Informatica Intelligent Cloud Services - Informatica PowerCenter 対応データソースを書き出してみた 20 - Oracle Cloud Object Storage - Oracle PL/SQL Script - PostgreSQL - Qlik Sense - Qlik Sense Cloud - QlikView - Salesforce - SAP BusinessObjects - SAP Business Warehouse (SAP BW) - SAP BW/4HANA - SAP ERP - SAP HANA Database - SAP PowerDesigner - SAP SuccessFactors using JDBC - SFTP File System - SingleStore using JDBC - Snowflake - Snowflake SQL Script - Sybase ASE using JDBC - Sybase IQ using JDBC - Tableau - Talend Data Integration - Teradata BTEQ Script - Teradata Database - Teradata FastExport Script - Teradata FastLoad Script - Teradata MultiLoad Script - TIBCO Spotfire - Workday using JDBC ‧これら以外にもカスタムでメタデータをスキャン可能 ‧続々データソース増加中

Slide 21

Slide 21 text

(参考)メタデータの対象項⽬はあまりにも多い 21 ● 集めようと思えばいくらでもメタデータは収集できる ● しかし収集‧管理⼯数を考えると何でも集めるのは得策ではない

Slide 22

Slide 22 text

CDGCの収集するメタデータは既定 22 ● CDGCで取得‧割り当てできるメタデータは決まっている ○ メタデータ選定に時間をかけず、素早いメタデータ収集が可能 ● もちろんカスタマイズもある程度できるが、まずはデフォルトで始めたい

Slide 23

Slide 23 text

CDGCで収集するメタデータ 23 ● ⾃動で取得してくれるもの(抜粋) ○ データの型桁スキーマ情報などの、テクニカルメタデータ ○ データの傾向を把握する、データプロファイリング ○ データの品質を把握する、データ品質 ○ データに異常傾向があれば検知する、データオブザーバビリティ ○ ⾃動的にデータへの意味づけ補助する、データ分類 ● ⾃分で取得(割り当て)するもの(抜粋) ○ ビジネスメタデータの割り当て ■ ドメイン ■ ビジネス⽤語

Slide 24

Slide 24 text

CDGCで簡単収集メタデータ 24 ● スキャンをすると⾃動的にテクニカルメタデータを取得してくれる

Slide 25

Slide 25 text

CDGCで楽々付与するメタデータ 25 ● ビジネス⽤語をはじめ、データに対して付与できるメタデータは以下オレンジ枠 ● ⼊⼒が決まっているので設計なしでメタデータ付与できる

Slide 26

Slide 26 text

Excelによる⼀括メタデータ登録 26 ● メタデータ登録‧更新はExcelファイルのインポートでも可能 ○ 登録量が多い場合は、画⾯よりインポートの⽅が時短 テンプレート ファイルのダウ ンロード 登録メタデータ の⼀括エクス ポート Excel上でメタ データ登録‧更 新 ⼀括インポート

Slide 27

Slide 27 text

データ品質 27 ● ⾃前で定義したデータ品質ルールに基づき、スコアを⽰してくれる ● 品質が低下したときに通知する仕組みもあり、品質を⾼く保てる https://knowledge.informatica.com/s/article/Configure-email-alert-for-data-q uality-failure?language=en_USより2024/07/21に引用

Slide 28

Slide 28 text

データプロファイリング 28 ● NULL値や空⽩などをはじめ、値の頻度‧パターンを表⽰ ● UATになって「こんなデータが⼊ってるなんて‧‧」と気づく問題を予防に役⽴つ

Slide 29

Slide 29 text

データオブザーバビリティ 29 https://knowledge.informatica.com/s/article/000224436?language=en_US&type=externalより2024/07/19に引用 ● プロファイリングから逸脱した異常値を検知して表⽰する(通知もする) ● 設定しておくことで迅速なデータ修正、データの信頼度判断に使⽤できる

Slide 30

Slide 30 text

データリネージュ 30 ● リネージュとは「⾎統」の意味。データの系譜 ● カラムレベルでデータの流れを把握することが可能 ● リネージュがあることで、変更の影響把握や法規制への対応、分析作業に役⽴つ

Slide 31

Slide 31 text

リネージュのオーバーレイ 31 ● リネージュにメタデータを表⽰可能 ● 例えばデータ品質を表⽰させると、どこでデータ品質が悪くなったのか⼀⽬で把握可能

Slide 32

Slide 32 text

豊富な検索機能 32 ● 取得&付与したメタデータからの検索機能が強⼒(APIでも可能)

Slide 33

Slide 33 text

ブラウザ拡張機能で便利に検索 33 ● Informatica QuickLook Browser Extension ● ダッシュボードやファイルサーバーを確認中に画⾯遷移なく素早く検索

Slide 34

Slide 34 text

データの評価‧コメント 34 ● データ利⽤者がデータに評価やコメントをつけられる ● 他のデータ利⽤者が記述を⾒て、利⽤可能なデータなのか判断したり、データに関する ナレッジを確認できる

Slide 35

Slide 35 text

CDGCの操作はAPI提供されている 35 ● 画⾯上でできる操作の多くがAPIでも実現可能 ○ Import/Export ○ ジョブの監視 ○ メタデータスキャン ジョブの実⾏ ○ 検索&⼀覧化

Slide 36

Slide 36 text

以上 データに対して 360°から下⽀えするCDGC 36

Slide 37

Slide 37 text

データマーケットプレイスとの連動 37 https://knowledge.informatica.com/s/article/Complete-Configuration-and-Understanding-of-Axon-Data-Marketplace?language=en_USより2024/07/19に引用 ● データ所有者が、商品をお店に出すように、CDGC情報をもとにデータを公開できる ● データ利⽤者はマーケットを⾒て利⽤したいデータを選択‧共有申請をする ● 利点はデータのキュレーション、誰がデータ利⽤しているのかの把握にある

Slide 38

Slide 38 text

データマーケットプレイスでのデータ利⽤ 38 ● データ利⽤者は共有合意に基づいて、指定された⽅法でデータを利⽤できる ● 今後の展開として、例えば利⽤者の特性によってTableauダッシュボードを項⽬マス キングしつつ提供するアクセス管理も導⼊予定されている https://docs.informatica.com/data-governance-and-quality-cloud/data-marketplace/current-version/set-up-data-marketplace/create-new-items/delivery-options.htmlより2024/07/19に引用

Slide 39

Slide 39 text

データマーケットプレイスの画⾯ 39 ● 通販サイトのようにデータの共有依頼をする ● データマーケットプレイスにあるデータはデータ提供者の承認があるデータのみ

Slide 40

Slide 40 text

CLAIRE GPT 40 ● インフォマティカのAIエンジン「CLAIRE」で対話処理 ● CDGCからのデータ探索、ETL⾃動作成、インフォマティカのHowToを質問できる

Slide 41

Slide 41 text

アーキテクチャ 41

Slide 42

Slide 42 text

CDGCのアーキテクチャ 42 https://qiita.com/naka34/items/b55e67731c9df7b562d2より2024/07/18に引⽤ ● メタデータはInformatica Cloud上に保存される ● データアクセスはユーザー環境サーバ上のSecure Agentが担当(※サーバレス構成も可) ● Informaticaとの通信はインターネット通信もしくはプライベート通信が可能 ○ AWS PrivateLink / Azure Private Link

Slide 43

Slide 43 text

料⾦ 43

Slide 44

Slide 44 text

インフォマティカの料⾦ 44 ● 具体的な料⾦は出せません。。 ● インフォマティカはプリペイドからサービスを使⽤した分消費していく従量制課⾦ ⽅式 ○ IPU(Informatica Processing Unit)を事前購⼊する ● それぞれのサービスでIPU消費体系が決まっている ○ https://www.informatica.com/content/dam/informatica-com/en/docs/infor matica-cloud-and-product-description-schedule.pdf

Slide 45

Slide 45 text

CDGCのIPU消費体系 45 ● 主に以下に応じてIPUが消費 ○ メタデータのスキャン処理時間 ○ データカタログで管理しているアセット数 ○ APIコール数

Slide 46

Slide 46 text

まとめ 46

Slide 47

Slide 47 text

CDGCまとめ 47 ● CDGCというデータカタログがある! ● 楽々メタデータ管理!でメタデータ管理の悩みを解決 ● インフォマティカの別製品とのコラボレーションがすごい!

Slide 48

Slide 48 text

CDGCを使って 素敵なデータライフを 48

Slide 49

Slide 49 text

No content

Slide 50

Slide 50 text

No content