Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data Fabricを「チョットカタレル」人になるための1時間

Data Fabricを「チョットカタレル」人になるための1時間

<概要>
データにまつわるトピックは本当にたくさんありますよね。

その中でも、最近話題になっているのが、Data Fabric (データファブリック)というテーマです。

しかし、Data FabricというキーワードをWebで検索しても、難しい言葉が大量に表示され、どういうものなのかはっきりと飲み込めず、他の人にも上手く説明できない方が多いのではないかと思います。

そこで、今回はData Fabricはどういうものなのか、なんで注目されているのか、(ほんとに)チョット語られるくらいになれることを目指して、1時間で頑張ってご紹介します。

※この資料は次のイベントの投影資料です
https://ibm-developer.connpass.com/event/262433/

Takahiro Esaki

November 07, 2022
Tweet

More Decks by Takahiro Esaki

Other Decks in Technology

Transcript

  1. © 2022 IBM Corporation
    %BUB'BCSJDΛ
    ʮνϣοτΧλϨϧʯਓʹͳΔͨΊͷ࣌ؒ
    ೥݄೔
    ೔ຊΞΠɾϏʔɾΤϜגࣜձࣾ
    5FDI%PKP

    View Slide

  2. © 2022 IBM Corporation
    2
    ΞδΣϯμ
    Φʔϓχϯά NJO
    σʔλ׆༻ͷ՝୊ΛνϣοτΧλϨϧΑ͏ʹͳΖ͏ NJO
    σʔλϑΝϒϦοΫΛνϣοτΧλϨϧΑ͏ʹͳΖ͏ NJO
    Ϋϩʔδϯά NJO

    View Slide

  3. Φʔϓχϯά

    View Slide

  4. - 4 -
    ߨࢣͷࣗݾ঺հ
    ೔ຊ*#.ςΫϊϩδʔࣄۀຊ෦ $4. $VTUPNFS4VDDFTT.BOBHFS

    ߐ㟒 ਸߒ ߥר ࿨޺

    View Slide

  5. - 5 -
    ͸͡Ίʹ
    https://ibm.biz/20221028Dojo
    2"ɾΞϯέʔτ͸ͪ͜Β͔Β

    View Slide

  6. © 2022 IBM Corporation
    6
    ຊ೔ͷΰʔϧ
    n ΰʔϧ
    • %BUB'BCSJDΛʮνϣοτΧλϨϧʯਓʹͳΔɻ
    • %BUB'BCSJDΛޠΔʹҝʹ͔ܽͤͳ͍ΩʔϫʔυΛ஌Δɾཧղ͢Δ
    ü σʔλυϦϒϯܦӦ
    ü $%0
    ü σʔλͷαΠϩԽ
    ü σʔλԾ૝Խ
    ü Ϗδωε༻ޠͷ؅ཧ
    ü σʔλΨόφϯεͷ؅ཧ
    ü ηϧϑΞΫηε
    • ͳͥඞཁͳͷ͔ʁٻΊΒΕ͍ͯΔͷ͔ʁΛޠΕΔΑ͏ʹͳ͍ͬͯΕ͹0,

    View Slide

  7. σʔλ׆༻ͷ՝୊Λ
    νϣοτΧλϨϧΑ͏ʹͳΖ͏

    View Slide

  8. - 8 -
    - 8 -
    データ活⽤にまつわる課題
    n みなさん、データかつようにまつわる課題を考えてみてください

    View Slide

  9. - 9 -
    - 9 -
    データ活⽤にまつわる課題
    n たくさんの課題やキーワードがありますよね
    データの意味が
    判別できない
    データの不⾜や⽋損値があると
    ⼿戻りが発⽣する
    データ取得に時間がかかる
    (権限の問題など)
    そもそも既存のDWHに
    ほしいデータがない

    View Slide

  10. - 10 -
    - 10 -
    数字で⾒るデータ活⽤の課題
    n 「データの所在がわからない」、「データが正確でないため使えない」、「加⼯の処理に時間がかかる」
    ため、データを活⽤するまでの作業時間の80%をデータ準備に費やしている
    データ準備
    Prepare
    構築
    Build
    分析モデルを
    構築
    実⾏
    Run
    業務に適⽤
    管理
    Manage
    実際にデータを活⽤する
    チームが注⽬する箇所
    数カ⽉ – 数四半期
    検出、理解、取り込み、統合
    品質の評価、データクレンジング
    データ・オペレーション
    作業時間の
    80%
    が費やされる箇所
    ビジネスへの影響が
    発⽣する箇所

    View Slide

  11. - 11 -
    - 11 -
    数字で⾒るデータ活⽤の課題
    エンタープライズで
    管理されるデータの
    増加率
    6 倍 74%
    のデータが分析
    されていない
    60%
    のビッグデー
    タ・
    プロジェクトは
    失敗に終わる
    82%
    がデータ・サイ
    ロによって阻害
    されて
    いる
    89%
    がリソースを
    消耗している
    データの加速的な増⼤と複雑性がデータ活⽤の⼤きな阻害要因となってる
    • クラウド・アプリケーションが増加するにつれ、
    データは広範なデジタル・エコシステムへと分散さ
    れるようになっている
    • データの移動および⼀元化の取り組みは⼿作業に頼
    りすぎており、時間とコストがかかるうえに効果も
    限定的
    • データが急増し、データのライフスパンが短くなっ
    ていることで、問題は悪化する⼀⽅

    View Slide

  12. - 12 -
    - 12 -
    従来のソリューション︓データレイク/ウェアハウス/マート
    ビジネス・
    アプリケーション
    POS
    IoT
    開発
    営業
    財務
    ・・・
    データレイク データウェアハウス
    データソース データ活⽤
    データマート
    σʔλϨΠΫ σʔλ΢ΣΞϋ΢ε σʔλϚʔτ
    • ಛఆͷ෼ੳ໨త͕ͳͯ͘΋ར༻͢ΔՄೳੑ
    ͷ͋ΔϩʔσʔλΛ֨ೲ
    • ௿ίετͷετϨʔδΛ४උ͠ɺ෼ੳχʔ
    ζ͕ൃੜͨ͠৔߹ɺߴ଎ʹΞΫηεͰ͖Δ
    Α͏ʹ͢Δ
    • ඇߏ଄Խσʔλ΋ؚΉॊೈੑ
    • .BJO6TFSɿσʔλαΠΤϯςΟετ
    • ಛఆͷ෼ੳ໨తͷͨΊͷॲཧࡁΈσʔλΛ
    ֨ೲ
    • ෼ੳͷͨΊʹߴ଎ͳΫΤϦॲཧ͕Ͱ͖ΔΑ
    ͏ʹ͢Δ
    • ݕࡧʹಛԽ͢ΔͨΊɺجຊతʹ͸ߏ଄Խ
    σʔλ
    • .BJO6TFSɿϏδωεΞφϦετ
    • σʔλ΢ΣΞϋ΢εΑΓ΋ߋʹಛԽͨ͠෼
    ੳ໨తΛ࣋ͭϢʔβʔάϧʔϓͷͨΊͷ
    σʔλΛ֨ೲ
    • σʔλ΢ΣΞϋ΢εʹൺ΂Δͱখن໛Ͱɺ
    ߏஙϦʔυλΠϜ͕খ͍͞
    • Ұํɺཚཱ͢Δͱӡ༻ίετ૿େ΍σʔλ
    ͷαΠϩԽΛՃ଎ͤ͞ΔཁҼʹ
    n データを物理的に集約して、データアクセスを容易にしようとしていた

    View Slide

  13. - 13 -
    - 13 -
    (Tips)サイロとサイロ化について
    !サイロとは︖
    • 牧草・穀物・化学原料などを貯蔵
    したり発酵処理するための倉庫
    • 並んでいるように⾒えるが、中⾝
    が混ざらないように、内部はつな
    がっておらず、それぞれ独⽴して
    中⾝を取り出す構造になっている
    !ビジネスで使われるサイロ化
    • システムや業務プロセスなどが、
    他のアプリケーションや他事業部
    ⾨との連携を持たずに⾃⼰完結し
    て孤⽴してしまう状態のこと
    各サイロはつながって
    いるように⾒えるが、
    完全に独⽴している

    View Slide

  14. - 14 -
    - 14 -
    課題のピックアップ︓データのサイロ化
    物理的にデータを集約しようとするだけでは、データのサイロ化を解決できなかった
    !データのサイロ化とは︖
    • 分析対象となる「データ」が「サイ
    ロ」のように孤⽴・独⽴してしまっ
    ており、すぐにアクセスするのが困
    難になってる状態
    !背景
    • データソースの拡⼤
    • データ活⽤ニーズの多様化
    • 各部⾨の個別最適なシステムの構築
    • 企業/部⾨の統廃合
    • ハイブリッドクラウド化 など
    複雑化するデータアーキテクチャ
    ビジネス・
    アプリケーション
    カスタム・
    アプリケーション
    POS
    ユーザーの⾏動
    IoT
    デバイス
    顧客中⼼サービ

    運⽤のアジリティー
    包括的な品質
    管理
    継続的な改善
    クリティカルな
    サービスの
    サポート
    データソース データ活⽤

    View Slide

  15. σʔλϑΝϒϦοΫΛ
    νϣοτΧλϨϧΑ͏ʹͳΖ͏

    View Slide

  16. - 16 -
    - 16 -
    今後のソリューション︓データファブリック
    データファブリック
    ビジネス・
    アプリケーション
    カスタム・
    アプリケーション
    POS
    ユーザーの⾏動
    IoT
    デバイス
    顧客中⼼サービ

    運⽤のアジリティー
    包括的な品質
    管理
    継続的な改善
    クリティカルな
    サービスの
    サポート
    データソース データ活⽤
    「ファブリック」のイメージ︓
    伸縮性・柔軟性のある繊維構造。
    データのIn/Outが増減しても、伸び縮みして対応できる
    !データファブリックとは︖
    • 分散したデータの課題に対処するため
    の新しいコンセプト/アーキテクチャ
    !重要な5つの要素
    1. データ仮想化※
    2. ビジネス⽤語の管理
    3. データ品質管理
    4. データガバナンスの実現
    5. セルフアクセスの実現
    データ仮想化基盤
    ビジネス⽤語
    の管理
    データガバナンス
    の実現
    データ品質管理
    セルフアクセスの実現
    ※データレイク・データウェアハウスを必ず
    しも否定するわけではない
    ⼤量データ取得にあたっての低レイテンシー
    実現、定常的なワークロードの存在、ユーザ
    が分析するために形式変換が必要な場合は、
    データウェアハウスなどを活⽤する⽅が適し
    ているケースも

    View Slide

  17. - 17 -
    - 17 -
    (参考)データファブリックへの注⽬
    出典︓https://www.imagazine.co.jp/gartner-strategic-technology2022/

    View Slide

  18. - 18 -
    - 18 -
    データファブリックの重要な5つの要素(ざっくりご紹介)

    View Slide

  19. - 19 -
    - 19 -
    1. データ仮想化
    n データ仮想化とは
    • 物理的にデータを集約せずに、⾼速なクエリ(照会・演算処理など)を通して情報を取得(含︓キャッシュ最適化)
    • 様々なデータソースに対する接続アダプターを準備し、シングルアクセスを実現
    • 接続情報などのメタデータのみを保持しつつ、リアルタイムで最新のデータを取得
    n データ仮想化のメリット
    • 物理的にデータを集約していないにも関わらず、直感的な操作で最新の情報をリアルタイムに取得できる
    • シングルアクセス︓データソース/データ活⽤側が増えても、仮想化基盤との認証情報追加で済む
    n シングルアクセスのイメージ
    データ
    仮想化
    基盤
    データソース データ活⽤ データソース データ活⽤
    ▼ばらばらのアクセス ▼シングルアクセス

    View Slide

  20. - 20 -
    - 20 -
    2. ビジネス⽤語の管理
    n ビジネス⽤語の管理が必要な理由
    • 企業には複雑で膨⼤なビジネス⽤語が存在。内容によっては、理解できる⼈にたどり着くだけでも⼤変
    • テーブルカラムのスキマー名や物理名だけでは意味が分からない。設計書情報も正しいか分からない
    • 部署や利⽤シーンによっても意味が変わることがある。同⾳異義語や異⾳同義語も存在 (特にM&Aなど発⽣すると)
    ツールだけでなく継続的にビジネス⽤語を整備するプロセス/体制が⼤事(データスチュワード)
    企業のビジネス⽤語を様々なメタデータを使って⼤系的に整理し、誰でも理解できる仕組みが必要
    ビジネス⽤語の検索
    ※イメージ例 (IBM Cloud Pak® for Data )
    ビジネス⽤語の
    関連性の把握

    View Slide

  21. - 21 -
    - 21 -
    3. データ品質管理
    n データ品質が必要な理由
    • 実際のデータ値はどうなっているのか、そのままデータ分析できるかを確認しなければいけない
    • 例︓最⼤値/最⼩値、平均値、頻度、外れ値、⽋損値、データ来歴 など
    値の出現頻度
    最⼩値・最⼤値な
    どの統計情報
    ※イメージ例 (IBM Cloud Pak® for Data )
    統計情報などのメタデータを簡単に確認し、外れ値や⽋損地に対してもフォローできる仕組みが必要

    View Slide

  22. - 22 -
    - 22 -
    4. データガバナンスの実現
    n データガバナンスが必要な理由
    • 企業は部⾨/役割、ロケーションなどによって利⽤ポリシーやルールをコントロールしなければいけない
    • アクセス可否の決定、データマスキングなど。特に、個⼈情報のアクセスに対するアテンションは⾮常に⾼い
    • 物理的なテーブル、スキーマ、カラム単位でポリシーやルールは管理しきれない
    ルールの設定
    プロファイル
    ⾮表⽰
    マスク処理
    ※イメージ例 (IBM Cloud Pak® for Data )
    ビジネス⽤語やカテゴリなどのメタデータを活⽤しながら容易にガバナンス運⽤できる仕組みが必要

    View Slide

  23. - 23 -
    - 23 -
    5. セルフアクセス
    n セルフアクセスが必要な理由
    • あらゆるデータにアクセスでき、内容が分かるようになっても、誰かに依頼してデータ提供してもらっていては遅い
    • データ確認のコミュニケーションだけでオーバーヘッドがかかるし、⼼理的抵抗も⼤きい
    ※イメージ例 (IBM Cloud Pak® for Data )
    メタデータを集積してカタログとして公開し、データ分析者が⾃分から⽬的データを探せるようにする

    View Slide

  24. - 24 -
    - 24 -
    データファブリックの5つの要素のまとめ
    n データファブリックは、従来のデータサイロ化のような問題を解決するために注⽬されているアーキテク
    チャ/コンセプト
    データファブリック
    ビジネス・
    アプリケーション
    カスタム・
    アプリケーション
    POS
    ユーザーの⾏動
    IoT
    デバイス
    顧客中⼼サービス
    運⽤のアジリティー
    包括的な品質
    管理
    継続的な改善
    クリティカルな
    サービスの
    サポート
    データソース データ活⽤
    データ仮想化基盤
    ビジネス⽤語
    の管理
    データガバナンス
    の実現
    データ品質管理
    セルフアクセスの実現
    メタデータを集積してカタログとして公開し、
    データ分析者が⾃分から⽬的データを探せるよう
    にする
    メタデータを活⽤し、
    定性的にデータ理解/
    活⽤を促進する
    メタデータを活⽤し、
    定量的にデータ理解/
    活⽤を促進する
    メタデータを活⽤し、
    利⽤ポリシー/ルール
    などを管理する
    物理的に集約せずに様々なデータソースの最新情
    報を取得&シングルアクセスも実現

    View Slide

  25. Ϋϩʔδϯά

    View Slide

  26. - 26 -
    - 26 -
    まとめ

    View Slide

  27. © 2022 IBM Corporation
    27
    ϝλσʔλ؅ཧͷϋϯζΦϯಈըγϦʔζ΋
    ੋඇνΣοΫͯ͠Έ͍ͯͩ͘͞
    ˝ୈճಈը
    IUUQTJCNCJ[XLD@IBOETPO@
    n ΰʔϧ
    • %BUB'BCSJDΛʮνϣοτΧλϨϧʯਓʹͳΔɻ
    • %BUB'BCSJDΛޠΔʹҝʹ͔ܽͤͳ͍ΩʔϫʔυΛ஌Δɾཧղ͢Δ
    ü σʔλυϦϒϯܦӦ
    ü $%0
    ü σʔλͷαΠϩԽ
    ü σʔλԾ૝Խ
    ü Ϗδωε༻ޠͷ؅ཧ
    ü σʔλΨόφϯεͷ؅ཧ
    ü ηϧϑΞΫηε
    • ͳͥඞཁͳͷ͔ʁٻΊΒΕ͍ͯΔͷ͔ʁ
    ΛޠΕΔΑ͏ʹͳ͍ͬͯΕ͹0,
    ຊ೔ͷΰʔϧ

    View Slide

  28. © 2022 IBM Corporation
    28
    Ξϯέʔτͷ͓ئ͍
    https://ibm.biz/20221028Dojo
    2"ɾΞϯέʔτ͸ͪ͜Β͔Β

    View Slide