Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data Fabricを「チョットカタレル」人になるための1時間

Data Fabricを「チョットカタレル」人になるための1時間

<概要>
データにまつわるトピックは本当にたくさんありますよね。

その中でも、最近話題になっているのが、Data Fabric (データファブリック)というテーマです。

しかし、Data FabricというキーワードをWebで検索しても、難しい言葉が大量に表示され、どういうものなのかはっきりと飲み込めず、他の人にも上手く説明できない方が多いのではないかと思います。

そこで、今回はData Fabricはどういうものなのか、なんで注目されているのか、(ほんとに)チョット語られるくらいになれることを目指して、1時間で頑張ってご紹介します。

※この資料は次のイベントの投影資料です
https://ibm-developer.connpass.com/event/262433/

Takahiro Esaki

November 07, 2022
Tweet

More Decks by Takahiro Esaki

Other Decks in Technology

Transcript

  1. © 2022 IBM Corporation 2 ΞδΣϯμ  Φʔϓχϯά NJO 

    σʔλ׆༻ͷ՝୊ΛνϣοτΧλϨϧΑ͏ʹͳΖ͏ NJO  σʔλϑΝϒϦοΫΛνϣοτΧλϨϧΑ͏ʹͳΖ͏ NJO  Ϋϩʔδϯά NJO
  2. © 2022 IBM Corporation 6 ຊ೔ͷΰʔϧ n ΰʔϧ • %BUB'BCSJDΛʮνϣοτΧλϨϧʯਓʹͳΔɻ

    • %BUB'BCSJDΛޠΔʹҝʹ͔ܽͤͳ͍ΩʔϫʔυΛ஌Δɾཧղ͢Δ ü σʔλυϦϒϯܦӦ ü $%0 ü σʔλͷαΠϩԽ ü σʔλԾ૝Խ ü Ϗδωε༻ޠͷ؅ཧ ü σʔλΨόφϯεͷ؅ཧ ü ηϧϑΞΫηε • ͳͥඞཁͳͷ͔ʁٻΊΒΕ͍ͯΔͷ͔ʁΛޠΕΔΑ͏ʹͳ͍ͬͯΕ͹0,
  3. - 9 - - 9 - データ活⽤にまつわる課題 n たくさんの課題やキーワードがありますよね データの意味が

    判別できない データの不⾜や⽋損値があると ⼿戻りが発⽣する データ取得に時間がかかる (権限の問題など) そもそも既存のDWHに ほしいデータがない
  4. - 10 - - 10 - 数字で⾒るデータ活⽤の課題 n 「データの所在がわからない」、「データが正確でないため使えない」、「加⼯の処理に時間がかかる」 ため、データを活⽤するまでの作業時間の80%をデータ準備に費やしている

    データ準備 Prepare 構築 Build 分析モデルを 構築 実⾏ Run 業務に適⽤ 管理 Manage 実際にデータを活⽤する チームが注⽬する箇所 数カ⽉ – 数四半期 検出、理解、取り込み、統合 品質の評価、データクレンジング データ・オペレーション 作業時間の 80% が費やされる箇所 ビジネスへの影響が 発⽣する箇所
  5. - 11 - - 11 - 数字で⾒るデータ活⽤の課題 エンタープライズで 管理されるデータの 増加率

    6 倍 74% のデータが分析 されていない 60% のビッグデー タ・ プロジェクトは 失敗に終わる 82% がデータ・サイ ロによって阻害 されて いる 89% がリソースを 消耗している データの加速的な増⼤と複雑性がデータ活⽤の⼤きな阻害要因となってる • クラウド・アプリケーションが増加するにつれ、 データは広範なデジタル・エコシステムへと分散さ れるようになっている • データの移動および⼀元化の取り組みは⼿作業に頼 りすぎており、時間とコストがかかるうえに効果も 限定的 • データが急増し、データのライフスパンが短くなっ ていることで、問題は悪化する⼀⽅
  6. - 12 - - 12 - 従来のソリューション︓データレイク/ウェアハウス/マート ビジネス・ アプリケーション POS

    IoT 開発 営業 財務 ・・・ データレイク データウェアハウス データソース データ活⽤ データマート σʔλϨΠΫ σʔλ΢ΣΞϋ΢ε σʔλϚʔτ • ಛఆͷ෼ੳ໨త͕ͳͯ͘΋ར༻͢ΔՄೳੑ ͷ͋ΔϩʔσʔλΛ֨ೲ • ௿ίετͷετϨʔδΛ४උ͠ɺ෼ੳχʔ ζ͕ൃੜͨ͠৔߹ɺߴ଎ʹΞΫηεͰ͖Δ Α͏ʹ͢Δ • ඇߏ଄Խσʔλ΋ؚΉॊೈੑ • .BJO6TFSɿσʔλαΠΤϯςΟετ • ಛఆͷ෼ੳ໨తͷͨΊͷॲཧࡁΈσʔλΛ ֨ೲ • ෼ੳͷͨΊʹߴ଎ͳΫΤϦॲཧ͕Ͱ͖ΔΑ ͏ʹ͢Δ • ݕࡧʹಛԽ͢ΔͨΊɺجຊతʹ͸ߏ଄Խ σʔλ • .BJO6TFSɿϏδωεΞφϦετ • σʔλ΢ΣΞϋ΢εΑΓ΋ߋʹಛԽͨ͠෼ ੳ໨తΛ࣋ͭϢʔβʔάϧʔϓͷͨΊͷ σʔλΛ֨ೲ • σʔλ΢ΣΞϋ΢εʹൺ΂Δͱখن໛Ͱɺ ߏஙϦʔυλΠϜ͕খ͍͞ • Ұํɺཚཱ͢Δͱӡ༻ίετ૿େ΍σʔλ ͷαΠϩԽΛՃ଎ͤ͞ΔཁҼʹ n データを物理的に集約して、データアクセスを容易にしようとしていた
  7. - 13 - - 13 - (Tips)サイロとサイロ化について !サイロとは︖ • 牧草・穀物・化学原料などを貯蔵

    したり発酵処理するための倉庫 • 並んでいるように⾒えるが、中⾝ が混ざらないように、内部はつな がっておらず、それぞれ独⽴して 中⾝を取り出す構造になっている !ビジネスで使われるサイロ化 • システムや業務プロセスなどが、 他のアプリケーションや他事業部 ⾨との連携を持たずに⾃⼰完結し て孤⽴してしまう状態のこと 各サイロはつながって いるように⾒えるが、 完全に独⽴している
  8. - 14 - - 14 - 課題のピックアップ︓データのサイロ化 物理的にデータを集約しようとするだけでは、データのサイロ化を解決できなかった !データのサイロ化とは︖ •

    分析対象となる「データ」が「サイ ロ」のように孤⽴・独⽴してしまっ ており、すぐにアクセスするのが困 難になってる状態 !背景 • データソースの拡⼤ • データ活⽤ニーズの多様化 • 各部⾨の個別最適なシステムの構築 • 企業/部⾨の統廃合 • ハイブリッドクラウド化 など 複雑化するデータアーキテクチャ ビジネス・ アプリケーション カスタム・ アプリケーション POS ユーザーの⾏動 IoT デバイス 顧客中⼼サービ ス 運⽤のアジリティー 包括的な品質 管理 継続的な改善 クリティカルな サービスの サポート データソース データ活⽤
  9. - 16 - - 16 - 今後のソリューション︓データファブリック データファブリック ビジネス・ アプリケーション

    カスタム・ アプリケーション POS ユーザーの⾏動 IoT デバイス 顧客中⼼サービ ス 運⽤のアジリティー 包括的な品質 管理 継続的な改善 クリティカルな サービスの サポート データソース データ活⽤ 「ファブリック」のイメージ︓ 伸縮性・柔軟性のある繊維構造。 データのIn/Outが増減しても、伸び縮みして対応できる !データファブリックとは︖ • 分散したデータの課題に対処するため の新しいコンセプト/アーキテクチャ !重要な5つの要素 1. データ仮想化※ 2. ビジネス⽤語の管理 3. データ品質管理 4. データガバナンスの実現 5. セルフアクセスの実現 データ仮想化基盤 ビジネス⽤語 の管理 データガバナンス の実現 データ品質管理 セルフアクセスの実現 ※データレイク・データウェアハウスを必ず しも否定するわけではない ⼤量データ取得にあたっての低レイテンシー 実現、定常的なワークロードの存在、ユーザ が分析するために形式変換が必要な場合は、 データウェアハウスなどを活⽤する⽅が適し ているケースも
  10. - 19 - - 19 - 1. データ仮想化 n データ仮想化とは

    • 物理的にデータを集約せずに、⾼速なクエリ(照会・演算処理など)を通して情報を取得(含︓キャッシュ最適化) • 様々なデータソースに対する接続アダプターを準備し、シングルアクセスを実現 • 接続情報などのメタデータのみを保持しつつ、リアルタイムで最新のデータを取得 n データ仮想化のメリット • 物理的にデータを集約していないにも関わらず、直感的な操作で最新の情報をリアルタイムに取得できる • シングルアクセス︓データソース/データ活⽤側が増えても、仮想化基盤との認証情報追加で済む n シングルアクセスのイメージ データ 仮想化 基盤 データソース データ活⽤ データソース データ活⽤ ▼ばらばらのアクセス ▼シングルアクセス
  11. - 20 - - 20 - 2. ビジネス⽤語の管理 n ビジネス⽤語の管理が必要な理由

    • 企業には複雑で膨⼤なビジネス⽤語が存在。内容によっては、理解できる⼈にたどり着くだけでも⼤変 • テーブルカラムのスキマー名や物理名だけでは意味が分からない。設計書情報も正しいか分からない • 部署や利⽤シーンによっても意味が変わることがある。同⾳異義語や異⾳同義語も存在 (特にM&Aなど発⽣すると) ツールだけでなく継続的にビジネス⽤語を整備するプロセス/体制が⼤事(データスチュワード) 企業のビジネス⽤語を様々なメタデータを使って⼤系的に整理し、誰でも理解できる仕組みが必要 ビジネス⽤語の検索 ※イメージ例 (IBM Cloud Pak® for Data ) ビジネス⽤語の 関連性の把握
  12. - 21 - - 21 - 3. データ品質管理 n データ品質が必要な理由

    • 実際のデータ値はどうなっているのか、そのままデータ分析できるかを確認しなければいけない • 例︓最⼤値/最⼩値、平均値、頻度、外れ値、⽋損値、データ来歴 など 値の出現頻度 最⼩値・最⼤値な どの統計情報 ※イメージ例 (IBM Cloud Pak® for Data ) 統計情報などのメタデータを簡単に確認し、外れ値や⽋損地に対してもフォローできる仕組みが必要
  13. - 22 - - 22 - 4. データガバナンスの実現 n データガバナンスが必要な理由

    • 企業は部⾨/役割、ロケーションなどによって利⽤ポリシーやルールをコントロールしなければいけない • アクセス可否の決定、データマスキングなど。特に、個⼈情報のアクセスに対するアテンションは⾮常に⾼い • 物理的なテーブル、スキーマ、カラム単位でポリシーやルールは管理しきれない ルールの設定 プロファイル ⾮表⽰ マスク処理 ※イメージ例 (IBM Cloud Pak® for Data ) ビジネス⽤語やカテゴリなどのメタデータを活⽤しながら容易にガバナンス運⽤できる仕組みが必要
  14. - 23 - - 23 - 5. セルフアクセス n セルフアクセスが必要な理由

    • あらゆるデータにアクセスでき、内容が分かるようになっても、誰かに依頼してデータ提供してもらっていては遅い • データ確認のコミュニケーションだけでオーバーヘッドがかかるし、⼼理的抵抗も⼤きい ※イメージ例 (IBM Cloud Pak® for Data ) メタデータを集積してカタログとして公開し、データ分析者が⾃分から⽬的データを探せるようにする
  15. - 24 - - 24 - データファブリックの5つの要素のまとめ n データファブリックは、従来のデータサイロ化のような問題を解決するために注⽬されているアーキテク チャ/コンセプト

    データファブリック ビジネス・ アプリケーション カスタム・ アプリケーション POS ユーザーの⾏動 IoT デバイス 顧客中⼼サービス 運⽤のアジリティー 包括的な品質 管理 継続的な改善 クリティカルな サービスの サポート データソース データ活⽤ データ仮想化基盤 ビジネス⽤語 の管理 データガバナンス の実現 データ品質管理 セルフアクセスの実現 メタデータを集積してカタログとして公開し、 データ分析者が⾃分から⽬的データを探せるよう にする メタデータを活⽤し、 定性的にデータ理解/ 活⽤を促進する メタデータを活⽤し、 定量的にデータ理解/ 活⽤を促進する メタデータを活⽤し、 利⽤ポリシー/ルール などを管理する 物理的に集約せずに様々なデータソースの最新情 報を取得&シングルアクセスも実現
  16. © 2022 IBM Corporation 27 ϝλσʔλ؅ཧͷϋϯζΦϯಈըγϦʔζ΋ ੋඇνΣοΫͯ͠Έ͍ͯͩ͘͞ ˝ୈճಈը IUUQTJCNCJ[XLD@IBOETPO@ n

    ΰʔϧ • %BUB'BCSJDΛʮνϣοτΧλϨϧʯਓʹͳΔɻ • %BUB'BCSJDΛޠΔʹҝʹ͔ܽͤͳ͍ΩʔϫʔυΛ஌Δɾཧղ͢Δ ü σʔλυϦϒϯܦӦ ü $%0 ü σʔλͷαΠϩԽ ü σʔλԾ૝Խ ü Ϗδωε༻ޠͷ؅ཧ ü σʔλΨόφϯεͷ؅ཧ ü ηϧϑΞΫηε • ͳͥඞཁͳͷ͔ʁٻΊΒΕ͍ͯΔͷ͔ʁ ΛޠΕΔΑ͏ʹͳ͍ͬͯΕ͹0, ຊ೔ͷΰʔϧ