Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI活用やデータ分析をする前に知っておきたい!エンタープライズデータアーキテクチャ入門/ What You Need to Know Before Using AI and Analyzing Data! Introduction to Enterprise Data Architecture

AI活用やデータ分析をする前に知っておきたい!エンタープライズデータアーキテクチャ入門/ What You Need to Know Before Using AI and Analyzing Data! Introduction to Enterprise Data Architecture

次のイベントの投影資料です。
https://studyco.connpass.com/event/251782/

Takahiro Esaki

July 07, 2022
Tweet

More Decks by Takahiro Esaki

Other Decks in Technology

Transcript

  1. - 1 - - 1 - AI活⽤やデータ分析をする前に知っておきたい︕ エンタープライズデータアーキテクチャ⼊⾨ 2022/07/07 Takahiro

    Esaki
  2. - 2 - - 2 - はじめに

  3. - 3 - - 3 - 講師紹介 【経歴】 n東京⼤学 ⽂学部

    ⼼理学専修課程 卒業 • 専⾨︓⾼次認知(記憶・学習・⾏動 など) n業務/ITコンサルティング • 基幹システム運⽤保守業務改⾰ • 基幹システム刷新PMO • サプライチェーン最適化/需要予測最適化 • データ分析システム刷新PM/アーキテクチャ設計 など n新規事業開発・アジャイル開発・ローコード開発 • クラウドソーシングプラットフォームサービス • アパレルプラットフォームサービス • 海外クリエーター向けe-Learningサービス など nCSM (カスタマーサクセスマネージャー) @IBM Japan※ • AI & Cloudソリューションの活⽤促進 • コミュニティ活動・アドボケート活動 など ※本講演・本資料は IBM Japan, Ltd. を代表するものではございません 江﨑 崇浩 (Takahiro Esaki) Twitter @t_esaking LinkedIn
  4. - 4 - - 4 - 本⽇の話のモチベーション(熱い⾃分語り) これからはAIの時代だ︕ データドリブン︕ はえー。すごいなー

    n 2015年。新卒1年⽬の若かりし頃
  5. - 5 - - 5 - 本⽇の話のモチベーション(熱い⾃分語り) n テクノロジーの進化は激しく・・・ 2016

    2017 2018 2019 2020 2021 ARスマホゲー のポケモンGO リリース がっきーが デーベースタス ペシャリストと 結婚(逃げ恥) がっきーが 本当に結婚︕ FBがメタバー ス事業に巨額投 資&社名変更 BERTの公開 (Google) Amazon Echo リリース 「AlphaGo」 が囲碁世界チャ ンピオンに勝利 商⽤量⼦コン ピュータ IBM Q System One開発 国産スパコン 「富岳」が2期 連続で世界1位 Apple M1チッ プ搭載の新Mac 発売 世界初の5G サービス ディープフェイ クの流⾏
  6. - 6 - - 6 - 本⽇の話のモチベーション(熱い⾃分語り) AIを始めとした技術の進化はすごい︕ シンギュラリティはすぐそこだ︕︕ そう思っていた時期が、私にもありました・・・

  7. - 7 - - 7 - 本⽇の話のモチベーション(熱い⾃分語り) n 2022年。ジャスサー(Just 30)になった今

    これからはAIの時代だ︕ データドリブン︕ ん︖ ͋ΕɺࢥͬͨΑΓ΋"*ͷ׆༻ͬͯਐΜͰ͍ͳ͍ɾɾɾʁ
  8. - 8 - - 8 - 本⽇の⽬的・内容・対象者 n ⽬的 •

    思ったよりもAIの活⽤が進んでいない状況についてみなさんと⼀緒に考えてみる • 特に、データドリブン経営を推進する上での課題とソリューションについて考察を深める • みなさんがAIやデータ分析などの⽂脈でワークする時のチップス獲得や視野の拡⼤をする n 内容 • データドリブン経営にまつわる課題 • データ利活⽤のためのソリューション ü 従来︓データレイク・データウェアハウス・データマート ü 今後︓データファブリック • データファブリックの重要な5つの要素 n 対象者 • エンタープライズでのデータ活⽤に興味がある⽅ • 特に、AIやデータサイエンス、データエンジニアリングなどでバリューを発揮していこうと考えている⽅ • エンタープライズのデータアーキテクチャに興味がある⽅(⼊⾨レベル) • エンタープライズのデータアーキテクチャについて知⾒を得られる • データファブリックの概念がわかって、アーキテクチャ検討などのディスカッションについていける
  9. - 9 - - 9 - データドリブン経営にまつわる課題

  10. - 10 - - 10 - データドリブン経営とは データドリブン経営 「データ」と「アルゴリズム」に基づいた客観性の⾼い意思決定をする経営 データ

    アルゴリズム 経験 勘 出典︓Gartner 2020 CIO Survey Top 10 “Game-Changing” Technologies AIとData Analytics が1,2位を占める AIとデータ活⽤は企業にとって最優先取り組み課題
  11. - 11 - - 11 - データドリブン経営を推進するためのデータ活⽤の課題 データ活⽤の改善は トッププライオリティと発⾔ データドリブン経営のために

    プラットフォーム整備を計画 出典︓Forrester 15% データから価値を 導き出せている企業の割合 出典︓Forrester 90% 71% このギャップは何なのだろうか︖
  12. - 12 - - 12 - 数字で⾒るデータ活⽤の課題 n 「データの所在がわからない」、「データが正確でないため使えない」、「加⼯の処理に時間がかかる」 ため、データを活⽤するまでの作業時間の80%をデータ準備に費やしている

    データ準備 Prepare 構築 Build 分析モデルを 構築 実⾏ Run 業務に適⽤ 管理 Manage 実際にデータを活⽤する チームが注⽬する箇所 数カ⽉ – 数四半期 検出、理解、取り込み、統合 品質の評価、データクレンジング データ・オペレーション 作業時間の 80% が費やされる箇所 ビジネスへの影響が 発⽣する箇所
  13. - 13 - - 13 - 数字で⾒るデータ活⽤の課題 エンタープライズで 管理されるデータの 増加率

    6 倍 74% のデータが分析 されていない 60% のビッグデー タ・ プロジェクトは 失敗に終わる 82% がデータ・サイ ロによって阻害 されて いる 89% がリソースを 消耗している データの加速的な増⼤と複雑性がデータ活⽤の⼤きな阻害要因となってる • クラウド・アプリケーションが増加するにつれ、 データは広範なデジタル・エコシステムへと分散さ れるようになっている • データの移動および⼀元化の取り組みは⼿作業に頼 りすぎており、時間とコストがかかるうえに効果も 限定的 • データが急増し、データのライフスパンが短くなっ ていることで、問題は悪化する⼀⽅ 出典︓Forrester
  14. - 14 - - 14 - データ利活⽤のためのソリューション

  15. - 15 - - 15 - 従来のソリューション︓データレイク/ウェアハウス/マート ビジネス・ アプリケーション POS

    IoT 開発 営業 財務 ・・・ データレイク データウェアハウス データソース データ活⽤ データマート σʔλϨΠΫ σʔλ΢ΣΞϋ΢ε σʔλϚʔτ • ಛఆͷ෼ੳ໨త͕ͳͯ͘΋ར༻͢ΔՄೳੑ ͷ͋ΔϩʔσʔλΛ֨ೲ • ௿ίετͷετϨʔδΛ४උ͠ɺ෼ੳχʔ ζ͕ൃੜͨ͠৔߹ɺߴ଎ʹΞΫηεͰ͖Δ Α͏ʹ͢Δ • ඇߏ଄Խσʔλ΋ؚΉॊೈੑ • .BJO6TFSɿσʔλαΠΤϯςΟετ • ಛఆͷ෼ੳ໨తͷͨΊͷॲཧࡁΈσʔλΛ ֨ೲ • ෼ੳͷͨΊʹߴ଎ͳΫΤϦॲཧ͕Ͱ͖ΔΑ ͏ʹ͢Δ • ݕࡧʹಛԽ͢ΔͨΊɺجຊతʹ͸ߏ଄Խ σʔλ • .BJO6TFSɿϏδωεΞφϦετ • σʔλ΢ΣΞϋ΢εΑΓ΋ߋʹಛԽͨ͠෼ ੳ໨తΛ࣋ͭϢʔβʔάϧʔϓͷͨΊͷ σʔλΛ֨ೲ • σʔλ΢ΣΞϋ΢εʹൺ΂Δͱখن໛Ͱɺ ߏஙϦʔυλΠϜ͕খ͍͞ • Ұํɺཚཱ͢Δͱӡ༻ίετ૿େ΍σʔλ ͷαΠϩԽΛՃ଎ͤ͞ΔཁҼʹ n データを物理的に集約して、データアクセスを容易にしようとしていた
  16. - 16 - - 16 - (Tips)サイロとサイロ化について !サイロとは︖ • 牧草・穀物・化学原料などを貯蔵

    したり発酵処理するための倉庫 • 並んでいるように⾒えるが、中⾝ が混ざらないように、内部はつな がっておらず、それぞれ独⽴して 中⾝を取り出す構造になっている !ビジネスで使われるサイロ化 • システムや業務プロセスなどが、 他のアプリケーションや他事業部 ⾨との連携を持たずに⾃⼰完結し て孤⽴してしまう状態のこと 各サイロはつながって いるように⾒えるが、 完全に独⽴している
  17. - 17 - - 17 - 課題のピックアップ︓データのサイロ化 物理的にデータを集約しようとするだけでは、データのサイロ化を解決できなかった !データのサイロ化とは︖ •

    分析対象となる「データ」が「サイ ロ」のように孤⽴・独⽴してしまっ ており、すぐにアクセスするのが困 難になってる状態 !背景 • データソースの拡⼤ • データ活⽤ニーズの多様化 • 各部⾨の個別最適なシステムの構築 • 企業/部⾨の統廃合 • ハイブリッドクラウド化 など 複雑化するデータアーキテクチャ ビジネス・ アプリケーション カスタム・ アプリケーション POS ユーザーの⾏動 IoT デバイス 顧客中⼼サービ ス 運⽤のアジリティー 包括的な品質 管理 継続的な改善 クリティカルな サービスの サポート データソース データ活⽤
  18. - 18 - - 18 - 今後のソリューション︓データファブリック データファブリック ビジネス・ アプリケーション

    カスタム・ アプリケーション POS ユーザーの⾏動 IoT デバイス 顧客中⼼サービ ス 運⽤のアジリティー 包括的な品質 管理 継続的な改善 クリティカルな サービスの サポート データソース データ活⽤ 「ファブリック」のイメージ︓ 伸縮性・柔軟性のある繊維構造。 データのIn/Outが増減しても、伸び縮みして対応できる !データファブリックとは︖ • 分散したデータの課題に対処するため の新しいコンセプト/アーキテクチャ !重要な5つの要素 1. データ仮想化※ 2. ビジネス⽤語の管理 3. データ品質管理 4. データガバナンスの実現 5. セルフアクセスの実現 データ仮想化基盤 ビジネス⽤語 の管理 データガバナンス の実現 データ品質管理 セルフアクセスの実現 ※データレイク・データウェアハウスを必ず しも否定するわけではない ⼤量データ取得にあたっての低レイテンシー 実現、定常的なワークロードの存在、ユーザ が分析するために形式変換が必要な場合は、 データウェアハウスなどを活⽤する⽅が適し ているケースも
  19. - 19 - - 19 - (参考)データファブリックへの注⽬ 出典︓https://www.imagazine.co.jp/gartner-strategic-technology2022/

  20. - 20 - - 20 - データファブリックの重要な5つの要素(ざっくりご紹介)

  21. - 21 - - 21 - 1. データ仮想化 n データ仮想化とは

    • 物理的にデータを集約せずに、⾼速なクエリ(照会・演算処理など)を通して情報を取得(含︓キャッシュ最適化) • 様々なデータソースに対する接続アダプターを準備し、シングルアクセスを実現 • 接続情報などのメタデータのみを保持しつつ、リアルタイムで最新のデータを取得 n データ仮想化のメリット • 物理的にデータを集約していないにも関わらず、直感的な操作で最新の情報をリアルタイムに取得できる • シングルアクセス︓データソース/データ活⽤側が増えても、仮想化基盤との認証情報追加で済む n シングルアクセスのイメージ データ 仮想化 基盤 データソース データ活⽤ データソース データ活⽤ ▼ばらばらのアクセス ▼シングルアクセス
  22. - 22 - - 22 - 2. ビジネス⽤語の管理 n ビジネス⽤語の管理が必要な理由

    • 企業には複雑で膨⼤なビジネス⽤語が存在。内容によっては、理解できる⼈にたどり着くだけでも⼤変 • テーブルカラムのスキマー名や物理名だけでは意味が分からない。設計書情報も正しいか分からない • 部署や利⽤シーンによっても意味が変わることがある。同⾳異義語や異⾳同義語も存在 (特にM&Aなど発⽣すると) ツールだけでなく継続的にビジネス⽤語を整備するプロセス/体制が⼤事(データスチュワード) 企業のビジネス⽤語を様々なメタデータを使って⼤系的に整理し、誰でも理解できる仕組みが必要 ビジネス⽤語の検索 ※イメージ例 (IBM Cloud Pak® for Data ) ビジネス⽤語の 関連性の把握
  23. - 23 - - 23 - 3. データ品質管理 n データ品質が必要な理由

    • 実際のデータ値はどうなっているのか、そのままデータ分析できるかを確認しなければいけない • 例︓最⼤値/最⼩値、平均値、頻度、外れ値、⽋損値、データ来歴 など 値の出現頻度 最⼩値・最⼤値な どの統計情報 ※イメージ例 (IBM Cloud Pak® for Data ) 統計情報などのメタデータを簡単に確認し、外れ値や⽋損地に対してもフォローできる仕組みが必要
  24. - 24 - - 24 - 4. データガバナンスの実現 n データガバナンスが必要な理由

    • 企業は部⾨/役割、ロケーションなどによって利⽤ポリシーやルールをコントロールしなければいけない • アクセス可否の決定、データマスキングなど。特に、個⼈情報のアクセスに対するアテンションは⾮常に⾼い • 物理的なテーブル、スキーマ、カラム単位でポリシーやルールは管理しきれない ルールの設定 プロファイル ⾮表⽰ マスク処理 ※イメージ例 (IBM Cloud Pak® for Data ) ビジネス⽤語やカテゴリなどのメタデータを活⽤しながら容易にガバナンス運⽤できる仕組みが必要
  25. - 25 - - 25 - 5. セルフアクセス n セルフアクセスが必要な理由

    • あらゆるデータにアクセスでき、内容が分かるようになっても、誰かに依頼してデータ提供してもらっていては遅い • データ確認のコミュニケーションだけでオーバーヘッドがかかるし、⼼理的抵抗も⼤きい ※イメージ例 (IBM Cloud Pak® for Data ) メタデータを集積してカタログとして公開し、データ分析者が⾃分から⽬的データを探せるようにする
  26. - 26 - - 26 - データファブリックの5つの要素のまとめ n データファブリックは、従来のデータサイロ化のような問題を解決するために注⽬されているアーキテク チャ/コンセプト

    データファブリック ビジネス・ アプリケーション カスタム・ アプリケーション POS ユーザーの⾏動 IoT デバイス 顧客中⼼サービス 運⽤のアジリティー 包括的な品質 管理 継続的な改善 クリティカルな サービスの サポート データソース データ活⽤ データ仮想化基盤 ビジネス⽤語 の管理 データガバナンス の実現 データ品質管理 セルフアクセスの実現 メタデータを集積してカタログとして公開し、 データ分析者が⾃分から⽬的データを探せるよう にする メタデータを活⽤し、 定性的にデータ理解/ 活⽤を促進する メタデータを活⽤し、 定量的にデータ理解/ 活⽤を促進する メタデータを活⽤し、 利⽤ポリシー/ルール などを管理する 物理的に集約せずに様々なデータソースの最新情 報を取得&シングルアクセスも実現
  27. - 27 - - 27 - まとめ

  28. - 28 - - 28 - (再掲)本⽇の⽬的・内容・対象者 n ⽬的 •

    思ったよりもAIの活⽤が進んでいない状況についてみなさんと⼀緒に考えてみる • 特に、データドリブン経営を推進する上での課題とソリューションについて考察を深める • みなさんがAIやデータ分析などの⽂脈でワークする時のチップス獲得や視野の拡⼤をする n 内容 • データドリブン経営にまつわる課題 • データ利活⽤のためのソリューション ü 従来︓データレイク・データウェアハウス・データマート ü 今後︓データファブリック • データファブリックの重要な5つの要素 n 対象者 • エンタープライズでのデータ活⽤に興味がある⽅ • 特に、AIやデータサイエンス、データエンジニアリングなどでバリューを発揮していこうと考えている⽅ • エンタープライズのデータアーキテクチャに興味がある⽅(⼊⾨レベル) • エンタープライズのデータアーキテクチャについて知⾒を得られる • データファブリックの概念がわかって、アーキテクチャ検討などのディスカッションについていける アンケート回答のご協⼒、SNSフォローなどよろしくお願いいたします︕