Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI活用やデータ分析をする前に知っておきたい!エンタープライズデータアーキテクチャ入門/ What You Need to Know Before Using AI and Analyzing Data! Introduction to Enterprise Data Architecture

AI活用やデータ分析をする前に知っておきたい!エンタープライズデータアーキテクチャ入門/ What You Need to Know Before Using AI and Analyzing Data! Introduction to Enterprise Data Architecture

次のイベントの投影資料です。
https://studyco.connpass.com/event/251782/

Takahiro Esaki

July 07, 2022
Tweet

More Decks by Takahiro Esaki

Other Decks in Technology

Transcript

  1. - 1 -
    - 1 -
    AI活⽤やデータ分析をする前に知っておきたい︕
    エンタープライズデータアーキテクチャ⼊⾨
    2022/07/07
    Takahiro Esaki

    View full-size slide

  2. - 2 -
    - 2 -
    はじめに

    View full-size slide

  3. - 3 -
    - 3 -
    講師紹介
    【経歴】
    n東京⼤学 ⽂学部 ⼼理学専修課程 卒業
    • 専⾨︓⾼次認知(記憶・学習・⾏動 など)
    n業務/ITコンサルティング
    • 基幹システム運⽤保守業務改⾰
    • 基幹システム刷新PMO
    • サプライチェーン最適化/需要予測最適化
    • データ分析システム刷新PM/アーキテクチャ設計 など
    n新規事業開発・アジャイル開発・ローコード開発
    • クラウドソーシングプラットフォームサービス
    • アパレルプラットフォームサービス
    • 海外クリエーター向けe-Learningサービス など
    nCSM (カスタマーサクセスマネージャー) @IBM Japan※
    • AI & Cloudソリューションの活⽤促進
    • コミュニティ活動・アドボケート活動 など
    ※本講演・本資料は IBM Japan, Ltd. を代表するものではございません
    江﨑 崇浩
    (Takahiro Esaki)
    Twitter
    @t_esaking
    LinkedIn

    View full-size slide

  4. - 4 -
    - 4 -
    本⽇の話のモチベーション(熱い⾃分語り)
    これからはAIの時代だ︕
    データドリブン︕
    はえー。すごいなー
    n 2015年。新卒1年⽬の若かりし頃

    View full-size slide

  5. - 5 -
    - 5 -
    本⽇の話のモチベーション(熱い⾃分語り)
    n テクノロジーの進化は激しく・・・
    2016 2017 2018 2019 2020 2021
    ARスマホゲー
    のポケモンGO
    リリース
    がっきーが
    デーベースタス
    ペシャリストと
    結婚(逃げ恥)
    がっきーが
    本当に結婚︕
    FBがメタバー
    ス事業に巨額投
    資&社名変更
    BERTの公開
    (Google)
    Amazon Echo
    リリース
    「AlphaGo」
    が囲碁世界チャ
    ンピオンに勝利
    商⽤量⼦コン
    ピュータ IBM
    Q System
    One開発
    国産スパコン
    「富岳」が2期
    連続で世界1位
    Apple M1チッ
    プ搭載の新Mac
    発売
    世界初の5G
    サービス
    ディープフェイ
    クの流⾏

    View full-size slide

  6. - 6 -
    - 6 -
    本⽇の話のモチベーション(熱い⾃分語り)
    AIを始めとした技術の進化はすごい︕
    シンギュラリティはすぐそこだ︕︕
    そう思っていた時期が、私にもありました・・・

    View full-size slide

  7. - 7 -
    - 7 -
    本⽇の話のモチベーション(熱い⾃分語り)
    n 2022年。ジャスサー(Just 30)になった今
    これからはAIの時代だ︕
    データドリブン︕
    ん︖
    ͋ΕɺࢥͬͨΑΓ΋"*ͷ׆༻ͬͯਐΜͰ͍ͳ͍ɾɾɾʁ

    View full-size slide

  8. - 8 -
    - 8 -
    本⽇の⽬的・内容・対象者
    n ⽬的
    • 思ったよりもAIの活⽤が進んでいない状況についてみなさんと⼀緒に考えてみる
    • 特に、データドリブン経営を推進する上での課題とソリューションについて考察を深める
    • みなさんがAIやデータ分析などの⽂脈でワークする時のチップス獲得や視野の拡⼤をする
    n 内容
    • データドリブン経営にまつわる課題
    • データ利活⽤のためのソリューション
    ü 従来︓データレイク・データウェアハウス・データマート
    ü 今後︓データファブリック
    • データファブリックの重要な5つの要素
    n 対象者
    • エンタープライズでのデータ活⽤に興味がある⽅
    • 特に、AIやデータサイエンス、データエンジニアリングなどでバリューを発揮していこうと考えている⽅
    • エンタープライズのデータアーキテクチャに興味がある⽅(⼊⾨レベル)
    • エンタープライズのデータアーキテクチャについて知⾒を得られる
    • データファブリックの概念がわかって、アーキテクチャ検討などのディスカッションについていける

    View full-size slide

  9. - 9 -
    - 9 -
    データドリブン経営にまつわる課題

    View full-size slide

  10. - 10 -
    - 10 -
    データドリブン経営とは
    データドリブン経営
    「データ」と「アルゴリズム」に基づいた客観性の⾼い意思決定をする経営
    データ
    アルゴリズム
    経験

    出典︓Gartner 2020 CIO Survey
    Top 10 “Game-Changing” Technologies
    AIとData Analytics
    が1,2位を占める
    AIとデータ活⽤は企業にとって最優先取り組み課題

    View full-size slide

  11. - 11 -
    - 11 -
    データドリブン経営を推進するためのデータ活⽤の課題
    データ活⽤の改善は
    トッププライオリティと発⾔
    データドリブン経営のために
    プラットフォーム整備を計画
    出典︓Forrester
    15%
    データから価値を
    導き出せている企業の割合
    出典︓Forrester
    90%
    71%
    このギャップは何なのだろうか︖

    View full-size slide

  12. - 12 -
    - 12 -
    数字で⾒るデータ活⽤の課題
    n 「データの所在がわからない」、「データが正確でないため使えない」、「加⼯の処理に時間がかかる」
    ため、データを活⽤するまでの作業時間の80%をデータ準備に費やしている
    データ準備
    Prepare
    構築
    Build
    分析モデルを
    構築
    実⾏
    Run
    業務に適⽤
    管理
    Manage
    実際にデータを活⽤する
    チームが注⽬する箇所
    数カ⽉ – 数四半期
    検出、理解、取り込み、統合
    品質の評価、データクレンジング
    データ・オペレーション
    作業時間の
    80%
    が費やされる箇所
    ビジネスへの影響が
    発⽣する箇所

    View full-size slide

  13. - 13 -
    - 13 -
    数字で⾒るデータ活⽤の課題
    エンタープライズで
    管理されるデータの
    増加率
    6 倍 74%
    のデータが分析
    されていない
    60%
    のビッグデー
    タ・
    プロジェクトは
    失敗に終わる
    82%
    がデータ・サイ
    ロによって阻害
    されて
    いる
    89%
    がリソースを
    消耗している
    データの加速的な増⼤と複雑性がデータ活⽤の⼤きな阻害要因となってる
    • クラウド・アプリケーションが増加するにつれ、
    データは広範なデジタル・エコシステムへと分散さ
    れるようになっている
    • データの移動および⼀元化の取り組みは⼿作業に頼
    りすぎており、時間とコストがかかるうえに効果も
    限定的
    • データが急増し、データのライフスパンが短くなっ
    ていることで、問題は悪化する⼀⽅
    出典︓Forrester

    View full-size slide

  14. - 14 -
    - 14 -
    データ利活⽤のためのソリューション

    View full-size slide

  15. - 15 -
    - 15 -
    従来のソリューション︓データレイク/ウェアハウス/マート
    ビジネス・
    アプリケーション
    POS
    IoT
    開発
    営業
    財務
    ・・・
    データレイク データウェアハウス
    データソース データ活⽤
    データマート
    σʔλϨΠΫ σʔλ΢ΣΞϋ΢ε σʔλϚʔτ
    • ಛఆͷ෼ੳ໨త͕ͳͯ͘΋ར༻͢ΔՄೳੑ
    ͷ͋ΔϩʔσʔλΛ֨ೲ
    • ௿ίετͷετϨʔδΛ४උ͠ɺ෼ੳχʔ
    ζ͕ൃੜͨ͠৔߹ɺߴ଎ʹΞΫηεͰ͖Δ
    Α͏ʹ͢Δ
    • ඇߏ଄Խσʔλ΋ؚΉॊೈੑ
    • .BJO6TFSɿσʔλαΠΤϯςΟετ
    • ಛఆͷ෼ੳ໨తͷͨΊͷॲཧࡁΈσʔλΛ
    ֨ೲ
    • ෼ੳͷͨΊʹߴ଎ͳΫΤϦॲཧ͕Ͱ͖ΔΑ
    ͏ʹ͢Δ
    • ݕࡧʹಛԽ͢ΔͨΊɺجຊతʹ͸ߏ଄Խ
    σʔλ
    • .BJO6TFSɿϏδωεΞφϦετ
    • σʔλ΢ΣΞϋ΢εΑΓ΋ߋʹಛԽͨ͠෼
    ੳ໨తΛ࣋ͭϢʔβʔάϧʔϓͷͨΊͷ
    σʔλΛ֨ೲ
    • σʔλ΢ΣΞϋ΢εʹൺ΂Δͱখن໛Ͱɺ
    ߏஙϦʔυλΠϜ͕খ͍͞
    • Ұํɺཚཱ͢Δͱӡ༻ίετ૿େ΍σʔλ
    ͷαΠϩԽΛՃ଎ͤ͞ΔཁҼʹ
    n データを物理的に集約して、データアクセスを容易にしようとしていた

    View full-size slide

  16. - 16 -
    - 16 -
    (Tips)サイロとサイロ化について
    !サイロとは︖
    • 牧草・穀物・化学原料などを貯蔵
    したり発酵処理するための倉庫
    • 並んでいるように⾒えるが、中⾝
    が混ざらないように、内部はつな
    がっておらず、それぞれ独⽴して
    中⾝を取り出す構造になっている
    !ビジネスで使われるサイロ化
    • システムや業務プロセスなどが、
    他のアプリケーションや他事業部
    ⾨との連携を持たずに⾃⼰完結し
    て孤⽴してしまう状態のこと
    各サイロはつながって
    いるように⾒えるが、
    完全に独⽴している

    View full-size slide

  17. - 17 -
    - 17 -
    課題のピックアップ︓データのサイロ化
    物理的にデータを集約しようとするだけでは、データのサイロ化を解決できなかった
    !データのサイロ化とは︖
    • 分析対象となる「データ」が「サイ
    ロ」のように孤⽴・独⽴してしまっ
    ており、すぐにアクセスするのが困
    難になってる状態
    !背景
    • データソースの拡⼤
    • データ活⽤ニーズの多様化
    • 各部⾨の個別最適なシステムの構築
    • 企業/部⾨の統廃合
    • ハイブリッドクラウド化 など
    複雑化するデータアーキテクチャ
    ビジネス・
    アプリケーション
    カスタム・
    アプリケーション
    POS
    ユーザーの⾏動
    IoT
    デバイス
    顧客中⼼サービ

    運⽤のアジリティー
    包括的な品質
    管理
    継続的な改善
    クリティカルな
    サービスの
    サポート
    データソース データ活⽤

    View full-size slide

  18. - 18 -
    - 18 -
    今後のソリューション︓データファブリック
    データファブリック
    ビジネス・
    アプリケーション
    カスタム・
    アプリケーション
    POS
    ユーザーの⾏動
    IoT
    デバイス
    顧客中⼼サービ

    運⽤のアジリティー
    包括的な品質
    管理
    継続的な改善
    クリティカルな
    サービスの
    サポート
    データソース データ活⽤
    「ファブリック」のイメージ︓
    伸縮性・柔軟性のある繊維構造。
    データのIn/Outが増減しても、伸び縮みして対応できる
    !データファブリックとは︖
    • 分散したデータの課題に対処するため
    の新しいコンセプト/アーキテクチャ
    !重要な5つの要素
    1. データ仮想化※
    2. ビジネス⽤語の管理
    3. データ品質管理
    4. データガバナンスの実現
    5. セルフアクセスの実現
    データ仮想化基盤
    ビジネス⽤語
    の管理
    データガバナンス
    の実現
    データ品質管理
    セルフアクセスの実現
    ※データレイク・データウェアハウスを必ず
    しも否定するわけではない
    ⼤量データ取得にあたっての低レイテンシー
    実現、定常的なワークロードの存在、ユーザ
    が分析するために形式変換が必要な場合は、
    データウェアハウスなどを活⽤する⽅が適し
    ているケースも

    View full-size slide

  19. - 19 -
    - 19 -
    (参考)データファブリックへの注⽬
    出典︓https://www.imagazine.co.jp/gartner-strategic-technology2022/

    View full-size slide

  20. - 20 -
    - 20 -
    データファブリックの重要な5つの要素(ざっくりご紹介)

    View full-size slide

  21. - 21 -
    - 21 -
    1. データ仮想化
    n データ仮想化とは
    • 物理的にデータを集約せずに、⾼速なクエリ(照会・演算処理など)を通して情報を取得(含︓キャッシュ最適化)
    • 様々なデータソースに対する接続アダプターを準備し、シングルアクセスを実現
    • 接続情報などのメタデータのみを保持しつつ、リアルタイムで最新のデータを取得
    n データ仮想化のメリット
    • 物理的にデータを集約していないにも関わらず、直感的な操作で最新の情報をリアルタイムに取得できる
    • シングルアクセス︓データソース/データ活⽤側が増えても、仮想化基盤との認証情報追加で済む
    n シングルアクセスのイメージ
    データ
    仮想化
    基盤
    データソース データ活⽤ データソース データ活⽤
    ▼ばらばらのアクセス ▼シングルアクセス

    View full-size slide

  22. - 22 -
    - 22 -
    2. ビジネス⽤語の管理
    n ビジネス⽤語の管理が必要な理由
    • 企業には複雑で膨⼤なビジネス⽤語が存在。内容によっては、理解できる⼈にたどり着くだけでも⼤変
    • テーブルカラムのスキマー名や物理名だけでは意味が分からない。設計書情報も正しいか分からない
    • 部署や利⽤シーンによっても意味が変わることがある。同⾳異義語や異⾳同義語も存在 (特にM&Aなど発⽣すると)
    ツールだけでなく継続的にビジネス⽤語を整備するプロセス/体制が⼤事(データスチュワード)
    企業のビジネス⽤語を様々なメタデータを使って⼤系的に整理し、誰でも理解できる仕組みが必要
    ビジネス⽤語の検索
    ※イメージ例 (IBM Cloud Pak® for Data )
    ビジネス⽤語の
    関連性の把握

    View full-size slide

  23. - 23 -
    - 23 -
    3. データ品質管理
    n データ品質が必要な理由
    • 実際のデータ値はどうなっているのか、そのままデータ分析できるかを確認しなければいけない
    • 例︓最⼤値/最⼩値、平均値、頻度、外れ値、⽋損値、データ来歴 など
    値の出現頻度
    最⼩値・最⼤値な
    どの統計情報
    ※イメージ例 (IBM Cloud Pak® for Data )
    統計情報などのメタデータを簡単に確認し、外れ値や⽋損地に対してもフォローできる仕組みが必要

    View full-size slide

  24. - 24 -
    - 24 -
    4. データガバナンスの実現
    n データガバナンスが必要な理由
    • 企業は部⾨/役割、ロケーションなどによって利⽤ポリシーやルールをコントロールしなければいけない
    • アクセス可否の決定、データマスキングなど。特に、個⼈情報のアクセスに対するアテンションは⾮常に⾼い
    • 物理的なテーブル、スキーマ、カラム単位でポリシーやルールは管理しきれない
    ルールの設定
    プロファイル
    ⾮表⽰
    マスク処理
    ※イメージ例 (IBM Cloud Pak® for Data )
    ビジネス⽤語やカテゴリなどのメタデータを活⽤しながら容易にガバナンス運⽤できる仕組みが必要

    View full-size slide

  25. - 25 -
    - 25 -
    5. セルフアクセス
    n セルフアクセスが必要な理由
    • あらゆるデータにアクセスでき、内容が分かるようになっても、誰かに依頼してデータ提供してもらっていては遅い
    • データ確認のコミュニケーションだけでオーバーヘッドがかかるし、⼼理的抵抗も⼤きい
    ※イメージ例 (IBM Cloud Pak® for Data )
    メタデータを集積してカタログとして公開し、データ分析者が⾃分から⽬的データを探せるようにする

    View full-size slide

  26. - 26 -
    - 26 -
    データファブリックの5つの要素のまとめ
    n データファブリックは、従来のデータサイロ化のような問題を解決するために注⽬されているアーキテク
    チャ/コンセプト
    データファブリック
    ビジネス・
    アプリケーション
    カスタム・
    アプリケーション
    POS
    ユーザーの⾏動
    IoT
    デバイス
    顧客中⼼サービス
    運⽤のアジリティー
    包括的な品質
    管理
    継続的な改善
    クリティカルな
    サービスの
    サポート
    データソース データ活⽤
    データ仮想化基盤
    ビジネス⽤語
    の管理
    データガバナンス
    の実現
    データ品質管理
    セルフアクセスの実現
    メタデータを集積してカタログとして公開し、
    データ分析者が⾃分から⽬的データを探せるよう
    にする
    メタデータを活⽤し、
    定性的にデータ理解/
    活⽤を促進する
    メタデータを活⽤し、
    定量的にデータ理解/
    活⽤を促進する
    メタデータを活⽤し、
    利⽤ポリシー/ルール
    などを管理する
    物理的に集約せずに様々なデータソースの最新情
    報を取得&シングルアクセスも実現

    View full-size slide

  27. - 27 -
    - 27 -
    まとめ

    View full-size slide

  28. - 28 -
    - 28 -
    (再掲)本⽇の⽬的・内容・対象者
    n ⽬的
    • 思ったよりもAIの活⽤が進んでいない状況についてみなさんと⼀緒に考えてみる
    • 特に、データドリブン経営を推進する上での課題とソリューションについて考察を深める
    • みなさんがAIやデータ分析などの⽂脈でワークする時のチップス獲得や視野の拡⼤をする
    n 内容
    • データドリブン経営にまつわる課題
    • データ利活⽤のためのソリューション
    ü 従来︓データレイク・データウェアハウス・データマート
    ü 今後︓データファブリック
    • データファブリックの重要な5つの要素
    n 対象者
    • エンタープライズでのデータ活⽤に興味がある⽅
    • 特に、AIやデータサイエンス、データエンジニアリングなどでバリューを発揮していこうと考えている⽅
    • エンタープライズのデータアーキテクチャに興味がある⽅(⼊⾨レベル)
    • エンタープライズのデータアーキテクチャについて知⾒を得られる
    • データファブリックの概念がわかって、アーキテクチャ検討などのディスカッションについていける
    アンケート回答のご協⼒、SNSフォローなどよろしくお願いいたします︕

    View full-size slide