Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI活用やデータ分析をする前に知っておきたい!エンタープライズデータアーキテクチャ入門/ Wh...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Takahiro Esaki
July 07, 2022
Technology
1.7k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AI活用やデータ分析をする前に知っておきたい!エンタープライズデータアーキテクチャ入門/ What You Need to Know Before Using AI and Analyzing Data! Introduction to Enterprise Data Architecture
次のイベントの投影資料です。
https://studyco.connpass.com/event/251782/
Takahiro Esaki
July 07, 2022
More Decks by Takahiro Esaki
See All by Takahiro Esaki
AIの最新技術&テーマをつまんで紹介&フリートークするシリーズ #1 量子機械学習の入門
tkhresk
0
260
ITエンジニアのためのコーポレートファイナンス入門シリーズ! #5 「現在価値」を理解する
tkhresk
1
68
ITエンジニアのためのコーポレートファイナンス入門シリーズ! #4 財務分析の基本〜おかわり〜
tkhresk
3
480
ITエンジニアのためのコーポレートファイナンス入門シリーズ! #3 財務分析の基本
tkhresk
2
530
FinOps_Demo
tkhresk
0
230
ITエンジニアのためのコーポレートファイナンス入門シリーズ! #2 最低限の会計基礎
tkhresk
3
170
ITエンジニアのためのコーポレートファイナンス入門シリーズ!#全体像理解
tkhresk
3
710
クラウドネイティブ時代を乗り越えるためのオブザーバビリティ(可観測性)ことはじめ_CloudNative-Observability
tkhresk
0
260
OpenLLMetry-Hands-On 生成AIアプリを観測してみよう!OpenLLMetryハンズオン編
tkhresk
2
460
Other Decks in Technology
See All in Technology
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
2k
protovalidate-es を導入してみた
bengo4com
0
180
SONiC Scale-Up Working Group から探る Scale-UpやUltraEthernet機能の実装方法
ebiken
PRO
2
250
AIエージェントが名古屋の猛暑からあなたを守る
happysamurai294
0
110
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
950
新しいVibe Codingと”自走”について
watany
6
310
FinOps × AIエージェントで実現する コストインシデントの自動調査
oasis1994liveforever
0
130
LayerXにおけるセキュリティ管理の現在地と次の一手
tosho
0
130
エラーバジェットのアラートのタイミングを考える.pdf
kairim0
0
140
AIの性能が向上しても未解決な組織の重大問題は何か?/An Unsolved Organizational Problem in the Age of AI
moriyuya
4
650
2026 TECHFRESH 畢業分享會 - AI-Native 重塑軟體工程與虛擬講師
line_developers_tw
PRO
0
960
中期計画、2回作ってみた ~業務委託と正社員、両方の視点から~
demaecan
1
730
Featured
See All Featured
Building an army of robots
kneath
306
46k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.3k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.4k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
390
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
380
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
250
Agile that works and the tools we love
rasmusluckow
331
21k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
940
Unsuck your backbone
ammeep
672
58k
Thoughts on Productivity
jonyablonski
76
5.2k
Making the Leap to Tech Lead
cromwellryan
135
9.9k
Transcript
- 1 - - 1 - AI活⽤やデータ分析をする前に知っておきたい︕ エンタープライズデータアーキテクチャ⼊⾨ 2022/07/07 Takahiro
Esaki
- 2 - - 2 - はじめに
- 3 - - 3 - 講師紹介 【経歴】 n東京⼤学 ⽂学部
⼼理学専修課程 卒業 • 専⾨︓⾼次認知(記憶・学習・⾏動 など) n業務/ITコンサルティング • 基幹システム運⽤保守業務改⾰ • 基幹システム刷新PMO • サプライチェーン最適化/需要予測最適化 • データ分析システム刷新PM/アーキテクチャ設計 など n新規事業開発・アジャイル開発・ローコード開発 • クラウドソーシングプラットフォームサービス • アパレルプラットフォームサービス • 海外クリエーター向けe-Learningサービス など nCSM (カスタマーサクセスマネージャー) @IBM Japan※ • AI & Cloudソリューションの活⽤促進 • コミュニティ活動・アドボケート活動 など ※本講演・本資料は IBM Japan, Ltd. を代表するものではございません 江﨑 崇浩 (Takahiro Esaki) Twitter @t_esaking LinkedIn
- 4 - - 4 - 本⽇の話のモチベーション(熱い⾃分語り) これからはAIの時代だ︕ データドリブン︕ はえー。すごいなー
n 2015年。新卒1年⽬の若かりし頃
- 5 - - 5 - 本⽇の話のモチベーション(熱い⾃分語り) n テクノロジーの進化は激しく・・・ 2016
2017 2018 2019 2020 2021 ARスマホゲー のポケモンGO リリース がっきーが デーベースタス ペシャリストと 結婚(逃げ恥) がっきーが 本当に結婚︕ FBがメタバー ス事業に巨額投 資&社名変更 BERTの公開 (Google) Amazon Echo リリース 「AlphaGo」 が囲碁世界チャ ンピオンに勝利 商⽤量⼦コン ピュータ IBM Q System One開発 国産スパコン 「富岳」が2期 連続で世界1位 Apple M1チッ プ搭載の新Mac 発売 世界初の5G サービス ディープフェイ クの流⾏
- 6 - - 6 - 本⽇の話のモチベーション(熱い⾃分語り) AIを始めとした技術の進化はすごい︕ シンギュラリティはすぐそこだ︕︕ そう思っていた時期が、私にもありました・・・
- 7 - - 7 - 本⽇の話のモチベーション(熱い⾃分語り) n 2022年。ジャスサー(Just 30)になった今
これからはAIの時代だ︕ データドリブン︕ ん︖ ͋ΕɺࢥͬͨΑΓ"*ͷ׆༻ͬͯਐΜͰ͍ͳ͍ɾɾɾʁ
- 8 - - 8 - 本⽇の⽬的・内容・対象者 n ⽬的 •
思ったよりもAIの活⽤が進んでいない状況についてみなさんと⼀緒に考えてみる • 特に、データドリブン経営を推進する上での課題とソリューションについて考察を深める • みなさんがAIやデータ分析などの⽂脈でワークする時のチップス獲得や視野の拡⼤をする n 内容 • データドリブン経営にまつわる課題 • データ利活⽤のためのソリューション ü 従来︓データレイク・データウェアハウス・データマート ü 今後︓データファブリック • データファブリックの重要な5つの要素 n 対象者 • エンタープライズでのデータ活⽤に興味がある⽅ • 特に、AIやデータサイエンス、データエンジニアリングなどでバリューを発揮していこうと考えている⽅ • エンタープライズのデータアーキテクチャに興味がある⽅(⼊⾨レベル) • エンタープライズのデータアーキテクチャについて知⾒を得られる • データファブリックの概念がわかって、アーキテクチャ検討などのディスカッションについていける
- 9 - - 9 - データドリブン経営にまつわる課題
- 10 - - 10 - データドリブン経営とは データドリブン経営 「データ」と「アルゴリズム」に基づいた客観性の⾼い意思決定をする経営 データ
アルゴリズム 経験 勘 出典︓Gartner 2020 CIO Survey Top 10 “Game-Changing” Technologies AIとData Analytics が1,2位を占める AIとデータ活⽤は企業にとって最優先取り組み課題
- 11 - - 11 - データドリブン経営を推進するためのデータ活⽤の課題 データ活⽤の改善は トッププライオリティと発⾔ データドリブン経営のために
プラットフォーム整備を計画 出典︓Forrester 15% データから価値を 導き出せている企業の割合 出典︓Forrester 90% 71% このギャップは何なのだろうか︖
- 12 - - 12 - 数字で⾒るデータ活⽤の課題 n 「データの所在がわからない」、「データが正確でないため使えない」、「加⼯の処理に時間がかかる」 ため、データを活⽤するまでの作業時間の80%をデータ準備に費やしている
データ準備 Prepare 構築 Build 分析モデルを 構築 実⾏ Run 業務に適⽤ 管理 Manage 実際にデータを活⽤する チームが注⽬する箇所 数カ⽉ – 数四半期 検出、理解、取り込み、統合 品質の評価、データクレンジング データ・オペレーション 作業時間の 80% が費やされる箇所 ビジネスへの影響が 発⽣する箇所
- 13 - - 13 - 数字で⾒るデータ活⽤の課題 エンタープライズで 管理されるデータの 増加率
6 倍 74% のデータが分析 されていない 60% のビッグデー タ・ プロジェクトは 失敗に終わる 82% がデータ・サイ ロによって阻害 されて いる 89% がリソースを 消耗している データの加速的な増⼤と複雑性がデータ活⽤の⼤きな阻害要因となってる • クラウド・アプリケーションが増加するにつれ、 データは広範なデジタル・エコシステムへと分散さ れるようになっている • データの移動および⼀元化の取り組みは⼿作業に頼 りすぎており、時間とコストがかかるうえに効果も 限定的 • データが急増し、データのライフスパンが短くなっ ていることで、問題は悪化する⼀⽅ 出典︓Forrester
- 14 - - 14 - データ利活⽤のためのソリューション
- 15 - - 15 - 従来のソリューション︓データレイク/ウェアハウス/マート ビジネス・ アプリケーション POS
IoT 開発 営業 財務 ・・・ データレイク データウェアハウス データソース データ活⽤ データマート σʔλϨΠΫ σʔλΣΞϋε σʔλϚʔτ • ಛఆͷੳత͕ͳͯ͘ར༻͢ΔՄೳੑ ͷ͋ΔϩʔσʔλΛ֨ೲ • ίετͷετϨʔδΛ४උ͠ɺੳχʔ ζ͕ൃੜͨ͠߹ɺߴʹΞΫηεͰ͖Δ Α͏ʹ͢Δ • ඇߏԽσʔλؚΉॊೈੑ • .BJO6TFSɿσʔλαΠΤϯςΟετ • ಛఆͷੳతͷͨΊͷॲཧࡁΈσʔλΛ ֨ೲ • ੳͷͨΊʹߴͳΫΤϦॲཧ͕Ͱ͖ΔΑ ͏ʹ͢Δ • ݕࡧʹಛԽ͢ΔͨΊɺجຊతʹߏԽ σʔλ • .BJO6TFSɿϏδωεΞφϦετ • σʔλΣΞϋεΑΓߋʹಛԽͨ͠ ੳతΛ࣋ͭϢʔβʔάϧʔϓͷͨΊͷ σʔλΛ֨ೲ • σʔλΣΞϋεʹൺΔͱখنͰɺ ߏஙϦʔυλΠϜ͕খ͍͞ • Ұํɺཚཱ͢Δͱӡ༻ίετ૿େσʔλ ͷαΠϩԽΛՃͤ͞ΔཁҼʹ n データを物理的に集約して、データアクセスを容易にしようとしていた
- 16 - - 16 - (Tips)サイロとサイロ化について !サイロとは︖ • 牧草・穀物・化学原料などを貯蔵
したり発酵処理するための倉庫 • 並んでいるように⾒えるが、中⾝ が混ざらないように、内部はつな がっておらず、それぞれ独⽴して 中⾝を取り出す構造になっている !ビジネスで使われるサイロ化 • システムや業務プロセスなどが、 他のアプリケーションや他事業部 ⾨との連携を持たずに⾃⼰完結し て孤⽴してしまう状態のこと 各サイロはつながって いるように⾒えるが、 完全に独⽴している
- 17 - - 17 - 課題のピックアップ︓データのサイロ化 物理的にデータを集約しようとするだけでは、データのサイロ化を解決できなかった !データのサイロ化とは︖ •
分析対象となる「データ」が「サイ ロ」のように孤⽴・独⽴してしまっ ており、すぐにアクセスするのが困 難になってる状態 !背景 • データソースの拡⼤ • データ活⽤ニーズの多様化 • 各部⾨の個別最適なシステムの構築 • 企業/部⾨の統廃合 • ハイブリッドクラウド化 など 複雑化するデータアーキテクチャ ビジネス・ アプリケーション カスタム・ アプリケーション POS ユーザーの⾏動 IoT デバイス 顧客中⼼サービ ス 運⽤のアジリティー 包括的な品質 管理 継続的な改善 クリティカルな サービスの サポート データソース データ活⽤
- 18 - - 18 - 今後のソリューション︓データファブリック データファブリック ビジネス・ アプリケーション
カスタム・ アプリケーション POS ユーザーの⾏動 IoT デバイス 顧客中⼼サービ ス 運⽤のアジリティー 包括的な品質 管理 継続的な改善 クリティカルな サービスの サポート データソース データ活⽤ 「ファブリック」のイメージ︓ 伸縮性・柔軟性のある繊維構造。 データのIn/Outが増減しても、伸び縮みして対応できる !データファブリックとは︖ • 分散したデータの課題に対処するため の新しいコンセプト/アーキテクチャ !重要な5つの要素 1. データ仮想化※ 2. ビジネス⽤語の管理 3. データ品質管理 4. データガバナンスの実現 5. セルフアクセスの実現 データ仮想化基盤 ビジネス⽤語 の管理 データガバナンス の実現 データ品質管理 セルフアクセスの実現 ※データレイク・データウェアハウスを必ず しも否定するわけではない ⼤量データ取得にあたっての低レイテンシー 実現、定常的なワークロードの存在、ユーザ が分析するために形式変換が必要な場合は、 データウェアハウスなどを活⽤する⽅が適し ているケースも
- 19 - - 19 - (参考)データファブリックへの注⽬ 出典︓https://www.imagazine.co.jp/gartner-strategic-technology2022/
- 20 - - 20 - データファブリックの重要な5つの要素(ざっくりご紹介)
- 21 - - 21 - 1. データ仮想化 n データ仮想化とは
• 物理的にデータを集約せずに、⾼速なクエリ(照会・演算処理など)を通して情報を取得(含︓キャッシュ最適化) • 様々なデータソースに対する接続アダプターを準備し、シングルアクセスを実現 • 接続情報などのメタデータのみを保持しつつ、リアルタイムで最新のデータを取得 n データ仮想化のメリット • 物理的にデータを集約していないにも関わらず、直感的な操作で最新の情報をリアルタイムに取得できる • シングルアクセス︓データソース/データ活⽤側が増えても、仮想化基盤との認証情報追加で済む n シングルアクセスのイメージ データ 仮想化 基盤 データソース データ活⽤ データソース データ活⽤ ▼ばらばらのアクセス ▼シングルアクセス
- 22 - - 22 - 2. ビジネス⽤語の管理 n ビジネス⽤語の管理が必要な理由
• 企業には複雑で膨⼤なビジネス⽤語が存在。内容によっては、理解できる⼈にたどり着くだけでも⼤変 • テーブルカラムのスキマー名や物理名だけでは意味が分からない。設計書情報も正しいか分からない • 部署や利⽤シーンによっても意味が変わることがある。同⾳異義語や異⾳同義語も存在 (特にM&Aなど発⽣すると) ツールだけでなく継続的にビジネス⽤語を整備するプロセス/体制が⼤事(データスチュワード) 企業のビジネス⽤語を様々なメタデータを使って⼤系的に整理し、誰でも理解できる仕組みが必要 ビジネス⽤語の検索 ※イメージ例 (IBM Cloud Pak® for Data ) ビジネス⽤語の 関連性の把握
- 23 - - 23 - 3. データ品質管理 n データ品質が必要な理由
• 実際のデータ値はどうなっているのか、そのままデータ分析できるかを確認しなければいけない • 例︓最⼤値/最⼩値、平均値、頻度、外れ値、⽋損値、データ来歴 など 値の出現頻度 最⼩値・最⼤値な どの統計情報 ※イメージ例 (IBM Cloud Pak® for Data ) 統計情報などのメタデータを簡単に確認し、外れ値や⽋損地に対してもフォローできる仕組みが必要
- 24 - - 24 - 4. データガバナンスの実現 n データガバナンスが必要な理由
• 企業は部⾨/役割、ロケーションなどによって利⽤ポリシーやルールをコントロールしなければいけない • アクセス可否の決定、データマスキングなど。特に、個⼈情報のアクセスに対するアテンションは⾮常に⾼い • 物理的なテーブル、スキーマ、カラム単位でポリシーやルールは管理しきれない ルールの設定 プロファイル ⾮表⽰ マスク処理 ※イメージ例 (IBM Cloud Pak® for Data ) ビジネス⽤語やカテゴリなどのメタデータを活⽤しながら容易にガバナンス運⽤できる仕組みが必要
- 25 - - 25 - 5. セルフアクセス n セルフアクセスが必要な理由
• あらゆるデータにアクセスでき、内容が分かるようになっても、誰かに依頼してデータ提供してもらっていては遅い • データ確認のコミュニケーションだけでオーバーヘッドがかかるし、⼼理的抵抗も⼤きい ※イメージ例 (IBM Cloud Pak® for Data ) メタデータを集積してカタログとして公開し、データ分析者が⾃分から⽬的データを探せるようにする
- 26 - - 26 - データファブリックの5つの要素のまとめ n データファブリックは、従来のデータサイロ化のような問題を解決するために注⽬されているアーキテク チャ/コンセプト
データファブリック ビジネス・ アプリケーション カスタム・ アプリケーション POS ユーザーの⾏動 IoT デバイス 顧客中⼼サービス 運⽤のアジリティー 包括的な品質 管理 継続的な改善 クリティカルな サービスの サポート データソース データ活⽤ データ仮想化基盤 ビジネス⽤語 の管理 データガバナンス の実現 データ品質管理 セルフアクセスの実現 メタデータを集積してカタログとして公開し、 データ分析者が⾃分から⽬的データを探せるよう にする メタデータを活⽤し、 定性的にデータ理解/ 活⽤を促進する メタデータを活⽤し、 定量的にデータ理解/ 活⽤を促進する メタデータを活⽤し、 利⽤ポリシー/ルール などを管理する 物理的に集約せずに様々なデータソースの最新情 報を取得&シングルアクセスも実現
- 27 - - 27 - まとめ
- 28 - - 28 - (再掲)本⽇の⽬的・内容・対象者 n ⽬的 •
思ったよりもAIの活⽤が進んでいない状況についてみなさんと⼀緒に考えてみる • 特に、データドリブン経営を推進する上での課題とソリューションについて考察を深める • みなさんがAIやデータ分析などの⽂脈でワークする時のチップス獲得や視野の拡⼤をする n 内容 • データドリブン経営にまつわる課題 • データ利活⽤のためのソリューション ü 従来︓データレイク・データウェアハウス・データマート ü 今後︓データファブリック • データファブリックの重要な5つの要素 n 対象者 • エンタープライズでのデータ活⽤に興味がある⽅ • 特に、AIやデータサイエンス、データエンジニアリングなどでバリューを発揮していこうと考えている⽅ • エンタープライズのデータアーキテクチャに興味がある⽅(⼊⾨レベル) • エンタープライズのデータアーキテクチャについて知⾒を得られる • データファブリックの概念がわかって、アーキテクチャ検討などのディスカッションについていける アンケート回答のご協⼒、SNSフォローなどよろしくお願いいたします︕