Data Engineering Guide 2025 #data_summit_findy by @Kazaneya_PR / 20251106

Slide 1

Slide 1 text

Data Engineering Guide 2025 2025-11-06 Data Engineering Summit 特別講演 Opening ＆ Keynote 株式会社風音屋横山翔（Sho Yokoyama） @yuzutas0

Slide 2

Slide 2 text

っで、でCMで。

Slide 3

Slide 3 text

No content

Slide 4

Slide 4 text

No content

Slide 5

Slide 5 text

No content

Slide 6

Slide 6 text

No content

Slide 7

Slide 7 text

データエンジニア・データコンサルタント採用中 Speakerdeck公開版

Slide 8

Slide 8 text

1. はめに

Slide 9

Slide 9 text

注意事項 1. 本資料は許諾範囲内でのみ利用い。無断転載ならびに複写を禁ま。 2. 本資料に記載れている会社名・製品名などは、一般に各社の登録商標まは商標、商品名で。資料内では ©, ®, ™ マーク等は省略ていいてりま。 3. 本資料は特定企業の情報公開や称賛・批判を意図るものではありまん。社名提示れていないケーススタディやシステム構成は、原則的に複数企業の事例を踏まえダミー情報となりま。 4. 説明を簡略化るめに、用語やツールの紹介は厳密な定義に則っていない場合ありま。自身や所属チームでの理解・解釈紹介内容と異なる場合は、適宜読み替えていると幸いで。 9

Slide 10

Slide 10 text

本講演の概要近年では生成AIやデータ活用注目れてり、いっうデータ整備の重要性高まっていま。で本発表ではデータエンジニアリング分野の全体感を振り返りつつ、各テクノロジーの進化や普及を踏まえて、実践的なアクションに向道筋を紹介ま。 https://data-engineering-summit.ﬁndy-tools.io/2025?m=2025/tt/YzmXmIaR 10

Slide 11

Slide 11 text

データ基盤人材への注目（需要）平均年収の高い職種は…(中略)… 「Data Warehouse Architect」で 15万4800ドル（1702万8000円） IT業界で平均年収の高い職種はソフトウェアエンジニアリングマネージャ、データウェアハウスアーキテクト、ソフトウェア開発マネージャなど。米Glassdoor https://www.publickey1.jp/blog/18/itglassdoor.html 11

Slide 12

Slide 12 text

データ基盤人材への注目（供給） http://b.hatena.ne.jp/entry/yuzutas0.hatenablog.com/entry/2018/10/25/183000 12

Slide 13

Slide 13 text

生成AIの活用効果「期待以上」となる要因の2位は日米ともに「データ品質」 13 PwCコンサルティング「生成AIに関る実態調査2024 春米国との比較」 https://www.pwc.com/jp/ja/knowledge/thoughtleadership/generative-ai-survey2024-us-comparison.html

Slide 14

Slide 14 text

ニーズの高まりにより、データマネジメント国家資格へ 14 https://www.nikkei.com/article/DGXZQOUA219D40R20C25A5000000/ https://xtech.nikkei.com/atcl/nxt/column/18/00001/10716/

Slide 15

Slide 15 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 15 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 16

Slide 16 text

2. 自己紹介

Slide 17

Slide 17 text

登壇者（カジュアル版）ゆ（@yuzutas0）リクルートやメルカリでデータ活用を推進後、AWSを経て、風音屋（ねや）を創業。独立行政法人情報処理推進機構（IPA）にて情報処理技術者試験委員を兼任。データ基盤やダッシュボードの構築について積極的に情報発信てり、主な著書・訳書に『実践的データ基盤への処方箋』『データマネジメント 30分でわる本』『アジャイルデータモデリング』ある。 1,800人参加るSlackコミュニティ datatech-jp、延べ参加者15,640人の勉強会 Data Engineering Study の立上に関わるなど、日本のデータエンジニアリング業界の発展をリードて。 17 Now Writing…

Slide 18

Slide 18 text

登壇者（詳細版）横山翔（@yuzutas0） ● リクルートやメルカリにてデータ活用を推進後、AWSを経て独立、株式会社風音屋を創業 ● 広告配信の最適化、店舗営業のインセンティブ改善など、データ分析によって数億円規模のインパクトを創出 ● 独立行政法人情報処理推進機構（IPA）にて情報処理技術者試験委員を兼任（2025〜） ● 東京大学経済学研究科金融教育研究センター特任研究員を兼任（2023〜2025）主な登壇・発表 ● Pythonのカンファレンス「PyCon JP 2017」にてベストトークアワード優秀賞 ● 翔泳社主催「Developers Summit 2018 Summer」にてベストスピーカー賞 ● Google主催「Google Cloud Day」（‘21, ‘23）,「Google Cloud Next Tokyo」（‘23, ‘25） ● 日本統計学会第16回春季集会主な執筆・翻訳・出版 ● 講談社サイエンティフィク『アジャイルデータモデリング』 ● 技術評論社『実践的データ基盤への処方箋』 ● 技術評論社『Software Design 2020年7月号 - ログ分析特集』『同 2025年7月号 - SQL特集』 ● 風音屋『データマネジメント 30分でわる本』 ● 内閣府「経済分析第208号 - 景気動向分析の新な潮流」主なコミュニティ活動 ● Google 認定る技術エキスパート「Google Cloud Champion Innovator / Google Developer Experts」に選出（2023〜） ● 1,800人以上参加るSlackコミュニティ「datatech-jp」の立上・運営 ● 延べ参加者15,640人以上の勉強会「Data Engineering Study」の立上・モデレーター（2020〜2025） ● 国内最大規模の技術カンファレンス「Developers Summit」コンテンツ委員会（2022〜2026） 18

Slide 19

Slide 19 text

リクルートやメルカリのSlackで貼られていクソコラ 19

Slide 20

Slide 20 text

日本にデータ基盤の3分類を広め人「データレイク層」「データウェアハウス層」「データマート層」 20 ※ の三層構造は Bill Inmon 氏のCIFと青木峰郎氏『10年戦えるデータ分析入門』で提唱概念を参考にていま。

Slide 21

Slide 21 text

日本にるDataOpsの第一人者 21

Slide 22

Slide 22 text

（ぶん）日本で最も読まれているデータマネジメント本の著者 22

Slide 23

Slide 23 text

日経産業新聞いわ「引手あまの逸材」 23

Slide 24

Slide 24 text

あまりに存在感大て、Google社 2人分の席を用意るを得なっ男 24

Slide 25

Slide 25 text

SNS / @yuzutas0 フォローよろねいま！ 25

Slide 26

Slide 26 text

大手らスタートアップまで幅広いクライアント企業のデータ活用を支援るITコンサルティング企業。 100社のデータ経営を実現、諸産業の活性化に貢献るとをミッションとて掲ていま。データエンジニア技術相談やノウハウ共有あう副業ギルドとて始まり、日本全国ら多数の相談・要望を受て法人化。ステークホルダーの皆様に協力いなら、会社組織とてアジャイルに成長てま。スタートアップCEO らの推薦コメント風音屋（ねや） 26 支援先（一部抜粋）　　　　 ● ランサーズ株式会社 ● エイベックス株式会社 ● 株式会社クラシコム ● 株式会社商船三井 ● 株式会社ビズリーチ ● NE株式会社 ● 株式会社リクルート ● 福岡地所株式会社 ● 住友化学株式会社

Slide 27

Slide 27 text

データエンジニアを募集中！ 27

Slide 28

Slide 28 text

データエンジニアリングの書籍読み放題で！風音屋オフィス（Library） 28

Slide 29

Slide 29 text

風音屋提供るサービス 29 データ基盤構築データ分析

Slide 30

Slide 30 text

「Excelで学ぶデータマネジメント入門」研修＆風音屋データマネジメント検定 30 【研修実績】 ● 全社研修：500名の社員にデータマネジメントの全体像と勘所をインプット ● 新入社員研修：ゼミのレポートを題材とて、データ管理の Do’s & Don’ts を学習 ● IT部門研修：データ基盤の実践的なシステム構成例、開発・運用プロセスまで踏み込んで紹介【ポイント①】Excelファイルに例えならデータマネジメントの作法を解説 ● 「Excelファイルで◯◯を工夫るのと同ように、本格的なITシステムでは〜」フォーマットで説明 ● 業務部門とIT部門スムーズに連携でるように知識の橋渡を行う【ポイント②】理解度チェックテスト（風音屋データマネジメント検定）を活用柔軟な研修デザイン ● 講義の前と後にテスト → 研修による学習効果を計測・評価 ● 分割講義で都度テスト → 講義内容の理解をサポート ● 満点獲得まで繰り返 → 講義内容の理解を徹底強制、セキュリティテストと同位置付に ● 講義の後に単発テスト → 組織アセスメントや人事評価、配属検討に利用可能

Slide 31

Slide 31 text

採用文脈でオンライン講座を提供 31

Slide 32

Slide 32 text

累計260ページ・18万文字の超豪華な研修教材を読み、データ基盤構築のハンズオンを行いま。データ基盤構築のインプット＆ハンズオン 32

Slide 33

Slide 33 text

データエンジニアへの転職は無理なの！？ 33

Slide 34

Slide 34 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 34 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 35

Slide 35 text

3. データ活用の事例

Slide 36

Slide 36 text

横山や風音屋過去に発信事例 ● テーブル数50程度の小規模WEBサービスで、ダッシュボードを含むデータ基盤を2時間で構築。 ● 6人日ってい「売上の変動箇所の特定」を10分に短縮、ビジネスの変化を迅速に察知。ビジネスにるデータ活用の事例（1/6） 36

Slide 37

Slide 37 text

横山や風音屋過去に発信事例 ● 集客（マーケ）→営業（セールス）→CS（サクセス）を横断データ基盤を構築るとで個別最適化ら全体最適化に切り替えて利益を最大化、いわゆるRevOpsを実現。2020年の記事。ビジネスにるデータ活用の事例（2/6） 37 https://yuzutas0.hatenablog.com/entry/2020/12/02/173000

Slide 38

Slide 38 text

横山や風音屋過去に紹介事例 ● ビジョン達成の計測。「の事業 ◯人の生活を支えている」を上場企業の社長室モニターに投影。 ● 各指標のモニタリング。売上、会員数、販売数、コンテンツ閲覧数、広告費、顧客対応時間など。 ● 投資家向報告書やプレスリリースのめのファクトブック。集計データを再現可能な形で管理る。 ● M&A（買収）にるシナジー効果の推定・測定。ビジネスにるデータ活用の事例（3/6）株式会社風音屋（監訳）『アジャイルデータモデリング』より「株式会社クラシコム」「ランサーズ株式会社」の事例 38

Slide 39

Slide 39 text

横山や風音屋過去に紹介事例 ● 顧客セグメントや商品ジャンル別の傾向分析。ロイヤル顧客の特徴やリピート商品を特定る。 ● キャンペーン施策の効果測定。の後のリピートに繋っ、需要の先食いは起ていない。 ● エンタテイメント領域にるコンテンツ企画。視聴数多い曜日・時間帯ら分析。 ● 工場にる製造プロセス改善や機械の故障検知。ビジネスにるデータ活用の事例（4/6）株式会社風音屋（監訳）『アジャイルデータモデリング』より「住友化学株式会社」の事例 39

Slide 40

Slide 40 text

横山や風音屋過去に紹介事例 ● 顧客データベース管理によって、部署横断での連携や引継を2日→10分に短縮。 ● 異常検知：SNSの”バズり”を検知て関連コンテンツを即日提供。過剰アクセスや迷惑投稿のBAN。 ● デジタル広告によるROAS（売上÷広告費）を最大化るめの入札の最適化。 ● 物件や船舶などの資産（アセット）の売り買いによるポートフォリオ最適化。ビジネスにるデータ活用の事例（5/6）株式会社風音屋（監訳）『アジャイルデータモデリング』より「エイベックス株式会社」「株式会社商船三井」の事例 40

Slide 41

Slide 41 text

横山や風音屋過去に紹介事例 ● レコメンド：類似商品の推薦、クリック率を最大化る表示順、マッチング期待値高い人材の紹介。 ● 経路探索：自動車ドライバーや月面探査機のルート最適化。 ● 動産（アート）や不動産（物件）など交渉で価格決まる「1点モノ」のプライシング（値付）。 ● 従量課金やレベニューシェア、ダイナミックプライシングによる、取引単価の最大化。ビジネスにるデータ活用の事例（6/6）事業のグロースを支えるDataOpsの現場　https://speakerdeck.com/yuzutas0/20180727 41

Slide 42

Slide 42 text

横山や風音屋過去に紹介事例 ● 民間企業のリアルなデータを用いて、社会課題に関る学術調査を実施。 ● クレジットカードの決済データらCOVID-19の自粛効果を分析。 ○ 顧客-店舗の2部グラフで「高田馬場」「若い男性」「低予算」「居酒屋」などの特徴を抽出。非営利活動：研究論文・学術調査 https://kazaneya.com/news | https://note.com/kazaneya 42

Slide 43

Slide 43 text

横山や風音屋過去に紹介事例 ● 生物や森林などの環境資源を計測、データにもとづいて政策提言や環境保護活動を行う。 ● ジンベイザメに識別タグを付て、リアルタイムで追跡。 ● 「スター・ウォーズ」「インディー・ジョーンズ」のハリソン・フォード氏 CIの副理事。非営利活動：EBPM（エビデンスに基づ政策立案） Whale Shark Tracker - Conservation International　https://www.conservation.org/projects/whale-shark-tracker 43

Slide 44

Slide 44 text

横山や風音屋過去に紹介事例 ● （広義の）古文書の撮影画像を集約、AIで解読、資料の中身を検索可能な形でデータベース化。 ● 資料間の関連や矛盾をナレッジグラフに変換て、AIで歴史空間にマッピングる。 ● 「資料A 正い場合」「仮説B 正い場合」の歴史年表や家系図をAIで生成、妥当性を評価。 ○ 例：特定資料群正いと仮定、天照大御神ら横山翔まで無理やり結びつる。非営利活動：古文書データ基盤『富岡村誌』「神奈川県立歴史博物館ホームページ」『千福横山家文書』『裾野市史』 44

Slide 45

Slide 45 text

● 読書データ基盤（本2,000冊分の読書ノート＆図解メモをAIで解読てデータベース化） ● 婚活データ基盤（縦軸で採用候補者、横軸で工程を管理て、ファネル改善のサイクルを回） ● 家計簿データ基盤（10年ほどコツコツと月次でFinOps、AIで半自動化でない検討中） ● 確定申告の半自動化（2020年：6週間る→2025年：2日で完了！） ● 株式投資にる銘柄選定の半自動化（2024年に人生初のテンバガー達成！） ● 家庭菜園データ基盤（定点記録・写真をデータベース化、次は農場経営の話寄られてり…？）私生活にるデータ活用の事例 45

Slide 46

Slide 46 text

構造化データ ● 行（横）と列（縦）のテーブル（表）で表現でるデータ。 ● 従来のデータベース前提とている形式であり、最も安定てデータを管理・利用でる。非構造化データ ● 表形式で表ないデータ。画像、動画、音声、PDFなど。 ● AI技術の発展に伴い、非構造化データを扱うツール急進化ている、どれもま発展途上。 ● プログラムでのテキスト処理簡単なJSONやXMLを「半構造化データ」と区別るともある。補足：構造化データと非構造化データ 46 id 決済日付決済利用者加盟店金額 100 2022-03-01 Aさんいろは商店 900円 101 2022-03-02 Bさんいろは商店 700円 102 2022-03-03 Cさんにほへ屋 1,100円 103 2022-03-04 Dさんにほへ屋 800円レコード (行) カラム (列)

Slide 47

Slide 47 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 47 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 48

Slide 48 text

4. データ基盤の意義

Slide 49

Slide 49 text

企業で起ている課題データ活用やDX（デジタルトランスフォーメーション）、生成AIといっ分野注目れている実際にプロジェクトを進めるとデータ整備の課題次々と浮上る。用途を実現でるほどデータ品質高ない具体的にどのようにデータを連携るの分らない必要なデータ入力れていない 49

Slide 50

Slide 50 text

データ整備は活用の前工程データ整備 OK データ活用ビジネス価値 OK OK データ整備データ活用ビジネス価値 NG NG 50

Slide 51

Slide 51 text

データの質・量不十分日本国内686社の調査で、データ活用の課題2位とて「質・量を備えデータの取得」挙られている。 NEDO（2019）「産業分野にる人工知能及びの内の機械学習の活用状況及び人工知能技術の安全性に関る調査」ならびに https://ainow.ai/2020/07/05/224999/ 51

Slide 52

Slide 52 text

データのサイロ化（分断）アジア太平洋よび欧州中近東の企業調査にて、テクノロジー部門の上級意思決定者670人中73% 、データのサイロ化によって「必要とるデータを提供でていない」「目標を達成でていない」と回答。 Oracle Corporation (2020) “Moving the Needle: Data Management for the Multi-Hybrid Age of IT” ならびに https://prtimes.jp/main/html/rd/p/000000003.000057729.html 52

Slide 53

Slide 53 text

SSoTの担保 ● SSoT（Single Source of Trust ＝信頼でる単一の情報源）の担保鍵となる。 ● データ分析者「を見れば必要なデータ揃う」と信頼でる「寄る辺」必要とれている。 https://techcrunch.com/2017/06/23/five-building-blocks-of-a-data-driven-culture/ ならびに https://jp.techcrunch.com/2017/06/25/20170623five-building-blocks-of-a-data-driven-culture/ ※閉鎖済事実の単一情報源を持っている場合には、アナリストや他の意思決定者といっエンドユーザーに、優れ価値を提供るとでる。彼らは組織内でデータを探時間少なて済むようになり、データの利用により多の時間を割とでるようになるら。 When you have a single source of truth,you provide superior value to the end user: the analysts and other decision makers. They’ll spend less time hunting for data across the organization and more time using it. Additionally, the data sources are more likely to be organized, documented and joined. Thus, by providing a richer context about the entities of interest, the users are better positioned to leverage the data and find actionable insights. 53

Slide 54

Slide 54 text

社内外のデータを一ヶ所に集約る ● 事前にデータを一元管理てば、分析者都度データを取り寄る必要ななる。 ● 以下は登壇者メルカリ社で構築データ基盤の構成図を一部抜粋もの。 ○ 営業管理ツール、問い合わ対応の記録、人事マスタといっデータをBigQueryに集約。 ○ BigQueryはデータウェアハウス（DWH）と呼ばれる分析用データベース製品の1つ。後述。 54 Salesforce：加盟店営業社内外のデータ DWH kintone：加盟店管理 Zendesk：顧客サポート JIRA：チケット管理 Workday：人事マスタ BigQuery

Slide 55

Slide 55 text

一連の処理をパイプラインとて管理る ● データの統合や加工を実現るめのテクノロジー存在る。 ● れらのテクノロジーを組み合わてシステムを構築る。詳細は後述。 55 データ取得元C データ取得元B データ収集プログラム（ETL）データウェアハウス（分析環境）元データ加工データデータ加工・変換（ELT）ワークフロー（処理の流れを横断管理）データ取得元A https://learn.microsoft.com/en-us/azure/data-factory/iterative-development-debugging

Slide 56

Slide 56 text

SSoTの画面イメージ ● 画面上で組み合わを指定て、欲いデータを集計でている状態。 ● 以下は『アジャイルデータモデリング』に掲載れているクラシコム様の事例。2022年上場。 56 株式会社風音屋（監訳）『アジャイルデータモデリング』よりクラシコム社の事例

Slide 57

Slide 57 text

● ステークホルダー全員共通のキューブ（立方体）を多様な軸でスライス（切断）でる状態。 ● 売上高◯◯円という事実（Fact）を3つの次元（Dimension）で分解る。 SSoTの概念イメージ 57 株式会社風音屋（監訳）『アジャイルデータモデリング』より（網掛は本資料での追記）の期間での売上 2億円の製品での売上 5,000万円の店舗での売上 800万円売上累計 30億円

Slide 58

Slide 58 text

れまでの観点と違う新い観点でデータを見る「営業組織別のExcelシート」ではな「切り口を柔軟に変更でる基盤」 58 繊維工業卸小売飲食業宿泊業チームA 京都府 80 40 60 60 チームB 大阪府 60 60 80 80 チームC 兵庫県 20 80 80 60 チームD 滋賀県 40 20 20 20 市場環境の変化れまでと違う観点でのデータ分析社内外のデータ根拠のある意思決定変化に適応失敗を検知マーケット変化への適応「れまでは営業組織に合わてエリア別で数字を見てい」「新型コロナの影響あるはなので業種別で数字を見い」「飲食業など店頭サービス業での利用は減少」「れらの店舗に対て何支援を提供でない」「逆にの状況で伸びている業種はあるのろう」「れまでと違っ利用の急な増加に備えるべ」

Slide 59

Slide 59 text

集計対象（Fact：出来事>指標>計算方法）の洗い出モデル化図（例：業務フロー図）らビジネスイベントを洗い出ビジネスイベントら指標を洗い出指標ら計算方法を洗い出（※BIツールに任るケースもある） 59 来店注文発送返品注文件数人数商品数金額注文件数総計 1人あり 1商品あり YoY増加率

Slide 60

Slide 60 text

【分て】5W1Hで分析の切り口を定める【比べる】分析軸による差異を比較る ● 「都心の店舗」は「郊外の店舗」より（客数多い｜少ない） ● 「今年」は「去年」より（注文総額多い｜少ない） ● 「バッグ」は「衣類」より（平均単価高い｜低い） ● 「高単価の商品」は「低単価の商品」より（レビュー評価高い｜低い） ● 「リピーター」は「新規顧客」より（1度の注文点数多い｜少ない）分析軸（5W1H）の洗い出、分析軸での比較検討 60 今月 When 切り口（dim） Who 新規顧客今月 When 切り口（dim） Where 渋谷店 What バッグ Where 店舗（≠EC） Who 誰 What 何を When いつ Where どで Why な How どのように

Slide 61

Slide 61 text

データ活用の流れ（カフェのビジネス） ◯◯ んカフェラテを注文 (消費) リラックス (効用) 統合注文履歴会員登録データ基盤・購買データ・顧客データ生成新商品の開発リピーター割引券活用価値 ☕ 61 サービス提供に伴い、データ生成れる。のデータを統合、活用るとで、らなるサービス提供を実現でるようになる。データにまつわる（青い背景の）箇所データエンジニアリングの対象領域。

Slide 62

Slide 62 text

データ活用の流れ（一般化）製品・商品プロダクト顧客・消費者ユーザー統合業務データ、行動ログデータ基盤生成開発、施策、業務活用価値 62 サービス提供に伴い、データ生成れる。のデータを統合、活用るとで、らなるサービス提供を実現でるようになる。データにまつわる（青い背景の）箇所データエンジニアリングの対象領域。

Slide 63

Slide 63 text

複数のデータソース（入力／資源）と複数のユースケース（出力／活用）をリボンのように繋装置。データ基盤とは何（概要） 63 データ活用基盤

Slide 64

Slide 64 text

複数のデータソース（入力／資源）と複数のユースケース（出力／活用）をリボンのように繋装置。データ基盤とは何（詳細） 64

Slide 65

Slide 65 text

データ基盤を構成る要素「データ」や「システム」ではな「ヒト」まで含めて「一連の仕組み」（基盤）と言える。 65 ゆ（共著）『実践的データ基盤への処方箋』より

Slide 66

Slide 66 text

なデータ基盤必要（BI）人間の意思決定を加速、PDCAサイクルを回め。 66 顧客価値担当業務（オペレーション）の目標設定（ToBe）→現状把握（AsIs）→課題特定（Problem）→施策立案（Solution）例：販売目標を達成でている？採用目標を達成でている？クレーム件数は減らている？業務横断（オペレーション）での目標設定（ToBe）→現状把握（AsIs）→課題特定（Problem）→施策立案（Solution）例：キャンペーンや商談は継続利用に繋っている？押売りで後工程のトラブルを招いていない？事業（ビジネス）視点での目標設定（ToBe）→現状把握（AsIs）→課題特定（Problem）→施策立案（Solution）例：会員や商材のストックは増えている？顧客ニーズのトレンドは変わっていない？資源（リソース）視点での目標設定（ToBe）→現状把握（AsIs）→課題特定（Problem）→施策立案（Solution）例：対象領域の（予算｜人員）を（増や｜減ら）て（組織変更｜新規事業化｜買収｜売却｜撤退）る？ソフトウェア開発デザイン販促マーケカスタマーサポート法務経理・財務広報セールス在庫管理配送店舗接客セキュリティ人事・労務製造管理事業開発 IR 商談販売促進受注・契約初回利用継続利用

Slide 67

Slide 67 text

なデータ基盤必要（AI）機械の自動判断を加速、業務の効率化よび顧客体験の変革を進めるめ。 67 Before After 注文書作成オペレーションビジネス在庫発注タスク店頭スタッフ販売 Gemini 自動作成ワークフロー型のAIエージェントで自動発注無人店舗（AIスタッフ販売）人間の脳内社内外のデータ

Slide 68

Slide 68 text

どういっ手順で作る ● 「データソース」と「ユースケース」の絵を描、両者を繋るめの流れを描。 ● Return（どのような恩恵を得られる）とInvestment（どのような開発を行う）を明確にてステークホルダーに提示、ROIの高い順番でシステム開発やダッシュボード構築を進める。 ● キーワードや製品ありで「◯◯◯を導入まょう！」ら始めるのはアンチパターン。 68 例：ヘラルボニーにるデータ基盤の初期構築。設計・実装は風音屋担当。

Slide 69

Slide 69 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 69 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 70

Slide 70 text

5. システム構成要素

Slide 71

Slide 71 text

のパート以降で話内容 ● データテクノロジーにる主要な構成要素を紹介ま。 ● スライド資料「Google Cloud で学ぶデータエンジニアリング入門 2025年版」らの抜粋で。 ● 風音屋ではAWSやSnowﬂakeの案件も多数扱っていま、「無料のgmailメールアドレスえあれば個人でも気軽に試る」「DWHやBIツールの無料枠で体験でる幅圧倒的に広い」という理由らカンファレンス参加者の自己学習やNextActionに繋やいGoogle Cloudを題材とま。 71

Slide 72

Slide 72 text

データ基盤を支える代表的なテクノロジーと構成例は以下のようになる。主な技術要素（概要版） 72 元データA 元データB DWH 蓄積・集計 BI 分析・可視化ワークフローエンジン処理の流れを管理 ETL 収集・連携データカタログ仕様の入力・検索

Slide 73

Slide 73 text

主な技術要素（詳細版） 73 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 74

Slide 74 text

主な技術要素（詳細版） 74 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 75

Slide 75 text

BI（Business Intelligence）ツール ● グラフ可視化やダッシュボード構築に特化ツール。「分析ツール」とて分りやい。 ● Googleアカウントあれば Looker Studio をWEBブラウザで利用でる。基本料金は無料。 ● 日本で有名な利用事例とては、クリスプ・サラダワークスん Looker StudioでKPIを全公開。 ○ デジタル庁 PowerBIで作っ政策ダッシュボードも有名。 ● https://lookerstudio.google.com/gallery ● https://metrics.crisp.co.jp/ 75

Slide 76

Slide 76 text

BIツールの選定例 76 観点選択肢の例エンタープライズ用途で予算を確保ている (多はオンプレ・クラウド両対応) Tableau, Looker, Qlik, ThoughtSpot, DOMO, Microsoft Power BI (PRO/Premium) Redash, Metabase, Kibana, Grafana, lightdash 無料で使いい (無料の場合) 自社構築必要構築不要 Microsoft Power BI (Free), Looker Studio (Free) 使い慣れツールで済まい（BI専用ツールを使わに分析や可視化を行う） Microsoft Excel, Google Sheets

Slide 77

Slide 77 text

BIツール：適切なツールは部署や役割とに異なる ● 自分にとってのベスト≠他人にとってのベスト ● 過去に某案件でヒアリングとは部署によって回答異なってい 77 マーケターデータアナリスト WEBプロデューサー (≒プロダクトマネージャー) ソフトウェア開発者 (機械学習を含む) Excel Tableau Redash Jupyter Notebook 気軽に数字を変えてシミュレーション高価格・高機能分析要求に対応 SQL 書るひと手軽利用 Gitでコード管理プログラムの恩恵

Slide 78

Slide 78 text

主な技術要素（詳細版） 78 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 79

Slide 79 text

DWH（データウェアハウス）製品 ● 大規模データの保存や集計に適データベース。データエンジニアリングの中核となる存在。 ● Googleアカウントあれば、BigQuery WEBブラウザで利用でる。月1TBまでの集計無料。 ● SQLと呼ばれるデータベース言語を使ってデータの抽出・集計を行う。 ○ 例えば「SELECT name FROM customers WHERE prefecture = “東京都”」と「氏名を取得よ」「顧客テーブルら」「東京都で絞り込んで」という指示になる。 79 SQLを書くデータを見る実行する

Slide 80

Slide 80 text

DWH製品の選定例 80 観点選択肢の例処理規模〜◯◯PB 〜◯◯TB クラウドベンダー Snowﬂake, Databricks, Google BigQuery, Amazon Redshift, Amazon Athena, Azure Synapse Analytics, Treasure Data オンプレ構築可能 Teradata, Vertica OSS Hadoop, ClickHouse 〜数百GB *not DWH RDBMSを分析用に構築（MySQL, PostgreSQL） ELKスタック（Elasticsearch + Logstash + Kibana）ファイルストレージで完結（Iceberg + Spark）〜数十MB　*not DWH ExcelやGoogle Sheetsなどの表計算ソフト DuckDBやSQLiteなどの軽量DB KintoneやSalesforceなどのSaaSをDB代わりに使う

Slide 81

Slide 81 text

主な技術要素（詳細版） 81 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 82

Slide 82 text

クラウドストレージ ● 安全・安価なファイルの置場。 ● Google Cloudを使う場合は、GCS（Google Cloud Storage）該当る。 ○ Googleドライブ人間用のファイル置場なら、GCSはシステム処理用のファイル置場。 ● データエンジニアリングの分野と以下の用途で使われると多い。 ○ ①バックアップの置場。DWHの更新ミスあっとに備えて、ストレージにバックアップを保存、データを復旧でるようにてと望まい。 ○ ②データの中継地点。DWHは事前に定義仕様（列名や型）と異なるデータを追加るとエラーになる。ストレージにデータあれば、外部システムらデータを再連携に済む。 82 風音屋のMENTA講座の資料より

Slide 83

Slide 83 text

主な技術要素（詳細版） 83 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 84

Slide 84 text

プログラム実行環境 ● Pythonなどのプログラムで「外部らのデータ取得」や「外部へのデータ連携」を実現るには、プログラムを実行るめのインフラ環境（＝サーバ）必要になる。 ○ 個人 PC端末（＝ローカルサーバ）でGoogle Chrome（＝プログラム）を起動り、スマートフォン（＝ローカルサーバ）でYouTubeアプリ（＝プログラム）を動のと同。 ● Google Cloudを使う場合、Cloud Run functionsというソリューション、特に軽量つ安価で、使い勝手良いのでオススメ。 ○ PythonのソースコードをGCSに置、Cloud Schedulerで定期スケジュールを設定ると、 Cloud Run functionsで処理を実行でる。風音屋のMENTA講座の資料より 84

Slide 85

Slide 85 text

補足：ETL（Extract / Transform / Load）ツールデータの抽出・変換・格納を行うツール ● 例：設定ファイルとプラグインで様々なデータベース間のデータ転送を実現でるEmbulk ● 転送元（Source）ら転送先（Target）へのマッピングを定義てフォーマットの差異を吸収る in: type: mysql host: HOST_NAME user: USER_NAME password: PASSWORD database: DATABASE_NAME table: purchase select: id, user_id, title, contents, created_at, updated_at out: type: bigquery auth_method: json_key json_keyfile: *****.json path_prefix: /tmp file_ext: .csv.gz source_format: CSV project: BQ_PROJECT dataset: postapp__datalake__mysql auto_create_table: true schema_file: article.json formatter: {type: csv, charset: UTF-8, delimiter: ',', header_line: false} Out (target) In (source) 85

Slide 86

Slide 86 text

用語解説：ETL、ELT、ReverseETL ①狭義のETL（処理／ツール）：外部らDWH製品へデータを連携・統合。　外部らデータをE（抽出）→DWH製品読み取れる形式にT（変換）→DWH製品にL（格納）る。 ②ELT（処理／ツール）：DWH製品の中でデータを加工。　DWHにL（格納）れデータをT（変換）るので①のE→T→Lと対比る意図でE→L→Tと呼ぶ。 ③ReverseETL（処理／ツール）：DWH製品ら他システムへデータを連携・転送。　他システムらデータを取り込む①の逆（Reverse）なのでReverseETLと呼ぶ。 ④広義のETL（処理／ツール）：上記3つを含ん一般的なデータの加工・転送の総称。　元は④想定で数々のETLツール誕生、多のPJで①に関心偏り、①の機能強化優先れ。　の後、②や③のニーズ顕在化とで、専用ツール登場、①に対て②③を名乗る。データソース DWH製品社内システムや外部ツール元データのコピー加工済みデータ Reverse ETL処理 Reverse ETLツール ELT処理 ELTツール広義のETL処理広義のETLツール狭義のETL処理狭義のETLツール ① ② ③ ④ 86

Slide 87

Slide 87 text

ETLツールの選定例 87 観点選択肢の例定期バッチ (1分毎実行可能を含む) (いわゆるEAIを含む) オンプレ構築可能コード Embulk 画面 HULFT, DataSpider, Alteryx, CDataSync, ASTERIA WARP, Talend, Airbyte クラウドベンダーコード AWS Glue, Databricks Job 画面 HULFT SQUARE, Informatica, Boomi, Fivetran, Stitch, TROCCO, Reckoner, Azure Data Factory ストリーミング (メッセージキュー含む) クラウドベンダー Amazon Kinesis, AWS SNS + SQS + Lambda, Cloud Pub/Sub, Azure Stream Analytics オンプレ構築可能 Fluentd, Apache Kafka, Logstash, Apache Storm 両対応クラウドベンダー Cloud Dataﬂow オンプレ構築可能（分散処理FW） Apache Spark, Apache beam

Slide 88

Slide 88 text

主な技術要素（詳細版） 88 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 89

Slide 89 text

SQL管理ワークフロー / ELTツール ● SQLでのデータ変換・集計処理について、依存関係をパイプライン管理るツール。 ● BigQueryを使う場合は、付随機能とて Dataform というツールを無料で使うとでる。 ● 以下のような複数のSQLを段階的に実行でる。 1. POSレジのデータと通販DBのデータを統合る 2. 顧客一覧を作成る 3. 顧客との年間売上を集計る 4. 年間売上を元に顧客ランクを付与る 5. メルマガ配信リストを作成る。 89 風音屋のMENTA講座の資料より

Slide 90

Slide 90 text

ワークフローエンジン ● 一連の処理の流れを管理るツール。 ● Google Cloudを使う場合は、Cloud Workﬂowsというソリューション汎用的で使いやい。 ● 複数のシステムを横断て、以下のような一連の処理を管理・実行でる。 1. Cloud Run functionsでPythonプログラムを実行てデータをBigQueryに反映る。 2. DataformでBigQueryのデータを加工・集計、メルマガ配信リストを作成る。 3. Cloud Run functionsでPythonプログラムを実行てメルマガ配信ツールにリストを送る。風音屋のMENTA講座の資料より 90

Slide 91

Slide 91 text

ワークフローエンジンの選定例 91 観点選択肢の例コード管理 Apache Airﬂow（AWS、GCP、Azure等でマネージドサービスを提供）, Argo, Prefect, Dagstar, Luigi, Digdag, Azkaban GUI管理 Jenkins (最近はコード管理機能も追加), Rundeck SQLベースの変換管理 ※ELTツール拡張ればワークフローになる dbt（OSS版／SaaS版）, Dataform の他の汎用的なジョブスケジューラ make, cron, JP1(有料), AWS Step Functions, Cloud Workﬂow, ETLツール（例：TROCCO）やBIツール（例：Looker）ワークフロー機能を提供る例も増えて。

Slide 92

Slide 92 text

主な技術要素（詳細版） 92 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 93

Slide 93 text

データカタログ ● 社内データを検索り、データの特徴や注意点を調べるとでるツール。 ○ 例えば、「user」で検索るとユーザーに関連る社内データを見つられる。 ○ データの最終更新日や他にどのような項目含まれているといっ情報も確認でる。 ● Google Cloudを使う場合は、Dataplex Universal Catalog というソリューション該当る。 ● 「個人情報を含む」といっタグ付（PIIタギング）を行い、特定の部署以外アクセスると、該当データの中身をマスキングるといっ設定も可能（現時点では旧Catalogのみ対応）。 93 風音屋のMENTA講座の資料より

Slide 94

Slide 94 text

データカタログ（OSSの例） ● Open Metadata や dbt docs などのOSSで機能強化活発 ● ワークフローエンジンの実行ログを自動で取り込むといっ機能を有ているケースもある 94 https://open-metadata.org/ Open Metadata で記載内容の承認 https://docs.getdbt.com/docs/collaborate/documentation dbt docs でテーブルや列の説明を表示

Slide 95

Slide 95 text

データカタログの選定例 95 観点選択肢の例ベンダー日本語に対応 Informatica Data Catalog, HULFT DataCatalog, Quollio Data Catalog, Insight Catalog, COMETA 主に英語で表示 Atlan, Metaphor, Microsoft Purview, Cloud Dataplex（Data Catalog） OSS （SaaS版も提供あり） OpenMetadata, DataHub, dbt docs 使い慣れツールで済まい（専用ツールよりも手軽に社内普及る） SharePoint等での社内ポータルサイト、 Conﬂuence等での社内Wiki

Slide 96

Slide 96 text

主な技術要素（詳細版） 96 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 97

Slide 97 text

● 「誰」「どのデータに」（どのシステムに）アクセスでるの、を管理るめの機能。 ● Google Cloud と、Cloud IAM（Identity and Access Management）該当る。 ● Google Driveのフォルダ権限管理と同で、Google Groups（メーリングリスト機能）のグループに対て、データ参照の権限を付与るとでる。 ○ 入退社や部署異動の手続でGoogle Groupsを使っている場合は、同要領で管理でる。 IAM（アクセス管理） 97 A ん@kazaneya.com B ん@kazaneya.com C ん@kazaneya.com D部署@kazaneya.com E案件@kazaneya.com F職種@kazaneya.com E案件の受領データ D部署管理るデータ研修用のデータデータ利用者 Google Groups BigQueryのデータ IAM 編集権限閲覧権限編集権限

Slide 98

Slide 98 text

監査ログ ● データへのアクセス記録を残、後ら監査を行うとでるログ。 ● Google Cloud と、主に Cloud Logging というログ出力ソリューションを用いる。 ○ クラウドサービスの標準機能であり、利用者他の候補を検討るといっ類のものではない。 ● あらゆるログ出力れるので、調査のノイズを減らり、保存コストを節約るめに、「特定データへのアクセス」といっ条件で絞り込んで、保存ストレージを指定るともでる。 98

Slide 99

Slide 99 text

主な技術要素（詳細版） 99 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 100

Slide 100 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 100 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 101

Slide 101 text

6. データ収集

Slide 102

Slide 102 text

主な技術要素（詳細版） 102 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 103

Slide 103 text

Python等のプログラムを実行て、SaaS（例：Kintone、Shopify、Moneyforward、Salesforce）、広告媒体（例：Meta広告）、メールやLINEの配信ツール（例：Klaviyo、CRM Plus on LINE）、アプリデータ（例：Apple Store）、自社Webサービス等提供るWeb API らデータを取得る。データ基盤システム（Google Cloud）コンソール利用時 Web API によるデータ取得 103 SaaS等のWebシステムデータベース Web画面（ユーザー用） Web API （システム連携用）取得プログラム例：Python Cloud Run functions ファイル例：CSV, JSON GCS BigQuery Webブラウザインターネット人間 HTTP リクエスト外部テーブル保存 HTTP リクエスト PC端末表示提供アクセス 💡SalesforceやServiceNowなど、一部のSaaSは BigQuery Data Transfer Serviceのプレビュー版登場ので、ゆゆは置換えられるも？

Slide 104

Slide 104 text

クラウドサービス（例：AWS）のエクスポート機能でストレージ（例：S3）を経由てデータを渡、まはDatastreamでDBの更新ログを取得てGCS経由でBigQueryに連携る。な、Datastream らBigQueryに直接出力ると履歴消えるので、強いリアルタイム要望なれば（＝10分間隔のマイクロバッチで要件を満るなら）GCSを経由ると望まい。データ基盤システム（Google Cloud）業務DB らのデータ取得（例：AWS→BigQuery） 104 Data stream ファイル GCS BigQuery Webシステム（例：AWS）データベース例：Amazon RDS 更新ログ WEBアプリケーションデータ更新保存外部テーブル取得 ⚠セキュリティ要件によってはアクセスNGの場合もあるよ！ 💡差分エクスポートなどでファイルの数や容量を減らう！ストレージ例：Amazon S3 エクスポート Storage Transfer Service 取得ファイル GCS 外部テーブル保存 AWS Fargate等ユーザーインターネットや VPN等 HTTP リクエストプライベート接続、 VPCピアリング、VPN等 💡MySQLやPostgreSQL、Oracle等、一部のRDBMSは、BigQuery Data Transfer Serviceのプレビュー版登場ので、N/Wアクセス許可れるのであれば、ゆゆは置換えられるも？

Slide 105

Slide 105 text

アクセスログやアプリケーションログと呼ばれるWebシステムのログは、 ● Google Cloud内ならCloud Logging らGCS経由でBigQueryに連携る。 ● Google Cloud外（例：AWS）ならエクスポート機能でストレージ（例：S3）を経由て受渡。データ基盤システム（Google Cloud）サーバログらのデータ取得 105 ファイル GCS BigQuery Webシステム（Google Cloud） Cloud Logging WEBアプリケーションユーザー HTTP リクエストログ出力保存外部テーブルファイル GCS Webシステム（例：AWS）ログサービス例：Cloud Watch Logs WEBアプリケーションユーザー HTTP リクエストログ出力ファイル GCS エクスポート Cloud Run等 AWS Fargate等 💡ECS + Fargateの構成なら FireLens→S3に直接連携も！ 💡ファイルの数や容量多い場合は Lambda等で事前に加工・削減！ Storage Transfer Service 取得外部テーブルエクスポートインターネットや VPN等プライベート接続、 VPCピアリング、VPN等

Slide 106

Slide 106 text

● 政府統計や各社オープンデータはBigQuery Sharing機能で提供事業者らデータ取得可能。 ● WEBコンテンツは、Python等のプログラム + Geminiでスクレイピングを行い、BigQueryに連携。データ基盤システム（Google Cloud）各提供者各省庁等オープンデータによるデータ取得 106 WEB公開コンテンツ提供事業者A 政府統計収集・加工システム BigQuery 提供事業者B 各社データベース BigQuery BigQuery BigQuery Sharing BigQuery Sharing インターネット取得プログラム例：Python Cloud Run functions ファイル例：CSV, JSON GCS 保存外部テーブル HTTPリクエストスクレイピング（Google検索） Gemini 取得更新更新連携 HTTPリクエストスクレイピング（ページ指定） 💡Webサービスの画面レイアウト変更時は、エラーログとHTML文字列をもとに GitHub Issueを自動起票てコーディングAIにパース処理を修正てもらう！

Slide 107

Slide 107 text

● 各ツールら文章、画像、動画、PDFファイルなどの非構造化データを集約る。 ● システム管理る場合はGCSに置、必要に応てBigQueryにデータをロードる。 ● 人間管理る場合はGoogle Driveに置、必要に応てGCSを経由てBigQueryにロードる。 ● BigQueryのObject Table機能でGCSの非構造化データを参照、バイナリ形式で機械学習に利用。データ基盤システム（Google Cloud）社内フォルダ等のデータ取得（ストレージに集約る場合） 107 インターネット Google Workspace BigQuery ユーザー HTTP リクエストファイルをアップロード各ファイル Google Drive 取得プログラム例：Python Cloud Run functions 各ファイル GCS 保存 WebAPIコールやスクレイピング各ツール外部テーブル HTTPリクエスト Web API コール HTTP リクエスト

Slide 108

Slide 108 text

● 各ツールら文章、画像、動画、PDFファイルなどの非構造化データを連携る。 ● Gemini Enterpriseに直接データを連携、BigQueryに集約構造化データと組み合わる。 ● データ分析のレポートやSQLを自動生成り、カレンダーやメールの作成可能。 ● 例：キャンペーン企画や契約書を連携 ⇒ 売上の変動要因を解釈 ⇒ 重点顧客にアポ依頼のメール。社内フォルダ等のデータ取得（Gemini Enterpriseで直接利用る場合） 108 Microsoft Teams Microsoft Outlook Microsoft OneDrive SharePoint Slack Box Gmail Google Drive Conﬂuence JIRA GitHub Salesforce Google Group Google Calendar 文章 | 画像 | 動画 | PDF 非構造化データ HubSpot Zendesk Service Now Workday etc… Trello BigQuery 構造化データデータ基盤システム（Google Cloud） Gemini Enterprise Vertex AI Agent Engine Python + ADK Assistants Gemini Google Workspace Google Calendar Gmail 人間連携連携利用利用スケジュール設定やメールの送信分析レポートや SQLの作成 Web画面でチャット指示 ⚠Gemini Enterprise等のAI Agent系サービスはEarly AccessやPreview相当のもの多い。機能強化は今後に期待。 ⚠Claude Desktop等を使い、各サービスをMCP経由で参照て分析レポートを作る方法もあり。

Slide 109

Slide 109 text

データの仮想化について ● データ本体を持に「外部テーブル」や「federated query」で別のシステムにアクセスつつ、利用者にはデータにあるのように振る舞うとを「データの仮想化」と呼ぶ。 ● データの仮想化ありで整えシステム構成を「レイクハウスアーキテクチャ」と呼ぶ。ネイティブテーブルへの変換 ● 上記機能と、接続設定容易な一方で、データアクセスの挙動安定ないとある。 ○ 例：Google Sheetsへのアクセスエラーになる。再実行ると問題なデータを取得でる。 ● 頻繁に参照れるデータは、BigQueryに実体をコピーる（ネイティブテーブルを作る）とで、エラーに煩われに済む。 ● Dataformで “SELECT * FROM 仮想化テーブル WHERE 対象日” を実行、別テーブルに保存る。他システムデータ基盤システム（Google Cloud） BigQuery 補足：仮想化テーブルの一部はネイティブテーブルへと変換 109 仮想化テーブルネイティブテーブル Dataform 取得保存元データ本体都度参照取得経路と解釈 rawデータと解釈

Slide 110

Slide 110 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 110 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 111

Slide 111 text

7. データ加工

Slide 112

Slide 112 text

主な技術要素（詳細版） 112 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 113

Slide 113 text

データ加工の概要 Excelシートで経理データを集計・活用るとには、以下のような工夫を行う。 ● データ更新れて、シート上書れてまわないように、履歴（スナップショット）を残 ● Excel関数で処理でるようにフォーマットを調整（前処理）る ● 1つのセルに含まれるExcel関数膨大・複雑になっら、途中集計のセルを分る ● 汎用的な会員リストを作ってら、複数のシートでのリストを参照、フィルタリングを行うのような「データの加工」の流れを設計て、SQLで実現てい。 113

Slide 114

Slide 114 text

風音屋式の簡易DFD（データフロー図）でデータ加工処理を設計る 114 最終的な活用イメージ（モックアップ）とテーブル紐づとろまで確認る加工前のデータ出口まで繋るとを確認る結合条件や加工結果を明記る →1つ1つ SQLのCTEやDataformのファイルになる最終形となるテーブルの具体例を書、ステークホルダーと擦り合わる参考：BEAM✲テーブルテスト観点を明記る → Dataformのテストコードに反映る 1.『Software Design 2025年7月号』特集「データ分析のめのSQL講座」 2. データ分析で用いるSQLクエリの設計方法 - 風音屋TechBlog 　 https://techblog.kazaneya.com/20241208-design-of-analytical-sql-queries/ インプットアウトプットプロセス（途中処理）

Slide 115

Slide 115 text

BigQuery CanvasでSQLを書、簡易DFDを再現るクエリの実行結果をプレビュー表示て、の結果に対て次のクエリを実行ると可能。簡易DFDの設計をベースにてSQLを実装＆テストてい。 115 風音屋のMENTA講座の資料より

Slide 116

Slide 116 text

作成 SQLをDataformに移植る Dataformのデータ集計機能 ● 集計処理の定期実行、エラー時のリトライ ● バリデーション（NotNullやUnique）や自動テスト ● データの依存関係の管理 116 Git/GitHubでのコード管理 ● Gitでのバージョン管理 ● GitHubでのCI管理（Linterなど） ● AIエージェントによる開発の半自動化風音屋のMENTA講座の資料より

Slide 117

Slide 117 text

データの取得（左）ら活用（右）に向って層（レイヤー）とに役割＆名前を分る。 ● 元データのコピー（ローデータ）を格納る「raw__xxx」テーブル ● 顧客属性や商品カテゴリといっ分析の切り口は「dim__xxx」テーブル ● 商品購入の金額・数量といっ集計対象は「fact__xxx」テーブル ● dimとfactを結合て、簡単にデータを使えるように「wide_xxx」テーブル責務に応てレイヤーを分、命名規則で管理る 117 株式会社風音屋（監訳）『アジャイルデータモデリング』より

Slide 118

Slide 118 text

構造化データにるレイヤリングの過去議論 118 “ゆ ”の3層構造（概要） Bill Inmon “CIF” 画像は『データマネジメント知識体系ガイド』より Kimball “DW Chess Pieces” 画像は『データマネジメント知識体系ガイド』より青木峰郎 “SQL中心アーキテクチャ” 画像は『10年戦えるデータ分析システム』より Databricks “Medallion Architecture” https://www.databricks.com/jp/glossary/medallion-architecture dbt labs “dbt best practice” https://docs.getdbt.com/best-practices/how-we-structure/1-guide-overview

Slide 119

Slide 119 text

風音屋のデータモデリング標準 / “ゆ ”の3層構造（詳細）データの「入口」「中間」「出口」で、重視べステークホルダーや担うべ役割異なるという思想。世に出ている様々なテーブル設計のテクニックを、れれに適箇所で使うように位置付ている。 119 raw 元データのコピーデータソースユースケース前処理提供形式調整用途別I/F ディメンショナルモデル主にデータ保有者データ品質を担保る（データレイク層）主にデータ利用者データ品質を担保る（データマート層）主にデータ整備者データ品質を担保る（データウェアハウス層） snapshot 変更履歴の保持 adapter 標準化やクレンジング hub 名寄・統合 bridge fact/dimの生成ロジック dim 分析の切り口（5W1H） fact 集計対象出来事＞指標 dim 分析の切り口（5W1H） dim 分析の切り口（5W1H） dim 分析の切り口（5W1H） wide factとdimの組み合わ summary 粒度を集約 metric 主要・共通の指標を管理 bi BIツールにデータ提供 team 各チームにデータ提供 sys 各システムにデータ提供 z 各ユーザーにデータ提供 raw 元データのコピーデータソース raw 元データのコピーデータソース raw 元データのコピーデータソースユースケースユースケースユースケース

Slide 120

Slide 120 text

補足：イベントマトリクスファクトとディメンションの組み合わを表形式（イベントマトリクス）とて書出。データチームの定例ミーティングで表を更新り、データ整備やデータ分析のTODOリストに反映る。 ● 縦軸：ファクトとなる「出来事」（ビジネスイベント） ● 横軸：ディメンションとなる「切り口」（5W1H） 120 株式会社風音屋（監訳）『アジャイルデータモデリング』より引用

Slide 121

Slide 121 text

非構造化データ ⇔ 構造化データの変換生成AIによる「非構造化データ」ら「構造化データ」への変換（以下は例） ● 商品名のテキスト → 商品カテゴリーの分類 → カテゴリー別の売上集計可能になる ● 自動車撮影路面写真 → リスク要因のラベリング → 走行データと合わて事故予測の精度向上 ● 代理店との会議メモやメール → キャンペーンの情報を抽出 → MMMに組み込んで広告効果推定の改善生成AIによる「構造化データ」ら「非構造化データ」への変換（以下は例） ● 法人顧客の行動データ → 営業担当向に追加提案メールのドラフトを生成 ● 商品の在庫や注文のデータ → 今日推べ商品で「んな人買ってま」訴求文面を生成 ● 企業の募集要項と求職者の履歴書 → 条件ミスマッチを緩和るめの修正提案メッセージを作成 121 風音屋TechTalk #4 発表資料より

Slide 122

Slide 122 text

非構造化データ in データパイプラインパイプラインに組み込むどうで2つのアプローチ考えられる。 1. データパイプラインに組み込む場合。BigQuery ML GeminiでSQL らGeminiを実行る。 2. 従来のパイプラインに組み込ま、Gemini Enterpriseに各データを集約てAI側で完結る。 122 非構造化データデータパイプライン構造化データ非構造化データ ①生成AIで前処理 ②生成AIで出力作成

Slide 123

Slide 123 text

非構造化データの3層構造 Garbage In, Garbage Out（ゴミを入れらゴミ出てる） ● 社内文書や動画ファイルはボリューム多い割に、品質低っり、ノイズ情報も混る。 ● 生成AI 一度に記録・利用でるデータ量には上限ある。 ● ルンバ（掃除ロボット）を動めに、床の物を片付るのと同。事前に整える。構造化データと同ようにデータの整理必要 ● 元のファイル（入口）→整理情報（中間）→用途に必要な情報（出口）を整備る。 ● “ゆ ”の3層構造の「データレイク層」「データウェアハウス層」「データマート層」に該当。の領域は生成AIの台頭に伴って急進化始まっフェーズ ● 現時点でれというリファレンスアーキテクチャ定まっていない。 ● データの持方も定まっていない。テキストを書直もの、文書ベクトル、グラフ構造 etc…？ ● 対応るソリューションも違う。BigQuery、Vertex AI Feature Store、Spanner Graph etc…？ ○ グラフDBの構築はToo MuchなのでGIS機能と似位置付のBigQuery Graph 欲い。 123 ソース水源レイク湖 = 蓄積るウェアハウス倉庫 = 管理るマート市場 = 売るユーザー利用者

Slide 124

Slide 124 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 124 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 125

Slide 125 text

8. データ提供

Slide 126

Slide 126 text

主な技術要素（詳細版） 126 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 127

Slide 127 text

Google Sheets（Googleスプレッドシート）でのデータ抽出・集計シートでの柔軟なデータ分析 ● N1分析：BigQuery らデータを抽出て、顧客や商品、取引など1件1件のデータを確認る。 ○ Connected Sheet機能でBigQueryのWideテーブルやSummaryテーブルに接続る。 ● ピボット集計：カテゴリ別ｘ月次の注文総額といっ簡易的な集計ならピボットシートで完結。 ● アドホック分析：顧客や商品のセグメント分類、ファネルｘコホートで離脱ポイント特定など。 ● モニタリング：主要指標を計測シートにまとめて、日次＜週次＜月次で計測でるようにる。 ○ 取締役会や投資家向 Google Slidesにシートを貼り付て1クリックでデータを更新。利用者本人シートを編集る世界観（セルフサーブ型） ● 素早、柔軟に、欲いデータ手に入る。 ○ 10分で30点のアウトプット。れで十分なケースも。 ○ 試行錯誤を通て「筋の良い計測」に辿り着。 ● データ分析職に依頼るストレスら解放れる。 ○ 「要件を決めてい」ばっ言ってる。プロの提案欲いのに。 ○ なん期待のと違うものでる。ビジネス理解浅ない？ ○ ぶっゃ依頼者自分でやっほう早い。ダラダラやるの勘弁て。 127 https://cloud.google.com/bigquery/docs/connected-sheets

Slide 128

Slide 128 text

Looker Studio（旧Googleデータポータル、Google Data Studio）でのモニタリングダッシュボードを直感的に作成 ● Google Sheetsの集計ら「ダッシュボードで定点観測べ指標」を特定、反映る。 ● BigQueryのBI連携テーブルに接続て、LookerStudioでグラフとにフィルタリングを行う。 ● ソースコード管理はで、開発AIエージェントとの相性は悪いので注意。 128 https://codelabs.developers.google.com/codelabs/community-connectors#0 https://cloud.google.com/billing/docs/how-to/visualize-data

Slide 129

Slide 129 text

生成AIによるアドホック分析ジュニア分析者より正確で、シニア分析者より早い＆安いアウトプット ● GeminiチャットやNotebookLMによるデータ分析レポートの作成。 ● Claude Desktop等のサードパーティツールらBigQueryを参照る事例も散見れる。 MCP経由で加工済みテーブルにアクセス ● 本資料作成時点で主流なのはBigQueryのMCPを経由てデータを参照る方法。 ● 将来的にはGeminiやNotebookLM、Looker Studio Pro（対話エージェント機能）を社内提供るアプローチ Google Cloudユーザーの主流になりうる。ま高水準とは言えない今後に期待。 ● BigQueryでFact＆Dimension（まはれらを結合 Wide or Summary）テーブルに接続る。 129

Slide 130

Slide 130 text

チャットツールへの自動配信毎朝の始業時間に、前日の経営状況をSlackで通知 ● 実現方法とては以下いれ簡単。 ○ Cloud Run functionsでPythonスクリプトを実行る。 ○ Google App Script（GAS）でGoogle Sheetsの内容を送信る。GASのソースコードは、 clasp / GitHubでソースコードを管理るとメンテナンスや挙動安定る。 ● BigQuery側で計測対象となるデータを整備る。 ○ BigQuery側でビジネス指標を固定る（日次で締める）めのmetricテーブルを用意る。 ○ BigQuery ML による異常検知（Anomaly Detection）にて、急激な数値の変動あれば、レポート対象とて含めるように設定る。 130 https://speakerdeck.com/yuzutas0/20211210?slide=27 https://cloud.google.com/blog/products/data-analytics/bigquery-ml-unsupervised-anomaly-detection

Slide 131

Slide 131 text

CRMツールや広告媒体などの外部連携各ツールの機能を120%活、一度は夢見「データ活用構想」を実現 ● SalesforceやKintoneへのデータ入力。営業やCS向に法人情報や利用状況を受渡。 ● メルマガやLINE、プッシュ通知など、顧客へのパーソナライズ or セグメンテーション配信。 ● Google広告やInstagram広告などのリターゲティング配信。外部システムへの連携処理をステップバイステップで構築 ● まはExcelでのリスト作成を自動化。担当者 BigQueryコンソール画面らリストをCSV形式でダウンロード後、対象システムのコンソール画面に手動アップロード。 ● の後に連携作業を自動化。Cloud Run functionsでPythonスクリプトを実行、対象システムの WebAPIへと受渡。Reverse ETLと呼ばれる仕組み。連携先システムのアップロード項目に合わデータで作成 ● 各チーム BigQueryのteamテーブル（ビュー）でSQLを書いて試行錯誤。 ● 要件固まっらsysテーブルに移管、品質チェックの対象とる。 131 https://www.salesforce.com/jp/campaign/lightning/

Slide 132

Slide 132 text

NotebookやFeature Storeによるデータサイエンス BigQuery Notebook（Jupyter Notebook / Google Colab Enterprise相当）での統計解析 ● 四則演算ベースの集計はSQLで済ま、ノートブックでは定量的な予測や解釈を行う。 ● 例：値上の影響、購買促進のハブとなるコンテンツの特定、自然成長や季節変動や景気連動や需要の先食いを除去マーケティングキャンペーン効果の推定。 BigQuery内のデータで機械学習を行い、Vertex AI Feature Store 経由でプロダクトに組み込み ● プロダクト内にる商品、コンテンツ、物件、人材のレコメンド機能など。 ● Notebookでアドホック分析後、機械学習のモデルやパイプラインに組み込む。 ※必要に応てBigQueryの（加工前）rawテーブルや（前処理済み）adapterテーブルを参照る。 132

Slide 133

Slide 133 text

Gemini Enterprise等のAIエージェントによる業務効率化・自動化業務フローを整理て、作業・判断を「システムで完結る」「AI 担う」ように置換えてい ● AIエージェントの設計プロセスについては後述。 ● システム構成はGemini Enterpriseのデータ連携スライドを参照。他システムでも似構成となる。 ● 本資料作成時とGemini Enterpriseはま理想とギャップある。 ○ Google Workspaceとネイティブ連携でる強みら、将来的な進化に期待い。 ○ 直近はDifyやn8nのほう期待像に近い。コード管理もほい。Opal 主流になる。例：法人顧客の離反検知とフォローアップの（半）自動化 1. BigQueryで法人顧客の利用状況を収集 2. 日次集計で離反の可能性を検知（＝事前定義セグメントに分類） 3. Googleカレンダーで営業担当者の空日程を確認 4. Gメールで対象顧客に打合わのアポイントメントを送信 5. Google Slidesで提案スライドの草案を作成 6. Google Docsで打合わ台本の叩台を生成 7. Salesforceにフォローアップ状況を入力・更新 133 https://cloud.google.com/blog/products/ai-machine-learning/bringing-ai-agents-to-enterprises-with-google-agentspace

Slide 134

Slide 134 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 134 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 135

Slide 135 text

9. メタデータ管理

Slide 136

Slide 136 text

主な技術要素（詳細版） 136 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 137

Slide 137 text

メタデータ ● データを説明るデータのとをメタデータと呼ぶ。 ● 図書館に対る図書目録のように、利用者様々な着眼点らデータを見つられるようにる。 ○ 例：「価格」（price）データの「100」「100円」なの「100ドル」なの分らない。 ● 様々な分類ある。 ○ 「データソースに紐づ情報」「データ加工に紐づ情報」「データ利用に紐づ情報」など。 ○ 「システム自動で付与る情報」「人間工数を費やて付与る情報」など。 137 『実践的データ基盤への処方箋』より

Slide 138

Slide 138 text

データ活用で必要になるメタデータ（1/4） ● テーブルの用途や作成経緯。 ● カラム名、型、制約（ユニーク、NotNull）、値の範囲などのスキーマ情報。 ● 問い合わ先。 ● 類似データとの使い分。 ● 一緒に使うと多いテーブル。 138

Slide 139

Slide 139 text

● よある質問と回答例（FAQ）。 ● 既知のエラーケース。 ○ 例：◯◯日〜◯◯日はシステムトラブルでデータ 0件になっている。 ● 機密情報に該当る。 ● データの更新頻度やタイミング。 ● データの依存関係。データ活用で必要になるメタデータ（2/4） 139

Slide 140

Slide 140 text

● 代表的なクエリ例。 ● 複雑なデータ仕様、状態遷移、ドメイン用語の解説。データ活用で必要になるメタデータ（3/4） 140

Slide 141

Slide 141 text

データ活用で必要になるメタデータ（4/4） ● データ利用状況 ○ 誰、いつ、どで、どのデータを参照・利用るの。 ○ 後述る監査ログを用いる。 ● データ生成過程（DGP：Data Generation Process） ○ データ生成れるとの業務フロー。 ○ 誰、いつ、どで、どのデータを記入・更新るの。 ○ GoogleDriveや社内Wikiにあるマニュアルを転用る。 141

Slide 142

Slide 142 text

Google Cloudにるデータカタログ機能 ● Google Cloudのコンソール画面らデータカタログ機能を利用でる。 ○ Data Catalog → Dataplex Universal Catalog とリブランディング。 ● Googleアカウントでログインて、データを探り、メタデータを入力でる。 ○ データセット（スキーマ）、テーブル、カラムれれに説明文を記載でる。 ○ 個人情報などのタグをつるともでる。 ● BigQueryの利用補助AIはデータカタログの情報を主に参照るめ、充実てと良い。 ● 集計ロジックの図解やデータ横断のルールなどは扱えないめ、社内Wikiの整備別で必要となる。 142

Slide 143

Slide 143 text

「データの説明文」には「横断のルール」と「個別の説明」ある 143 ＜例＞横断のルール固別の説明データセット（スキーマ） productA_xxxは製品Aの teamB_xxxはチームBのデータを扱う同 GA4のエクスポートデータでも、 ◯◯はサイトA、△△はサイトBを扱うテーブル raw_xxx、dim_xxx、fact_xxx、 wide_xxxの使い分 paymentsテーブルは◯◯で、 salesテーブルは△△を扱うカラム dwh_xxxはDWH側で加工データ、 _maskedはマスキング済みのデータ customer_name_maskedカラムは顧客名（マスキング済み）を扱い、退会後はNullで上書れる横断ルールの設定ファイル個別説明の設定ファイル両者を統合データ説明文データカタログの説明欄統合統合反映 ● データセット、テーブル、カラムれれに「横断のルール」と「個別の説明」ある。 ● の両方揃って初めてデータ利用者やAIはデータを正確に使えるようになる。 ● データカタログでは「横断のルール」を分て管理でないめ、全てのデータの説明文の中に、同「横断のルール」を書いてなればならない。 ● 「横断のルール」と「個別の説明」は別の設定ファイルで管理て、メタデータ統合システムで両者を統合てらデータカタログに連携る。

Slide 144

Slide 144 text

非構造化データ構造化データメタデータ管理の3層構造（1/2）メタデータも、収集（入口）→統合（中間）→提供（出口）の3層構造でパイプライン化れる。 144 RDBMSのスキーマ情報＠DDL SFDCで入力るデータ項目＠管理シート Dataform 加工る BigQueryテーブル仕様＠設定ファイル BigQuery コンソール画面のクエリ作成補助AI （Gemini）各AIチャットへのデータ分析依頼や問い合わデータ利用ガイド社内ポータル Dataplex Universal Catalog 一連のデータ仕様とクエリ生成のコツを組み込ん社内MCPサーバ一連のデータ仕様を SphinxやJekyllなどのサイトジェネレーターに反映基幹システム顧客管理システム（CRM） BigQuery 加工テーブル BigQuery 利用記録 Cloud Logging 出力る監査ログ＠監査ログ顧客対応システム Zendeskの入力手順社内マニュアル＠GoogleDocs 取得元メタデータの入口メタデータの出口利用先メタデータの中間 GitHubの専用リポジトリメタデータ管理プログラム

Slide 145

Slide 145 text

メタデータ管理の3層構造（2/2）前提：システムで自動化でるものは自動化、人間は人間に扱えない情報に専念る。 ● システムで自動生成れメタデータはうと分るように自動生成のラベルをつる。 ● 人間チェックら認証済みのラベルを、管理部門承認ら「公式」ラベルをつる。入口：データを生成る人、データを生成る箇所で、メタデータを管理る。 ● 例：SFDCの設定は管理者シートで管理。RDBMSのスキーマはSREチーム DDLで管理。 ● 理由1：データ基盤以外の通常業務でも使うめ。何らの形でメタデータは必要。 ● 理由2：データ利用者事後調査ると1日る。担当者本人事前記入ると10分で済む。中間：れれのメタデータを集約管理る。 ● 現状、を満るツール世にないめ、各社 GitHub管理の仕組みを作っている。出口：メタデータの利用箇所に合わ場所・形式でメタデータを連携る。 ● 例：GeminiでBigQueryを使う場合はDataplex Universal Caralogにメタデータ必要。 145

Slide 146

Slide 146 text

Google Cloudにるメタデータ管理の補助機能 ● グロッサリー（辞書）：「売上」等のキーワードを設定、関連データを紐づる。 ● データプロファイリング：nullの割合、一意となる値の割合、平均、標準偏差、最大、最小、四分位数といっ統計情報を確認る。 ● データリネージ（依存関係）：どのテーブルどのテーブルら作成れている、を管理る。 146 https://cloud.google.com/data-catalog/docs/concepts/about-data-lineage https://cloud.google.com/blog/products/data-analytics/dataplex-business-glossary-now-ga

Slide 147

Slide 147 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 147 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 148

Slide 148 text

10. データ品質

Slide 149

Slide 149 text

主な技術要素（詳細版） 149 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 150

Slide 150 text

風音屋定義るデータ品質の5分類数十種類の「データ品質」を大まにまとめると以下の5種類になる。①〜⑤の順に依存関係ある。例：① 不十分と②〜⑤を正確に計測でない。② 不十分と③で見るべデータ存在ない。 150 ②データ適切な場所に置れている（可用性・即時性・最新性・回復性・移植性） ③データの中身現実を正確に表現ている（正確性⊇完全性、一意性、一貫性、有効性、精度） ④適切な人適切なデータにアクセスでる（アクセシビリティ・機密性） ⑤データ使いやい状態になっている（ユーザビリティ⊇理解性、効率性、標準適合性） ①活動を追跡でる（追跡可能性・信憑性）

Slide 151

Slide 151 text

SLO（サービスレベル目標）をステークホルダーと合意る ● 誰も望んでいないのに過剰な目標を追ってまうと、徒労で終わる。 ● 部署や用途とに暗黙的に期待れている品質目標を洗い出、明文化て、関係者と合意る。 151 例用途約束相手連絡先利用データ期待品質未達時の影響範囲 1 日次レポートマーケター Slack #daily_kpi BigQueryの売上テーブル毎営業日の8時までに欠損な前日売上レポートれると（即時性）売上状況に応施策打てななる（機会損失） 2 … … … … … … 3 … … … … … … … … … … … … …

Slide 152

Slide 152 text

テスト・監視 Dataformによる定期データ集計時に、チェックを行う。 ● Dataformの集計処理の成否。 ● 各テーブルの更新日時、レコード件数、nullや空白の有無、値の範囲など。 ● 処理エラーとなる場合はシステム管理者に通知を送る。 152 https://cloud.google.com/dataform/docs/assertions

Slide 153

Slide 153 text

データ利用者への案内 ● ダッシュボードのトップ画面に「🚨現在判明ている問題🚨」欄を設て、検知可能にる。 ● システム管理者への通知とは別に、データ利用者にチャットBotで速報を送る。 153

Slide 154

Slide 154 text

システムチューニング ● 品質の目標と現状のギャップ大い箇所（ボトルネック）を特定、原因を特定る。 ● 例えば、「朝8時までに売上集計を終わらる」（即時性）担保れていない場合、集計処理のうどの部分に時間っているのを確認る。 ● の上で、以下のようなチューニング施策を実施る。 ○ 「全件更新」ら「差分更新」に切り替える。前日分を集計る。 ○ 「クラスタリング」や「パーティション」でデータの参照範囲を区切る。 ○ 処理Aの後に処理Bを行う「直列実行」ら、A・Bを同時に行う「並列実行」に切り替える。 154 処理時間最も長い箇所（＝ボトルネック）をチューニングる

Slide 155

Slide 155 text

週次ミーティングで改善サイクルを回 ● 毎週の振り返りミーティングで現状（AsIs）と期待（ToBe）を比べる。 ● の週のインシデント（トラブル）一覧を読み返。 ● サービスレベル目標（SLO）を満ていなれば、改善アクションのめのTODOを起票る。 ○ 例：新規データ連携を後回にてパフォーマンスチューニングを優先る。 ● サービスレベル目標（SLO）自体を見直。 ○ 過大目標であれば下方修正（e.g. 未使用ダッシュボードはメンテナンスに除却る） ○ 過小目標であれば上方修正（e.g. データ更新頻度を毎週ら毎日に変更る） 155 What 何をるスプリントレビューどうやってる How スプリントプランニングレトロスペクティブデイリースクラム

Slide 156

Slide 156 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 156 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 157

Slide 157 text

11. データセキュリティ・権限管理

Slide 158

Slide 158 text

主な技術要素（詳細版） 158 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 159

Slide 159 text

データセキュリティで実現いと 159 よある相談例 BigQueryで個人情報を扱うのは、カスタマーサポート（CS）部門の「問い合わ対応」業務のみとい要件（Requirements）を言語化ると？ ①ルール違反をない。 ● 個人情報保護法に準拠い。 ● カスタマーに提示ている利用規約やプライバシーポリシーに準拠い。 ● 個人情報取扱に関る社内規程に準拠い。 ②「顧客ID」は使いい。 ● 厳密な「個人情報」の定義と「顧客ID」も含まれてまう ……。 ○ 規約や用途によっては顧客IDの利用もNGになるとあるので注意！ ● 顧客IDなどの仮名加工情報（れ単体では個人を特定でない情報）はOKとい。 ● 氏名やメールアドレスなど、特定個人を直接的に表情報のみNGとい。　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　etc…

Slide 160

Slide 160 text

データセキュリティの設定（全体像） 160 BigQueryのセキュリティ対策手順 - 風音屋TechBlog　https://techblog.kazaneya.com/20220830-bigquery-secure-guide/ 与件となるルール・規程（文書で管理）例位置付項目法令個人情報保護法顧客合意利用規約・プラポリ or 契約書社内ルール個人情報取扱に関る社内規程取り扱うデータの種別（シートで管理）例対象データ種別氏名特定個人を直接的に表情報メールアドレス顧客ID 仮名加工情報メールアドレスのハッシュ値機密性レベル（シートで管理）例レベルデータ種別提供範囲 2 特定個人を直接的に表情報特定部署のみ 1 仮名加工情報社内限アクセス制御（Terraformで管理）例 PJ レベル通信要件認証・認可 gcp-pii-pj 2 CS部門用の VDI経由のみ CS部門社員に閲覧権限を付与 gcp-bi-pj 1 社内VPNでアクセス可能複数部門社員に閲覧権限を付与監視・監査（GCS等で管理）例データ混入や権限付与ミス、意図ないデータアクセスなどのガイドライン違反を自動検知＆都度チェックデータセキュリティを担保るにあって「規程」と「データ種別」ら「機密性レベル」を定め、通信要件（N/W）と認証・認可（IAM）を設定る。ま、要件に沿って運用ているとを監視・監査る。

Slide 161

Slide 161 text

データセキュリティの設定（1/3）与件となるルール・規程（文書で管理） ● 法令：個人情報保護法、金融商品取引法（インサイダー規制）、電気通信事業法（通信の秘密） ● 認証基準：PCI DSS、Pマーク ● 契約事項：利用規約、各取引先との契約書 ● 社内規則：情報管理規定、セキュリティ細則取り扱うデータの種別（シートで管理） ● PII（個人識別情報） ● PHI（個人健康情報） ● インサイダー情報（財務データなど） ● 契約上の制限に抵触る情報 ● 競争上の優位性に関わる情報 ● 企業秘密に関わる情報 ● 公開ている情報 161 BigQueryのセキュリティ対策手順 - 風音屋TechBlog　https://techblog.kazaneya.com/20220830-bigquery-secure-guide/ 与件となるルール・規程（文書で管理）例位置付項目法令個人情報保護法顧客合意利用規約 or 契約書社内ルール個人情報取扱に関る社内規程取り扱うデータの種別（シートで管理）例対象データ種別氏名特定個人を直接的に表情報メールアドレス顧客ID 仮名加工情報メールアドレスのハッシュ値

Slide 162

Slide 162 text

データセキュリティの設定（2/3）機密性レベル（シートで管理） ● 社外公開 ● NDAの範囲内で共有 ● 社外秘 ● 限定共有：特定の役職、部署、プロジェクトメンバーアクセス制御（Terraformで管理） ● 通信要件 ○ システム構成図ら通信経路を網羅る ○ アクセス元ｘアクセス先Bｘ権限（許可｜禁止） ○ VPC Service Controls ● 認証・認可 ○ シートらデータ操作の組み合わを網羅る ○ 対象者グループｘ対象データｘCRUD権限 ○ Cloud IAM 162 BigQueryのセキュリティ対策手順 - 風音屋TechBlog　https://techblog.kazaneya.com/20220830-bigquery-secure-guide/ 機密性レベル（シートで管理）例レベルデータ種別提供範囲 2 特定個人を直接的に表情報特定部署のみ 1 仮名加工情報社内限アクセス制御（Terraformで管理）例 PJ レベル通信要件認証・認可 gcp-pii-pj 2 CS部門用の VDI経由のみ CS部門社員に閲覧権限を付与 gcp-bi-pj 1 社内VPNでアクセス可能複数部門社員に閲覧権限を付与

Slide 163

Slide 163 text

データセキュリティの設定（3/3）監査・監視（GCS等で管理） ● 監査ログの取得・保存 ○ 各サービスとに取得可能なログ異なるめ、仕様詳細を確認・調査る ■ 例：本資料作成時点でBigQueryの「Save results」の監査ログは誤検知うる ○ Cloud LoggingやGoogle Workspace管理機能で監査ログを取得る ○ 他環境ら独立監査用Google CloudプロジェクトのGCSに保存る ● 監査ログの参照 ○ アラート条件で不審な変更・作業を早期検知 ○ トラブル発生後に事後調査 ○ 定期・不定期の監査でログを確認 ● Google Cloudの自動チェックサービスで補完 ○ Security Command CenterでCISベンチマークによる自動チェック ○ Cloud DLPによる機密情報の混入チェック 163 BigQueryのセキュリティ対策手順 - 風音屋TechBlog https://techblog.kazaneya.com/20220830-bigquery-secure-guide/ BigQuery の「Save results」をモニタリングるめの現実的なアプローチ - 風音屋TechBlog　 https://techblog.kazaneya.com/20250714-bigquery-save-results-audit-log/ 監視・監査（GCS等で管理）例データ混入や権限付与ミス、意図ないデータアクセスなどのガイドライン違反を自動検知＆都度チェック

Slide 164

Slide 164 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 164 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 165

Slide 165 text

12. コスト管理

Slide 166

Slide 166 text

主な技術要素（詳細版） 166 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 167

Slide 167 text

Cloud Billingによるコストモニタリング ● 毎月のコストや内訳は Cloud Billing のコンソールで確認可能。 ● 個人やスタートアップ無料サービスを中心に活用れば、コスト問題になるとは少ない。 ○ 嘉悦大学では月2万円でデータ基盤を運営。書籍『アジャイルデータモデリング』事例集より。 ○ 数百円/月で業務利用ているケースもある。 167 https://cloud.google.com/billing/docs/how-to/cost-breakdown https://cloud.google.com/billing/docs/reports

Slide 168

Slide 168 text

監査ログによるBigQuery利用金額のモニタリング ● Cloud Logging→GCS→BigQuery→LookerStudioに連携て、BigQueryの利用金額を可視化る。 ○ 利用金額高い or 増えている「チーム > ユーザー」x「テーブル」チェックる。 ● Cloud Logging→Cloud Monitoringでアラート設定を行って、高額クエリ検知時にSlack送信る。 ● パフォーマンス・チューニングと同様に、余分なスキャンや集計処理を削ってい。 ○ システム毎日データを集計ているのにユーザー使っていない場合はクリーニングる。 168 BigQueryのコスト可視化ダッシュボードを10分で作る - 下町柚子黄昏記 https://yuzutas0.hatenablog.com/entry/2018/12/18/160000 データレイク構築後の四方山話 #DPM / 20190905 https://speakerdeck.com/yuzutas0/20190905?slide=27

Slide 169

Slide 169 text

Snowﬂake の Cost Management ダッシュボード ● 標準機能で高コストのウェアハウス（インスタンスのようなもの）やクエリを探る。 ● プラットフォームにバンドルれるDBではな、DB自体メインのサービスならではの機能。 169 https://www.snowﬂake.com/en/blog/cost-management-interface-generally-available/

Slide 170

Slide 170 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 170 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 171

Slide 171 text

13. 継続的開発を支える技術

Slide 172

Slide 172 text

主な技術要素（詳細版） 172 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 173

Slide 173 text

開発標準・開発環境（1/2） 173 ■ リポジトリ：コードの置場。 ● Git：コードの差分や履歴を管理るツール。AIエージェントミスをても復旧でる。 ● GitHub：Git管理のコードをチームで共有、開発を進めていめのツール。 ● GitHub Actions：GitHubの機能。Linterや自動テスト、Terraform等の処理を実行でる。 ■ CI（継続的インテグレーション）：継続的にコードを開発、安全つ効率的に統合る。 ● Linter：コード社内ルールに沿っ書方になっているとを自動チェックる仕組み。 ○ 例：PythonならRuﬀ、SQLならSQLFluﬀ、TerraformならTFLint、。 ● 自動テスト：コード期待通りに挙動るとを自動でチェックるめの仕組み。 ● Code Rabbit：GitHubで人間の代わりにコードレビューてれるAI。 ○ 「シニアデータエンジニアとて振る舞って」「若手に助言るようにレビューて」「若手の反論甘っら徹底的にツッコミて」と設定ると、丁寧に教えてれる。 ■ CD（継続的デリバリー）：継続的にコードを本番環境へとリリースる活動。 ● Terraform：クラウドインフラをコードで管理て、自動構築るめのツール。 ○ IaC（Infrastructure as Code）なる概念。画面操作と異なり、作業ミス防止や横展開容易。 ○ 例：BigQueryの設定をコードで管理て、GitHubでレビュー通っら自動反映。

Slide 174

Slide 174 text

開発標準・開発環境（2/2） 174 ■ 開発標準：自社のルールを決めり、仕組みを自動化るとで開発効率を上る。 ● テンプレート：要件定義フォーマット、セキュリティ設計シート、コスト計測シート etc…。 ● 規約／ガイドライン：Pythonコーディング規約、SQL規約、データモデリング標準 etc…。 ■ 開発AIエージェント：Terraformを含めて一連のプログラムを自動実装るツール。 ● Cursor：ローカル環境のIDEでユーザーに編集提案てれる。 ● Claude Code：ローカル環境のターミナルで自律開発てれる。Gemini CLIもの立位置（？） ● Claude Code Actions：GitHubでのユーザーコメントをもとに自律開発てれる。 ● Devin：Slackでのユーザーコメントをもとに自律開発てれる。 ○ データ分析者 Gemini支援の元でSQLを作り、SlackでDevin君にパイプライン追加を依頼。 ⇒風音屋では一連のデータ基盤システムをクライアント最短工数で利用開始でる仕組みを構築中。本資料のように「データ基盤の構築や運用」といっ業務を 1つ1つ言語化、手順化、システムに反映るとで徐々に「AI Ready」な開発環境へ進化てい（は）！

Slide 175

Slide 175 text

特にコードレビューの自動化は期待以上っ 175 ● 新規構築 dbtプロジェクトのPull Requestに対て、メタデータ入力を促コメント。 ○ RAGのように参考資料を追加とも、データエンジニアリングの要素も加味てれる。 ○ 今のとろCode Rabbitのほう GitHub Copilotより期待に近い。 ● AIやジュニア人材作っ Pull Requestをレビューるとに「最低限は抑えてほいなあ」「んなケアレスミスを指摘てら仕事進まないよ」というラインをある程度指摘てれる。 ○ ブラッシュアップれ状態で手元にレビュー依頼届ので、従来比でストレス 9割減。

Slide 176

Slide 176 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 176 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 177

Slide 177 text

14. データ利活用の促進

Slide 178

Slide 178 text

主な技術要素（詳細版） 178 データ取得元C データ取得元B データ収集プログラム Python ファイルストレージ（保存） GCS データウェアハウス（分析環境） BigQuery ダッシュボード BIツールアドホック集計 Google Sheets メルマガ配信 CRMツール元データ加工データプログラム実行環境 Cloud Run functions データ加工・変換 SQL ワークフロー（処理の流れを横断管理） Cloud Workﬂows データカタログ（データの説明） Dataplex Universal Catalog データ取得元A SQL管理ワークフロー Dataform データ連携プログラム Python プログラム実行環境 Cloud Run functions コード管理 GitHub インフラ構築 Terraform 品質権限管理コスト

Slide 179

Slide 179 text

データ利用促進＝社内マーケティング ● 毎月のデータ利用の人数（MAU）増えている、安定ている、をモニタリングる。 ● どのチームで、どの水準までデータを利用でている、をモニタリングる。 ● 次の注力支援先を決めて、ニーズを調査、仕組みを整え、社内営業とサポートを行い、伴走る。 179 株式会社風音屋（監訳）『アジャイルデータモデリング』より引用チームA チームB チームC チームD チームE チームF 生ログ独自利用データT支援業務依頼データT支援データ出力自主的データ出力担当者依存自主的データ生成他チーム依頼基盤貢献！担当者依存担当者依存局所化自走改善 Data Management Guide - 事業成長を支えるデータ基盤のDev&Ops https://speakerdeck.com/yuzutas0/20211210

Slide 180

Slide 180 text

監査ログによるBigQuery利用状況のモニタリング ● Cloud Logging→GCS→BigQuery→LookerStudioに連携て、BigQueryの利用状況を可視化る。 ● クエリ実行数多い or 増えている「チーム > ユーザー」x「テーブル」チェックる。 ● 「既に活用ているチーム」「ま活用ていないチーム」を把握、社内営業やサポートを行う。 ● 「活用ニーズあるデータ」を優先て充実り、メンテナンスり、社内に宣伝る。 180 BigQueryのコスト可視化ダッシュボードを10分で作る - 下町柚子黄昏記 https://yuzutas0.hatenablog.com/entry/2018/12/18/160000 データレイク構築後の四方山話 #DPM / 20190905 https://speakerdeck.com/yuzutas0/20190905?slide=27

Slide 181

Slide 181 text

データ利用ガイドを社内提供 ● 「で全体像分る」という社内Wikiを整備る。 ● ダッシュボードのトップに、利用案内のURLを掲載る。 181

Slide 182

Slide 182 text

社内勉強会やハンズオン ● データ利用の流れを解説り、実際に体験てもらう場を設る。 ● 毎月の「相談会」で伴走なら分析レポートを作り、のまま上司や経営陣、投資家に報告る流れになるとスムーズ。上司ら「A案件はデータ相談会に持もう」と声掛るようになる。 182

Slide 183

Slide 183 text

● チャットツールで相談場所を設る。 ○ データチームで運用当番を設てユーザーサポートに当る。 ● よある問い合わ（FAQ）はWikiやデータカタログツールに反映る。 ○ 次らはURLの案内で済むようにる。 ○ ナレッジを充実るとでAIの回答精度を高める。 ● 自動対応るチャットBotを構築る。 ○ Slackを窓口にるならGoogle CloudのConversational Analytics APIを用いて実装る。 ○ 今後はGemini EnterpriseやLooker (Studio Pro) のConversational Analyticsに期待。 ○ データ項目追加や権限付与依頼はGitHub管理と、Devin等の開発AIエージェントに任る。問い合わ対応や作業依頼 183 分析相談レビュー依頼 FAQ 充実化再利用

Slide 184

Slide 184 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 184 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 185

Slide 185 text

15. 生成AIによる5つの変化

Slide 186

Slide 186 text

1. データ収集：オープンデータ取得やWEBスクレイピングでデータのバリエーション増える。 2. データ加工：カジュアルに構造化データと非構造化データを相互変換でる。 3. メタデータ整備：入力・編集を自動化でる。生成AIにコンテキストを渡めに関連機能充実。 4. DataDevOps改善：データエンジニアリングにる一連の業務プロセスを自動化でる。 5. BizDevOps改善：「データ基盤」と「業務フロー」と「経営」一体化つつある？生成AI データプラットフォームにもら 5つの変化 186

Slide 187

Slide 187 text

オープンデータ取得やWEBスクレイピングの難易度下り、扱えるデータのバリエーション増える。 ● 生成AI自身持つWEB検索機能（例：Gemini CLI） ● 生成AI らの操作に適ブラウザの台頭（例：ChatGPT Atlas） ● WEB画面（HTML）やシート構成（Excel）らの対象要素の抽出（※後述の非構造化データ） ● WEB画面やシート構成の変更差分の特定 → 要素抽出スクリプトの修正（※後述の開発プロセス）従来はWebAPIやDB らのデータ取得主流で、以下のような場面・組織でないと持続不可能っ。 ● アドホック分析で都度データを取得る（例：マーケティング担当や研究者） ● スクレイピング選任の開発チームを運営る（例：法人データ提供会社） ①生成AIによる「データ収集」の変化 187 ゆ編『個人開発をはめよう！- クリエイター25人の実践エピソード』の第8章「格安スクレイピングを支える技術」（morizyun ん）では、岡崎市立中央図書館事件を例に挙てスクレイピングの注意点を紹介ていま。 AI開発を始める前にひ読んでまょう！ ⚠スクレイピングや外部データ利用時は、規約やマナーを守りまょう！

Slide 188

Slide 188 text

● PCを持運ぶめのバッグ検索サイト「HileSearch」（入るサーチ） ○ 自分のノートPC ょうどっぽり入るサイズのカバン・バッグ・リュックを約1万の候補ら探出「HileSearch」 - GIGAZINE ● MacBookPro を持っている人には、MacBookPro より大いサイズのバッグを、一覧で表示る ● 検索機能を実現るめには、PCとバッグ、れれのサイズに関るデータ必要 10年前は開発に数カ月っデータ収集システム 188 ゆ（編）『個人開発をはめよう！』、ゆ（共著）『データマネジメント 30分でわる本』より引用

Slide 189

Slide 189 text

● 政府統計や各社オープンデータはBigQuery Sharing機能で提供事業者らデータ取得可能。 ● WEBコンテンツは、Python等のプログラム + Geminiでスクレイピングを行い、BigQueryに連携。データ基盤システム（Google Cloud）各提供者各省庁等【再掲】オープンデータによるデータ取得 189 WEB公開コンテンツ提供事業者A 政府統計収集・加工システム BigQuery 提供事業者B 各社データベース BigQuery BigQuery BigQuery Sharing BigQuery Sharing インターネット取得プログラム例：Python Cloud Run functions ファイル例：CSV, JSON GCS 保存外部テーブル HTTPリクエストスクレイピング（Google検索） Gemini 取得更新更新連携 HTTPリクエストスクレイピング（ページ指定） 💡Webサービスの画面レイアウト変更時は、エラーログとHTML文字列をもとに GitHub Issueを自動起票てコーディングAIにパース処理を修正てもらう！

Slide 190

Slide 190 text

データ収集SaaS 不要になる or データ収集SaaS AI対応るデータ収集用のETL SaaS（ETLツール）を使うメリット減っている。 ● もともと社内業務システムらのデータ抽出には向ない。 ○ 「通信量でコストる料金体系」つ「VPC外通信でのセキュリティ懸念」重なる。 ● 多様なSaaSや広告データを取得るユースケースに向いてい（去年までは）。 ○ 各WebAPIへのリクエスト処理をメンテナンスるよりも、ETL SaaSに頼るほう ROI 高い。 ○ 、の1年でAIエージェントやAIコーディングに任られるようになっ。 ■ 現状とデータ収集SaaSは不要になる。オープンデータ取得やスクレイピングなど「データ収集」の業務自体は広っている。 ● むろ生成AIのHuman in the loop管理など、仕組みを自前でメンテナンスる難易度は向上。 ● データ収集SaaS 進化てう用途に対応でると、引続使われるとになるは。 ○ 既存ベンダーはゆに相談てれら技術顧問＆宣伝協力ま。 ● 既存ベンダー後手に回れば、新興のデータ収集SaaS 台頭るは（予言）。 ○ ゆにプロトタイプを持参ら出資＆宣伝協力ま。PLAID んありも興味持つ。 ○ という風音屋の内製ツールを外販るの最速？ 190

Slide 191

Slide 191 text

機械学習システム構築の難易度下り、カジュアルに構造化データと非構造化データを相互変換でる。 ● 従来は「選任の機械学習チーム」や「AutoMLツール」による専用システムの構築必要っ ● 現在は「SQLのSELECT句を1行書」（10秒）で変換処理を実行でるようになっ ②生成AIによる「データ加工」の変化 191 画像を準備する AIの回答を取得 SQLでAIを呼ぶ https://docs.cloud.google.com/bigquery/docs/reference/standard-sql/bigqueryml-syntax-ai-generate

Slide 192

Slide 192 text

主要クラウドベンダー各位のトレンドとて、非構造化データの取り扱いを強化ている。 ● ストレージやデータウェアハウス製品に、画像やPDFなどの非構造化データを扱う機能増え。 ● 生成AIのユースケースとて、れらのデータを参照るニーズ増えていると主な背景。 ● 従来はテーブル形式の処理メインっ、対象データのバリエーション増え。 Analytics製品の非構造化データ対応進む 192

Slide 193

Slide 193 text

● 各ツールら文章、画像、動画、PDFファイルなどの非構造化データを集約る。 ● システム管理る場合はGCSに置、必要に応てBigQueryにデータをロードる。 ● 人間管理る場合はGoogle Driveに置、必要に応てGCSを経由てBigQueryにロードる。 ● BigQueryのObject Table機能でGCSの非構造化データを参照、バイナリ形式で機械学習に利用。データ基盤システム（Google Cloud）【再掲】社内フォルダ等のデータ取得（ストレージに集約る場合） 193 インターネット Google Workspace BigQuery ユーザー HTTP リクエストファイルをアップロード各ファイル Google Drive 取得プログラム例：Python Cloud Run functions 各ファイル GCS 保存 WebAPIコールやスクレイピング各ツール外部テーブル HTTPリクエスト Web API コール HTTP リクエスト

Slide 194

Slide 194 text

【再掲】非構造化データ ⇔ 構造化データの変換生成AIによる「非構造化データ」ら「構造化データ」への変換（以下は例） ● 商品名のテキスト → 商品カテゴリーの分類 → カテゴリー別の売上集計可能になる ● 自動車撮影路面写真 → リスク要因のラベリング → 走行データと合わて事故予測の精度向上 ● 代理店との会議メモやメール → キャンペーンの情報を抽出 → MMMに組み込んで広告効果推定の改善生成AIによる「構造化データ」ら「非構造化データ」への変換（以下は例） ● 法人顧客の行動データ → 営業担当向に追加提案メールのドラフトを生成 ● 商品の在庫や注文のデータ → 今日推べ商品で「んな人買ってま」訴求文面を生成 ● 企業の募集要項と求職者の履歴書 → 条件ミスマッチを緩和るめの修正提案メッセージを作成 194 風音屋TechTalk #4 発表資料より

Slide 195

Slide 195 text

【再掲】非構造化データ in データパイプラインパイプラインに組み込むどうで2つのアプローチ考えられる。 1. データパイプラインに組み込む場合。BigQuery ML GeminiでSQL らGeminiを実行る。 2. 従来のパイプラインに組み込ま、Gemini Enterpriseに各データを集約てAI側で完結る。 195 非構造化データデータパイプライン構造化データ非構造化データ ①生成AIで前処理 ②生成AIで出力作成

Slide 196

Slide 196 text

【再掲】非構造化データの3層構造 Garbage In, Garbage Out（ゴミを入れらゴミ出てる） ● 社内文書や動画ファイルはボリューム多い割に、品質低っり、ノイズ情報も混る。 ● 生成AI 一度に記録・利用でるデータ量には上限ある。 ● ルンバ（掃除ロボット）を動めに、床の物を片付るのと同。事前に整える。構造化データと同ようにデータの整理必要 ● 元のファイル（入口）→整理情報（中間）→用途に必要な情報（出口）を整備る。 ● “ゆ ”の3層構造の「データレイク層」「データウェアハウス層」「データマート層」に該当。の領域は生成AIの台頭に伴って急進化始まっフェーズ ● 現時点でれというリファレンスアーキテクチャ定まっていない。 ● データの持方も定まっていない。テキストを書直もの、文書ベクトル、グラフ構造 etc…？ ● 対応るソリューションも違う。BigQuery、Vertex AI Feature Store、Spanner Graph etc…？ ○ グラフDBの構築はToo MuchなのでGIS機能と似位置付のBigQuery Graph 欲い。 196 ソース水源レイク湖 = 蓄積るウェアハウス倉庫 = 管理るマート市場 = 売るユーザー利用者

Slide 197

Slide 197 text

「データウェアハウス製品」ら（AWS 言う）「データレイク」への揺れ戻？ ● 非構造化データの中間加工のパターンやベストプラクティスはま決まっていない。 ○ ベクトル化やグラフ構造など、非構造化データを扱うめの作法複数あり、解定まらない。 ○ 非構造化データモデリング分野の体系化とソリューション実装必要なフェーズ。 ● 必要なツールや機能もま出揃っていない。 ○ 次の3年間は状況日々変わっていように思える。 ○ 現時点では既存のリファレンスアーキテクチャを踏襲、3年後に式年遷宮でも良いも。 ● クラウドストレージに元データを置いていて、後ら修正でるようにての大事。 ○ AWS 言う「データレイク」本来のコンセプトに（一周回って）立戻る。 ○ 一方で、2010年代はAWS + Snowﬂake構成人気っように、DWH製品に寄る世界観グローバルで受入れられて。 ○ 両者の擦り合わなれて、次の進化起るタイミング。まに技術の螺旋。 197 https://speakerdeck.com/twada/understanding-the-spiral-of-technologies-2025-edition

Slide 198

Slide 198 text

補足：AWSにる（主にS3を中心と）データレイクデータウェアハウス、データレイク、よびデータマートは、異なるクラウドストレージソリューションで。（中略）データウェアハウスは、構造化れ形式でデータを格納ま。れは、分析よびビジネスインテリジェンス用に前処理れデータの中心的なリポジトリで。（中略）データマートは、企業の財務部門、マーケティング部門、営業部門など、特定のビジネスユニットのニーズに対応るデータウェアハウスで。（中略）一方、データレイクは、生データと非構造化データの中心的なリポジトリで。最初にデータを保存、後で処理でま。 https://aws.amazon.com/jp/compare/the-diﬀerence-between-a-data-warehouse-data-lake-and-data-mart/ https://aws.amazon.com/jp/big-data/datalakes-and-analytics/datalakes/ 198

Slide 199

Slide 199 text

１）生成AI⇒メタデータ：生成AIによってメタデータ拡充容易になる。 ● メタデータの一部は「非構造化データ」であり、従来は人間入力・編集る必要あっ。 ● 生成AIによって非構造化データを自動処理でるようになり、メタデータ拡充容易となっ。２）メタデータ⇒生成AI：生成AIを使うめにメタデータ拡充必要になる。 ● もともとデータカタログ機能強化のトレンドあっ。生成AIへの需要でらに加速。 ○ 2020年前後に大手各社でもデータウェアハウス製品普及、カタログ管理の課題顕在化。 ● 生成AIにコンテキストを与えて処理精度を改善るにはメタデータの整備必要となる。 ○ 主要クラウドベンダー各位のトレンドとて、AIエージェント関連の機能提供とセットでメタデータ整備に関る機能を強化・充実ている。 ③生成AIによる「メタデータ整備」の変化 199

Slide 200

Slide 200 text

非構造化データ構造化データ【再掲】メタデータ管理の3層構造（1/2）メタデータも、収集（入口）→統合（中間）→提供（出口）の3層構造でパイプライン化れる。 200 RDBMSのスキーマ情報＠DDL SFDCで入力るデータ項目＠管理シート Dataform 加工る BigQueryテーブル仕様＠設定ファイル BigQuery コンソール画面のクエリ作成補助AI （Gemini）各AIチャットへのデータ分析依頼や問い合わデータ利用ガイド社内ポータル Dataplex Universal Catalog 一連のデータ仕様とクエリ生成のコツを組み込ん社内MCPサーバ一連のデータ仕様を SphinxやJekyllなどのサイトジェネレーターに反映基幹システム顧客管理システム（CRM） BigQuery 加工テーブル BigQuery 利用記録 Cloud Logging 出力る監査ログ＠監査ログ顧客対応システム Zendeskの入力手順社内マニュアル＠GoogleDocs 取得元メタデータの入口メタデータの出口利用先メタデータの中間 GitHubの専用リポジトリメタデータ管理プログラム

Slide 201

Slide 201 text

【再掲】メタデータ管理の3層構造（2/2）前提：システムで自動化でるものは自動化、人間は人間に扱えない情報に専念る。 ● システムで自動生成れメタデータはうと分るように自動生成のラベルをつる。 ● 人間チェックら認証済みのラベルを、管理部門承認ら「公式」ラベルをつる。入口：データを生成る人、データを生成る箇所で、メタデータを管理る。 ● 例：SFDCの設定は管理者シートで管理。RDBMSのスキーマはSREチーム DDLで管理。 ● 理由1：データ基盤以外の通常業務でも使うめ。何らの形でメタデータは必要。 ● 理由2：データ利用者事後調査ると1日る。担当者本人事前記入ると10分で済む。中間：れれのメタデータを集約管理る。 ● 現状、を満るツール世にないめ、各社 GitHub管理の仕組みを作っている。出口：メタデータの利用箇所に合わ場所・形式でメタデータを連携る。 ● 例：GeminiでBigQueryを使う場合はDataplex Universal Caralogにメタデータ必要。 201

Slide 202

Slide 202 text

データエンジニアリングにる一連の業務プロセスを効率化、サイクルタイムを短縮でる。 ● システム開発：コーディング、テスト、レビューの自動化 ● システム運用：リリース、監視、アラート対応の自動化 ● サービス運用：問い合わ対応、権限管理、コスト管理の自動化 ● データ分析：数値変動調査、探索（EDA）、レポートの自動化 ④生成AIによる「DataDevOps」の変化 202

Slide 203

Slide 203 text

【再掲】開発標準・開発環境（1/2） 203 ■ リポジトリ：コードの置場。 ● Git：コードの差分や履歴を管理るツール。AIエージェントミスをても復旧でる。 ● GitHub：Git管理のコードをチームで共有、開発を進めていめのツール。 ● GitHub Actions：GitHubの機能。Linterや自動テスト、Terraform等の処理を実行でる。 ■ CI（継続的インテグレーション）：継続的にコードを開発、安全つ効率的に統合る。 ● Linter：コード社内ルールに沿っ書方になっているとを自動チェックる仕組み。 ○ 例：PythonならRuﬀ、SQLならSQLFluﬀ、TerraformならTFLint、。 ● 自動テスト：コード期待通りに挙動るとを自動でチェックるめの仕組み。 ● Code Rabbit：GitHubで人間の代わりにコードレビューてれるAI。 ○ 「シニアデータエンジニアとて振る舞って」「若手に助言るようにレビューて」「若手の反論甘っら徹底的にツッコミて」と設定ると、丁寧に教えてれる。 ■ CD（継続的デリバリー）：継続的にコードを本番環境へとリリースる活動。 ● Terraform：クラウドインフラをコードで管理て、自動構築るめのツール。 ○ IaC（Infrastructure as Code）なる概念。画面操作と異なり、作業ミス防止や横展開容易。 ○ 例：BigQueryの設定をコードで管理て、GitHubでレビュー通っら自動反映。

Slide 204

Slide 204 text

【再掲】開発標準・開発環境（2/2） 204 ■ 開発標準：自社のルールを決めり、仕組みを自動化るとで開発効率を上る。 ● テンプレート：要件定義フォーマット、セキュリティ設計シート、コスト計測シート etc…。 ● 規約／ガイドライン：Pythonコーディング規約、SQL規約、データモデリング標準 etc…。 ■ 開発AIエージェント：Terraformを含めて一連のプログラムを自動実装るツール。 ● Cursor：ローカル環境のIDEでユーザーに編集提案てれる。 ● Claude Code：ローカル環境のターミナルで自律開発てれる。Gemini CLIもの立位置（？） ● Claude Code Actions：GitHubでのユーザーコメントをもとに自律開発てれる。 ● Devin：Slackでのユーザーコメントをもとに自律開発てれる。 ○ データ分析者 Gemini支援の元でSQLを作り、SlackでDevin君にパイプライン追加を依頼。 ⇒風音屋では一連のデータ基盤システムをクライアント最短工数で利用開始でる仕組みを構築中。本資料のように「データ基盤の構築や運用」といっ業務を 1つ1つ言語化、手順化、システムに反映るとで徐々に「AI Ready」な開発環境へ進化てい（は）！

Slide 205

Slide 205 text

● チャットツールで相談場所を設る。 ○ データチームで運用当番を設てユーザーサポートに当る。 ● よある問い合わ（FAQ）はWikiやデータカタログツールに反映る。 ○ 次らはURLの案内で済むようにる。 ○ ナレッジを充実るとでAIの回答精度を高める。 ● 自動対応るチャットBotを構築る。 ○ Slackを窓口にるならGoogle CloudのConversational Analytics APIを用いて実装る。 ○ 今後はGemini EnterpriseやLooker (Studio Pro) のConversational Analyticsに期待。 ○ データ項目追加や権限付与依頼はGitHub管理と、Devin等の開発AIエージェントに任る。【再掲】問い合わ対応や作業依頼 205 分析相談レビュー依頼 FAQ 充実化再利用

Slide 206

Slide 206 text

【再掲】生成AIによるアドホック分析ジュニア分析者より正確で、シニア分析者より早い＆安いアウトプット ● GeminiチャットやNotebookLMによるデータ分析レポートの作成。 ● Claude Desktop等のサードパーティツールらBigQueryを参照る事例も散見れる。 MCP経由で加工済みテーブルにアクセス ● 本資料作成時点で主流なのはBigQueryのMCPを経由てデータを参照る方法。 ● 将来的にはGeminiやNotebookLM、Looker Studio Pro（対話エージェント機能）を社内提供るアプローチ Google Cloudユーザーの主流になりうる。ま高水準とは言えない今後に期待。 ● BigQueryでFact＆Dimension（まはれらを結合 Wide or Summary）テーブルに接続る。 206

Slide 207

Slide 207 text

生成AI データを正使うめには、データの整備必要 50個の「売上テーブル」存在ていら、生成AIはどの「売上」で分析れば良い判断でない。もも考え方や用途によって「売上」の定義は変わる。 ● 消費税を含む？ ● 途中解約はどに計上る？ ● 年間契約は月次で按分る？ ● 割引はどで差引？ ● 返金は後で差引？購入時に遡って差引？ ● 通販サイトやアプリ決済の決済手数料を含む？年間契約を行っ場合、ある分析では「今月の売上」大幅に向上と報告ても、別の分析と月次で按分ているので1/12の数字になる。 AI 生成 2つのレポートを見比べると「今月の売上」 10倍近ズレるとになる。 207

Slide 208

Slide 208 text

「fct_xxx」と「dim_xxx」のテーブル用意れている。つまりれはディメンショナルモデリングで作られテーブル。 ● 集計対象 fctで、切り口 dim ろう。 ● れらのテーブルは「xxx_id」列で結合れば良いのろう。 ● 1 らAI 集計るのではな、既に整備れている「按分売上」や「消費税抜」列を使えば良いのろう。 ● AI 事業年度を「4月〜翌3月」と推測るのではな、整備れている「事業年度」列を使えば良いのろう。生成AIによるデータ分析の品質安定、従業員カジュアルに生成AIに頼るとでるようになる。テーブルの形式明確と生成AI 推論やい 208

Slide 209

Slide 209 text

他の有識者の資料 Microsoft PowerBI はディメンショナルモデリング前提となる。Copilot 機能を使う場合もま然り。 https://www.docswell.com/s/yugoes1021/KRXVY2-2024-05-08-213110 メルカリ社のSocrates（分析AIエージェント）はBasic Tables（信頼でるテーブル）に依拠ている。 https://note.com/mercari_data/n/n247a65af9bf5 209

Slide 210

Slide 210 text

1. データ収集：オープンデータ取得やWEBスクレイピングでデータのバリエーション増える。 2. データ加工：カジュアルに構造化データと非構造化データを相互変換でる。 3. メタデータ整備：入力・編集を自動化でる。生成AIにコンテキストを渡めに関連機能充実。 4. DataDevOps改善：データエンジニアリングにる一連の業務プロセスを自動化でる。 5. BizDevOps改善：「データ基盤」と「業務フロー」と「経営」一体化つつある？【再掲】生成AI データプラットフォームにもら 5つの変化 210

Slide 211

Slide 211 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 211 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 212

Slide 212 text

16. DX らAIエージェントへの変遷、データエンジニアリングの未来

Slide 213

Slide 213 text

【再掲】Gemini Enterprise等のAIエージェントによる業務効率化・自動化業務フローを整理て、作業・判断を「システムで完結る」「AI 担う」ように置換えてい ● AIエージェントの設計プロセスについては後述。 ● システム構成はGemini Enterpriseのデータ連携スライドを参照。他システムでも似構成となる。 ● 本資料作成時とGemini Enterpriseはま理想とギャップある。 ○ Google Workspaceとネイティブ連携でる強みら、将来的な進化に期待い。 ○ 直近はDifyやn8nのほう期待像に近い。コード管理もほい。Opal 主流になる。例：法人顧客の離反検知とフォローアップの（半）自動化 1. BigQueryで法人顧客の利用状況を収集 2. 日次集計で離反の可能性を検知（＝事前定義セグメントに分類） 3. Googleカレンダーで営業担当者の空日程を確認 4. Gメールで対象顧客に打合わのアポイントメントを送信 5. Google Slidesで提案スライドの草案を作成 6. Google Docsで打合わ台本の叩台を生成 7. Salesforceにフォローアップ状況を入力・更新 213 https://cloud.google.com/blog/products/ai-machine-learning/bringing-ai-agents-to-enterprises-with-google-agentspace

Slide 214

Slide 214 text

ITエンジニアやWEBマーケターではな、人事や経理などのバックオフィス職（事務職）にも「AIエージェント」や「データエンジニアリング」の考え方必要になるバックオフィス職にもAI＆データ必須の時代 214

Slide 215

Slide 215 text

DXの議論を踏襲つつ、DXとの差分に注目る 215

Slide 216

Slide 216 text

DXの進め方①：現状のリソースの流れを書出「アナログ志向の業務」は「ヒト・モノ」（リソース）の流れに依存ている。 216 自社法務郵便局員相手法務契約書を印刷署名・押印受付配達受付配達受取り受取り署名・押印ヒトヒトヒトモノモノ

Slide 217

Slide 217 text

DXの進め方②：理想のデータの流れを書出「デジタル志向の業務」は「情報」（データ）の流れを最適化る。データ基盤の本来のコンセプト。 217 Input 入力 Processing 加工 Output 出力契約書PDF 自社署名相手署名内容確認締結署名済みPDF 取引記録

Slide 218

Slide 218 text

DXの進め方③：システムで自動化でる箇所を特定るツール導入やシステム化によって「人間」の作業を減ら、ムダ・ムラ・ムリを解消る。 218 Input 入力 Processing 加工 Output 出力契約書PDF 自社署名相手署名内容確認締結署名済みPDF 取引記録 ■ヒトやるべと（入力と確認） ■DXで実現でると（加工と出力）

Slide 219

Slide 219 text

DXの進め方④：システムで置換え後のリソースの流れを書出「デジタル志向の業務」になっ後のフローを書出、業務マニュアル作成やスタッフ研修を行う。システム構築やツール導入で終わりではな、現場業務の落と込みとカルチャー装着まで「変革」る。 219 自社法務 GMOサイン相手法務 PDFアップロード入力・送信受取り入力・送信ヒトヒト情報受取り転送転送 DX

Slide 220

Slide 220 text

Before ら「増やべもの」を追加、「減らべもの」を取り除。のめの予算確保、体制整備、社内営業＆サポートの徹底、ロードマップ策定・推進を行う。 DXの進め方⑤：BeforeとAfterの差分を埋めるの DXプロジェクト 220 After Before 減らもの増やもの契約書PDF、電子契約ツール、 PDFアップロード、電子署名紙の契約書(原本) 署名、捺印、郵送依頼、郵便局員、配達、受取り

Slide 221

Slide 221 text

AIエージェント導入の勘所①：AIで半自動化でる箇所を特定る AI導入によって「人間」の作業＆判断をらに減ら、ムダ・ムラ・ムリを解消る。 221 Input 入力 Processing 加工 Output 出力契約書PDF 自社署名相手署名内容確認締結署名済みPDF 取引記録 ■ヒトやるべと（入力と確認） ■DXで実現でると（加工と出力） ■AI 一部担えると（草案作成＆懸念指摘） NEW!

Slide 222

Slide 222 text

AIエージェント導入の勘所②：AI導入後のリソースの流れを書出業務手順の中にAIエージェントを組み込む。あるいはAIエージェントの中に人間の介在箇所を組み込む。業務マニュアル作成やスタッフ研修を行い、現場業務の落と込みとカルチャー装着まで「変革」る。 222 自社法務担当 GMOサイン相手法務担当 PDFアップロード承認・送信受取り入力・送信ヒトヒト受取り転送転送法務’sサポートAI　　. （ワトソン君）契約書の作成自社記入欄の入力情報 DX AI

Slide 223

Slide 223 text

業務システムやAIシステムを高速開発でるデータテクノロジー台頭 223

Slide 224

Slide 224 text

AIネイティブな時代の「ビジネス」や「オペレーション」の行着先あらゆる事業（ビジネス）や業務（オペレーション）は以下の一連の活動と言える。 ● 何らのリソースを投入（Input）て ● 何らの価値を付加（Processing）て ● 何らの財・サービスを提供（Output）る AIエージェントによって「情報」（データ）の担う部分拡大る。結果、あらゆるビジネスやオペレーション「データエンジニアリング」化る。 ● 「情報」（データ）の流れを制御る中核システム「データ基盤」 ● 「情報」（データ）の流れを制御る活動「データエンジニアリング」 ⇒Development（仕組みの構築）　「データエンジニアリング」と「AIエージェント導入」と「業務定義」と「経営」と一体化る。 ⇒Operations（仕組みの運営）　「データ基盤」と「AIエージェント」と「業務フロー」と「事業運営」と一体化る。 224

Slide 225

Slide 225 text

本日のタイムスケジュール開始目安所要時間アジェンダ ① 11:05 2分はめに ② 11:07 3分自己紹介 ③ 11:10 3分データ活用の事例 ④ 11:13 3分データ基盤の意義 ⑤ 11:17 3分システム構成要素 ⑥ 11:20 3分データ収集 ⑦ 11:23 3分データ加工 ⑧ 11:26 3分データ提供 ⑨ 11:29 3分メタデータ管理 225 開始目安所要時間アジェンダ ⑩ 11:31 3分データ品質 ⑪ (略) 0分データセキュリティ・権限管理 ⑫ (略) 0分コスト管理 ⑬ 11:34 3分継続的開発を支える技術 ⑭ 11:37 3分データ利活用の促進 ⑮ 11:40 9分生成AIによる5つの変化 ⑯ 11:49 3分 DX らAIエージェントへの変遷、データエンジニアリングの未来 ⑰ 11:52 3分わりに - 5,000年前のデータ基盤、 5,000年後のデータ基盤

Slide 226

Slide 226 text

17. わりに - 5,000年前のデータ基盤、5,000年後のデータ基盤

Slide 227

Slide 227 text

世界最古のデータ基盤 5,000年前ら本質は変わっていない。扱える幅当時より少広なっ。 ● メソポタミアの都市ウルクでシュメール人牛の数を記録「粘土板」説（紀元前3,000年） ● 「船乗りの樽」説（同時代にシュメール人船で飲み物を運んとれる詳細は不明） 227 飲み物の残量・推移乗組員の命に直結るKPI 「一」の線即座に読める直感的なUI 節約 or 消費アロケーションの意思決定具体的な行動に直結

Slide 228

Slide 228 text

228 228  穀物の収穫高をどう増や？工場の生産量をどう増や？通販サイトの販売高をどう増や？データを収集・整備・管理・活用るめの「仕組み」（データ基盤）や「取り組み」（データエンジニアリング）必要病気の治療効果をどう増や？飲み水をどう増や？安全な土地をどう増や？配達速度をどう増や？人類はデータと対峙て移動距離をどう増や？歴史や産業を超え普遍性

Slide 229

Slide 229 text

150年前の明治維新を超える「革命」の渦中に私は立っている、 700万年の「人類の歴史」の最前線に私は立っている（と考えるとワクワクまん？） ● 5年後：全企業 AIを活用るめの AI Ready なデータ基盤 ● 15年後：全企業ロボットを活用るめの Robot Ready なデータ基盤 ● 500年後：（気候変動で）全人類エネルギー資源を活用るめの Energy Ready なデータ基盤 ● 5,000年後：（地球の滅亡を見据えて）全人類宇宙進出るめの Space Ready なデータ基盤 5,000年後の「当り前」に向ベストプラクティスを開拓でる時代 229

Slide 230

Slide 230 text

覚悟とは、やられ仕事に甘んる犠牲の心ではないッ！テクノロジーの進化を全身で楽んで！ベストプラクティスやデファクトスタンダード見えない暗闇の荒野に、進むべ道を切り開とッ！「データ活用」にコミットメントると誓いを立て日ら！俺は1日も作業の手を止めとはない！俺は今までよやって！俺はでる奴！て今日も！れらも！テクノロジー変わっても！俺歩みを止めるとは絶対にない！諸君はどう？颯爽る未来圏ら吹いて来る透明な風の音聞えない？ 100年後には（最善ルートでも）灰になって墓の下？ 2-3年後のキャリアに悩むヒマなんないよなぁ〜？？？データエンジニアリングを楽む覚悟はでている？ 5,000年後まで自分の爪痕を残てやろうという気概はある？の激動の時代で命と人生を賭てテクノロジーで遊び尽勇気はある？覚悟はいい？俺はでてる 230

Slide 231

Slide 231 text

データエンジニアリングを楽もう！ 231 データエンジニアリングは、いわば総合格闘技で。データの重要性日々増てい時代、世界中で誰も困っている課題に立向ってい仕事で。エンジニアリングの面白（て難）詰まっ、やりいのある分野で。の発表皆様の業務に少でも役に立てら嬉思いま。

Slide 232

Slide 232 text

【再掲】データエンジニアリングへのモチベーション上っ！というアナタには…… 232

Slide 233

Slide 233 text

累計260ページ・18万文字の超豪華な研修教材を読み、データ基盤構築のハンズオンを行いま。【再掲】データ基盤構築のハンズオン 233

Slide 234

Slide 234 text

データエンジニアへの転職は無理なの！？ 234

Slide 235

Slide 235 text

清聴ありとういま 235 改善サイクルを回、今日よりも良い明日を。 https://kazaneya.com/contact