Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大学のIR担当者になったら知っておきたい 「民間企業におけるデータ基盤の構築・運用」入門 / ...

大学のIR担当者になったら知っておきたい 「民間企業におけるデータ基盤の構築・運用」入門 / 20251021

3大学連携IRシンポジウム「ビジネスデータ基盤の専門家から学ぶ大学IR基盤の作り方」(QWSアカデミア東京都市大学)で行った基調講演の資料です。
https://kazaneya.com/27270d0c5ac880a39107f53f26f6aa64

Avatar for 風音屋 (Kazaneya)

風音屋 (Kazaneya) PRO

October 08, 2025
Tweet

More Decks by 風音屋 (Kazaneya)

Other Decks in Technology

Transcript

  1. 注意事項 1. 本資料は許諾 た範囲内でのみ 利用 だ い。無断転載ならびに複写を禁 ま 。 2.

    本資料に記載 れている会社名・製品名などは、一般に各社の登録商標または商標、商品名で 。資 料内では ©, ®, ™ マーク等は省略 ていただいて りま 。 3. 本資料は特定企業の情報公開や称賛・批判を意図 るものではありま ん。社名 提示 れていない ケーススタディやシステム構成は、原則的に複数企業の事例を踏まえたダミー情報となりま 。 4. 説明を簡略化 るために、用語やツールの紹介は厳密な定義に則っていない場合 ありま 。 自身 や所属チームでの理解・解釈 紹介内容と異なる場合は、適宜読み替えていただ ると幸いで 。 3
  2. 本日の内容 • 大学のIR(インスティテューショナル・リサーチ)担当者に向 て 「民間企業に るデータ基盤の構築・運用」に関 る全体像を 紹介 ま 。

    • 自分たちの立場に置 換えな ら聞いていただ とで、 今後の活動のヒントを持ち帰っていただ ればと思いま 。 https://shibuya-qws.com/event/qws-academia1021 4
  3. ひ「建設的」 つ「能動的」な姿勢で参加いただ ればと思いま 。 の時間を最大限に有効活用 てい ま ょう。 参加にあたっての 願い

    建設的 否定的 受動的 能動的 一般論や正解を 教えてもらう 「うちには当てはまらない」 「◯◯だ ら難 い」 担当業務に当てはめて 「どう たら改善で る 」 と考えな ら聞 5
  4. 登壇者 横山 翔(@yuzutas0) • 株式会社風音屋 代表取締役。 • 国際環境NGO、リクルート、メルカリ、Amazonを経て独立・創業。 • 慶應義塾大学

    経済学部卒。指導教官は吉野直行先生。 • 東京大学 経済学研究科 金融教育研究センター 特任研究員(’23.04〜’25.03)を兼任 、渡辺努先生の研究プロジェクトに従事。 • 独立行政法人情報処理推進機構(IPA)にて情報処理技術者試験委員を兼任(’25.10〜)。 登壇・発表(一部抜粋) • 日本統計学会「第16回春季集会」(企画セッション・パネル討論) • 社会情報学会「SocioInfo #25」(招待講演) • 電子情報通信学会「第54回サイバーワールド研究会」(招待講演) • Pythonのカンファレンス「PyCon JP 2017」にてベストトークアワード優秀賞 • Google主催「Google Cloud Day」(‘21, ‘23),「Google Cloud Next Tokyo」(‘23, ‘25) 執筆・翻訳(一部抜粋) • 内閣府「経済分析 第208号 - 景気動向分析の新たな潮流」 • 講談社サイエンティフィク『アジャイルデータモデリング』 • 技術評論社『実践的データ基盤への処方箋』 コミュニティ活動(一部抜粋) • Google 認定 る技術エキスパート「Google Cloud Champion Innovator / Google Developer Experts」に選出(2023〜) • 延べ参加者15,640人以上の勉強会「Data Engineering Study」の立ち上 ・モデレーター(2020〜2025) • 国内最大規模のWEB技術カンファレンス「Developers Summit」コンテンツ委員会(2022〜2025) 7
  5. 教育・授業(EC取引データによるマーケティング分析) 株式会社風音屋(監訳)『アジャイルデータモデリング』より「国立大学法人 東京大学」の事例 • EC取引データを分析基盤に連携 、学生向 にデータ分析の授業を実施。 ◦ 年1兆円分の取引データ。国内物販のEC市場の約7.5%に相当。 ◦

    店舗や商品の詳細はマスキング済み。NE社は今年上場承認。 • 分析結果をレポートにまとめて、企業の執行役員にプレゼンテーションを行い、 マーケティング活動を推進 る立場 ら実践的なフィードバックを受 る。 9
  6. 古文書データ基盤(解読AI→歴史空間マッピングAI→歴史シミュレーションAI) • 過疎化や少子化によって口伝や文書 埋もれ、後世に継 と 難 なると懸念 れる。 • 写真(画像)や録音(音声)を集約・解読

    、資料の中身を検索可能な形でデータベース化。 資料間の関連や矛盾をナレッジグラフに変換 て「資料A 正 い場合」「仮説B 正 い場合」の 歴史年表や家系図を生成 て妥当性を比較評価 る。 の一連の分析工程をAIにより自動化。 • 例:特定資料群の全主張 正 いと仮定 、天照大御神 ら横山翔まで無理やり結びつ る。 『富岡村誌』「神奈川県立歴史博物館ホームページ」『千福 横山家文書』『裾野市史』 11
  7. 会社概要 大手 らスタートアップまで幅広いクライアント企業のデータ活用を支援 るITコンサルティング企業。 100社のデータ経営を実現 、諸産業の活性化に貢献 る とをミッションと て掲 ていま

    。 支援先(公開事例を一部抜粋・順不同) 株式会社リクルート(総合メディア)、住友化学株式会社(化学メーカー)、株式会社商船三井(海運)、 伊藤忠テクノソリューションズ株式会社(IT)、エイベックス株式会社(エンタテインメント)、 株式会社ビズリーチ(人材採用)、ランサーズ株式会社(クラウドソーシング)、 株式会社クラシコム(EC)、NE株式会社(EC支援)、福岡地所株式会社(不動産)、 マネーフォワードi株式会社(SaaS)、株式会社COMPASS(教育)、株式会社primeNumber(IT)、 株式会社スナックミー(食品)、株式会社ヘラルボニー(アート)、株式会社RENDEZ-VOUS(自動車)、 株式会社PitPa(コンテンツ制作)、株式会社RATEL(esports)、81RAVENS PTE. LTD.(esports)、 の他、自動車メーカー、食品メーカー、小売・スーパー、資材卸売、交通・物流、オフィス管理、 番組制作、出版社、ゲーム制作、金融・保険、マーケティングツール、会計ツール、契約管理ツール、 広告代理店、調査会社、戦略コンサルティング会社、DXコンサルティング会社、スタートアップスタジオ、 仮想通貨など 風音屋( ねや) 13
  8. 横山や風音屋 過去に発信 たアウトプットの一部抜粋 • ビジョン達成の計測。「 の事業 ◯人の生活を支えている」を上場企業の社長室モニターに投影。 • 各指標のモニタリング。売上、会員数、販売数、コンテンツ閲覧数、広告費、顧客対応時間など。 •

    投資家向 報告書やプレスリリースのためのファクトブック。集計データを再現可能な形で管理 る。 • M&A(買収)に るシナジー効果の推定・測定。 データ活用の事例(2/5) 株式会社風音屋(監訳)『アジャイルデータモデリング』より「株式会社クラシコム」「ランサーズ株式会社」の事例 15
  9. 横山や風音屋 過去に発信 たアウトプットの一部抜粋 • 顧客セグメントや商品ジャンル別の傾向分析。ロイヤル顧客の特徴やリピート商品を特定 る。 • キャンペーン施策の効果測定。 の後のリピートに繋 った

    、需要の先食いは起 ていない 。 • エンタテイメント領域に るコンテンツ企画。視聴数 多い曜日・時間帯 ら分析。 • 工場に る製造プロセス改善や機械の故障検知。 データ活用の事例(3/5) 株式会社風音屋(監訳)『アジャイルデータモデリング』より「住友化学株式会社」の事例 16
  10. 横山や風音屋 過去に発信 たアウトプットの一部抜粋 • 顧客データベース管理によって、部署横断での連携や引 継 を2日→10分に短縮。 • 異常検知:SNSの”バズり”を検知 て関連コンテンツを即日提供。過剰アクセスや迷惑投稿のBAN。

    • デジタル広告によるROAS(売上÷広告費)を最大化 るための入札の最適化。 • 物件や船舶などの資産(アセット)の売り買いによるポートフォリオ最適化。 データ活用の事例(4/5) 株式会社風音屋(監訳)『アジャイルデータモデリング』より「エイベックス株式会社」「株式会社商船三井」の事例 17
  11. 横山や風音屋 過去に発信 たアウトプットの一部抜粋 • レコメンド:類似商品の推薦、クリック率を最大化 る表示順、マッチング期待値 高い人材の紹介。 • 経路探索:自動車ドライバーや月面探査機のルート最適化。 •

    動産(アート)や不動産(物件)など交渉で価格 決まる「1点モノ」のプライシング(値付 )。 • 従量課金やレベニューシェア、ダイナミックプライシングによる、取引単価の最大化。 データ活用の事例(5/5) 事業のグロースを支えるDataOpsの現場 https://speakerdeck.com/yuzutas0/20180727 18
  12. 民間企業で起 ている課題 • データ活用やDX(デジタルトランスフォーメーション)、生成AIといった分野 注目 れている 実際にプロジェクトを進めるとデータ整備の課題 次々と浮上 る。 •

    研究者の中には、より多 の時間を分析や論文執筆に費や て早 成果を出 たいと思いな らも、 の前段階のデータ集めや整理・整頓に時間を奪われて まっている方も多いのではない 。 ◦ データ集め 研究の醍醐味なのだと楽 めるのであれば れで良い ……。 ◦ 短期間で利益を追求 ないとい ない民間企業各社で、同 ような問題 起 ている。 用途を 実現で るほど データ品質 高 ない 具体的に どのようにデータを 連携 るの 分 らない 必要なデータ 入力 れていない 20
  13. データ 使えるのは「当たり前」ではない やりたい と 何 必要? どう集める? 「顧客の意見」を 活 て

    快適なカフェ店舗を 作りたい! 店頭で紙の アンケートを集める? SNSでクチコミを 検索 る? ユーザーを招待 て インタビューを行う? 顧客 わ わ 店頭アンケートに答える インセンティブは? 忙 いスタッフ 店頭アンケートを依頼 る インセンティブは? 22 • 「分析結果」や「可視化」は重要だ 、 れ以上に「データ整備」 成否を分 る。 • 研究分野やテーマによっては資料やデータ集め 9割という とも珍 ないのではない 。
  14. 現場Excel運用の弊害 • 同 ような顧客リスト 散在。スタッフ50人 x 1人当たり30シート = 1,500の無秩序なデータ。 •

    データを活用 るには、各部署に問い合わ て、社内データを 集めないとい ない。 • 入力内容にバラツキ。「飲食・宿泊」「飲食店」「飲食業」「レストラン」「レストラ」 混在。 • 管理方法や受 渡 方法など、セキュリティ対応にバラツキ。利用状況のトラッキング 大変。 • 担当者の異動・退職に伴ってデータ 消失 たり、作った本人も詳細を忘れて まったり る。 25 営業 審査 カスタマーサポート リスク 保護◯ リスク リスク 保護◯ 保護◯ 保護◯ 保護◯ 保護◯
  15. SSoTの担保 • SSoT(Single Source of Trust = 信頼で る単一の情報源)の担保 鍵となる。

    • データ分析者 「 を見れば必要なデータ 揃う」と信頼で る「寄る辺」 必要と れている。 https://techcrunch.com/2017/06/23/five-building-blocks-of-a-data-driven-culture/ ならびに https://jp.techcrunch.com/2017/06/25/20170623five-building-blocks-of-a-data-driven-culture/ ※閉鎖済 事実の単一情報源を持っている場合には、 アナリストや他の意思決定者といったエンドユーザーたちに、 優れた価値を提供 る と で る。 彼らは組織内でデータを探 時間 少な て済むようになり、 データの利用により多 の時間を割 と で るようになる らだ。 When you have a single source of truth,you provide superior value to the end user: the analysts and other decision makers. They’ll spend less time hunting for data across the organization and more time using it. Additionally, the data sources are more likely to be organized, documented and joined. Thus, by providing a richer context about the entities of interest, the users are better positioned to leverage the data and find actionable insights. 27
  16. れまでの観点と違う新 い観点でデータを見る 「営業組織別のExcelシート」ではな 「切り口を柔軟に変更で る基盤」 31 繊維 工業 卸小売 飲食業

    宿泊業 チームA 京都府 80 40 60 60 チームB 大阪府 60 60 80 80 チームC 兵庫県 20 80 80 60 チームD 滋賀県 40 20 20 20 市場環境の変化 れまでと違う観点での データ分析 社内外のデータ 根拠のある 意思決定 変化に適応 失敗を検知 マーケット変化への適応 「 れまでは営業組織に合わ てエリア別で数字を見ていた」 「新型コロナの影響 あるは なので業種別で数字を見たい」 「飲食業など店頭サービス業での利用は減少 た 」 「 れらの店舗に対 て何 支援を提供で ない 」 「逆に の状況で伸びている業種はあるのだろう 」 「 れまでと違った利用の急な増加に備えるべ 」
  17. 【分 て】5W1Hで分析の切り口を定める 【比べる】分析軸による差異を比較 る • 「都心の店舗」は「郊外の店舗」より(客数 多い|少ない) • 「今年」は「去年」より(注文総額 多い|少ない)

    • 「バッグ」は「衣類」より(平均単価 高い|低い) • 「高単価の商品」は「低単価の商品」より(レビュー評価 高い|低い) • 「リピーター」は「新規顧客」より(1度の注文点数 多い|少ない) 分析軸(5W1H)の洗い出 、分析軸での比較検討 33 今月 When 切り口 (dim) Who 新規顧客 今月 When 切り口 (dim) Where 渋谷店 What バッグ Where 店舗(≠EC) Who 誰 What 何を When いつ Where ど で Why な How どのように
  18. (一般的に)データ分析では複数の元データを組み合わ る • 「駅近店舗の雨天時の注文数」を分析 るなら「駅」「店舗」「天気」「注文」のデータを集める。 • 住所と緯度・軽度を変換 るといった前処理 必要になり、 のための変換データを取り寄

    る。 36 データの入口 店舗マスタ —————— - 店舗名 - 住所 社内 Excel 駅マスタ —————— - 駅名 - 住所 国土地理 協会 国土 交通省 気象記録 —————— - 日付 - 天候 気象庁 購買記録 —————— - 日付 - 店舗名 - 来客数 POSレジ - 店舗名 - 緯度 - 経度 - 駅名 - 緯度 - 経度 店舗単位で集計 ———————— - 店舗名 - 駅との距離* ———————— *店舗 とに距離 一番 小 い値(=最も近い 駅との組み合わ )だ を絞り込む - 日付 - 天候 - 店舗名 - 来客数 統合・変換 ———————— - 日付 - 天候* - 店舗名 - 駅との距離** - 来客数 ———————— * 1日の最大降水量 ◯mm以上を「雨」、 れ以外を「晴れ」と判 別 る ** ◯km以内を「近 い」、 れ以外を「遠 い」と判別 る データの出口 データの繋 方や加工方法 店舗と駅の組み合わ ——————————— - 店舗名 - 駅名 - 距離* ——————————— *計算式は √((店舗の緯度-駅の緯度)^2 + (店舗の経度-駅の経度)^2) 集計結果 ——————— - 天候 - 駅との距離 - 平均来客数* ——————— * 合計来客数÷(日 付x店舗数)で平均 値を計算 る 変換データ —————— - 住所 - 緯度 - 経度 位置 天候 来店数 想定要因 駅から 近い店舗 晴れ 100人 徒歩で 来店 雨 50人 駅から 遠い店舗 晴れ 80人 自動車で 来店 雨 80人 雨天限定クーポンを 実施 たら 効果 あり う ?
  19. 社内外のデータを一ヶ所に集約 る • 事前にデータを一元管理 て ば、分析者 都度データを取り寄 る必要 な なる。

    • 以下は登壇者 メルカリ社で構築 たデータ基盤の構成図を一部抜粋 たもの。 ◦ 営業管理ツール、 問い合わ 対応の記録、人事マスタといったデータをBigQueryに集約。 ◦ BigQueryはデータウェアハウス(DWH)と呼ばれる分析用データベース製品の1つ。後述。 37 Salesforce:加盟店営業 社内外のデータ DWH kintone:加盟店管理 Zendesk:顧客サポート JIRA:チケット管理 Workday:人事マスタ BigQuery
  20. 一連の処理をパイプラインと て管理 る • データの統合や加工を実現 るためのテクノロジー 存在 る。 • れらのテクノロジーを組み合わ

    てシステムを構築 る。詳細は後述。 39 データ 取得元C データ 取得元B データ収集プログラム (ETL) データウェアハウス (分析環境) 元データ 加工 データ データ加工・変換 (ELT) ワークフロー (処理の流れを横断管理) データ 取得元A https://learn.microsoft.com/en-us/azure/data-factory/iterative-development-debugging
  21. @yuzutas0のデータ基盤の定義 • データ基盤とは「複数のユースケース」(利用者)と 「複数のデータソース」(情報源)をリボンのように結びつ る 一連の(ITシステムに閉 ない)サービス群である。 • システムを構築 たり、データを集めるだ

    ではな 、 集めたデータを利用者に届 る と 重要になる。 41 DWH データソース ユースケース Salesforce:加盟店営業 kintone:加盟店管理 Zendesk:顧客サポート JIRA:チケット管理 Workday:人事マスタ 営業活動のファネル可視化 エンジニア組織の稼働可視化 QA チームによるバグ分析 社内ツールのアカウント更新、 グループ紐付 を自動化 オペレーションスタッフの 運用業務をクイックに立ち上 &成果をトラッキング BigQuery
  22. 根底にあるのは継続的に改善 る文化 「ま はExcelでのデータ分析 ら始めよう!」の落と 穴 • 操作内容やデータ形式によっては、システムによる自動化と相性 悪い。 •

    モダンなデータテクノロジーのほう 、PDFや画像ファイルの処理などAI活用 進んでいる。 • Excelで分析 るためのデータを誰 ど ら持って る必要 ある。 →専用の基盤システム ない状態 = 迅速に、安定 て、繰り返 データを抽出で ない状態。 「毎日データを見る と」の必要性 • 今日の売上はい ら?1年前に比べて増えた? 1週間前に比べて増えた? 1日前に比べて増えた? • 何人の 客様 今月も継続 ている?何人 離脱 た? 継続や離脱の傾向は去年と変わっていない? • のまま何も手を打たな てOK?自社の長期的利益を最大化 るためにベストを尽 ている? → 改善サイクルを「数年で回 組織」と「数日で回 組織」に二極化 ている。 → 「データ 見えていない状態」に対 て、ステークホルダーは不安・懸念を覚える。 45
  23. データ活用のサイクルを回 る企業 製品・商品 プロダクト 顧客・消費者 ユーザー 統合 業務データ、行動ログ データ基盤 生成

    開発、施策、業務 活用 価値 46 • サービス提供に伴い、データ 生成 れる。 • のデータを統合 、活用 る とで、 らなるサービス提供を実現で るようになる。 • データにまつわる(青い背景の)箇所 データエンジニアリングの対象領域。
  24. データ活用の流れ(カフェのビジネスで例えると……) ◯◯ ん カフェラテを注文 (消費) リラックス (効用) 統合 注文履歴 会員登録

    データ基盤 ・購買データ ・顧客データ 生成 新商品の開発 リピーター割引券 活用 価値 ☕ 47 • サービス提供に伴い、データ 生成 れる。 • のデータを統合 、活用 る とで、 らなるサービス提供を実現で るようになる。 • データにまつわる(青い背景の)箇所 データエンジニアリングの対象領域。
  25. 主な技術要素 49 データ 取得元C データ 取得元B データ収集プログラム (ETL) データウェアハウス (分析環境)

    BIツール / ダッシュボード アドホック集計 業務自動化 例:メルマガ配信 元データ 加工 データ データ加工・変換 (ELT) ワークフロー (処理の流れを横断管理) データカタログ (データの説明) データ 取得元A データ連携プログラム (Reverse ETL) 権限管理 監査ログ
  26. 主な技術要素 50 データ 取得元C データ 取得元B データ収集プログラム (ETL) データウェアハウス (分析環境)

    BIツール / ダッシュボード アドホック集計 業務自動化 例:メルマガ配信 元データ 加工 データ データ加工・変換 (ELT) ワークフロー (処理の流れを横断管理) データカタログ (データの説明) データ 取得元A データ連携プログラム (Reverse ETL) 権限管理 監査ログ
  27. BI(Business Intelligence)ツール • グラフ可視化やダッシュボード構築に特化 たツール。「分析ツール」と て分 りや い。 • Googleアカウント

    あれば Looker Studio をWEBブラウザで利用で る。基本料金は無料。 • 日本で有名な利用事例と ては、クリスプ・サラダワークス ん Looker StudioでKPIを全公開。 • https://lookerstudio.google.com/gallery • https://lookerstudio.google.com/u/0/reporting/01c05c49-dbc4-464b-aa9a-0a9ff0b97e7b/page/pcEJC 51
  28. 主な技術要素 52 データ 取得元C データ 取得元B データ収集プログラム (ETL) データウェアハウス (分析環境)

    BIツール / ダッシュボード アドホック集計 業務自動化 例:メルマガ配信 元データ 加工 データ データ加工・変換 (ELT) ワークフロー (処理の流れを横断管理) データカタログ (データの説明) データ 取得元A データ連携プログラム (Reverse ETL) 権限管理 監査ログ
  29. DWH(データウェアハウス)製品 • 大規模データの保存や集計に適 たデータベース。データエンジニアリングの中核となる存在。 • Googleアカウント あれば、BigQuery WEBブラウザで利用で る。月1TBまでの集計 無料。

    • SQLと呼ばれるデータベース言語を使ってデータの抽出・集計を行う。 ◦ 例えば「SELECT name FROM customers WHERE prefecture = “東京都”」だと 「氏名を取得 よ」「顧客リスト ら」「東京都で絞り込んで」という指示になる。 53 SQLを書く データを見る 実行する
  30. 主な技術要素 55 データ 取得元C データ 取得元B データ収集プログラム (ETL) データウェアハウス (分析環境)

    BIツール / ダッシュボード アドホック集計 業務自動化 例:メルマガ配信 元データ 加工 データ データ加工・変換 (ELT) ワークフロー (処理の流れを横断管理) データカタログ (データの説明) データ 取得元A データ連携プログラム (Reverse ETL) 権限管理 監査ログ
  31. ETL(Extract / Transform / Load)ツール データの抽出・変換・格納を行うツール • 例:設定ファイルとプラグインで様々なデータベース間のデータ転送を実現で るEmbulk •

    転送元(Source) ら転送先(Target)へのマッピングを定義 てフォーマットの差異を吸収 る in: type: mysql host: HOST_NAME user: USER_NAME password: PASSWORD database: DATABASE_NAME table: purchase select: id, user_id, title, contents, created_at, updated_at out: type: bigquery auth_method: json_key json_keyfile: *****.json path_prefix: /tmp file_ext: .csv.gz source_format: CSV project: BQ_PROJECT dataset: postapp__datalake__mysql auto_create_table: true schema_file: article.json formatter: {type: csv, charset: UTF-8, delimiter: ',', header_line: false} Out (target) In (source) 56
  32. 用語解説:ETL、ELT、ReverseETL ①狭義のETL(処理/ツール):外部 らDWH製品へデータを連携・統合。  外部 らデータをE(抽出)→DWH製品 読み取れる形式にT(変換)→DWH製品にL(格納) る。 ②ELT(処理/ツール):DWH製品の中でデータを加工。  DWHにL(格納) れたデータをT(変換)

    るので①のE→T→Lと対比 る意図でE→L→Tと呼ぶ。 ③ReverseETL(処理/ツール):DWH製品 ら他システムへデータを連携・転送。  他システム らデータを取り込む①の逆(Reverse)なのでReverseETLと呼ぶ。 ④広義のETL(処理/ツール):上記3つを含んだ一般的なデータの加工・転送の総称。  元は④想定で数々のETLツール 誕生 た 、多 のPJで①に関心 偏り、①の機能強化 優先 れた。   の後、②や③のニーズ 顕在化 た とで、専用ツール 登場 、①に対 て②③を名乗る。 データソース DWH製品 社内システムや 外部ツール 元データのコピー 加工済みデータ Reverse ETL処理 Reverse ETLツール ELT処理 ELTツール 広義のETL処理 広義のETLツール 狭義のETL処理 狭義のETLツール ① ② ③ ④ 57
  33. マスキング処理 データ加工によって機密レベルを下 る とで、データの活用場所を広 る。 • 置換:特定の値を置 換える。 「埼玉県は最高だ」→「***は最高だ」(組織で「埼玉県」 禁句となっている場合)

    • 表現形式マスキング:該当項目に含まれる全ての値を置 換える。 「id:1, name:麻実 麗」「id:2, name:白鵬堂 百美」→「id:1, 氏名:***」「id:2, 氏名:***」 • 暗号化/ハッシュ化:値を置 換える。同 値は同 変換結果になるので、分 て集計で る。 「id:1, name:麻実 麗」「id:2, name:白鵬堂 百美」→「id:1, 氏名:abc」「id:2, 氏名:def」 • シャッフル:データを入れ替える。 「id:1, 金額:500」「id:2, 金額:300」→「id:1, 金額:300」「id:2, 金額:500」 • 分散:値や時間を前後 る。 「500円」→「450円」〜「550円」、「1月15日」→「1月13日」〜「1月17日」 58
  34. 生成AIによる「非構造化データ」⇔「構造化データ」の変換 生成AIによる「非構造化データ」 ら「構造化データ」への変換(以下は例) • 商品名のテキスト → 商品カテゴリーの分類 → カテゴリー別の売上集計 可能になる

    • 自動車 撮影 た路面写真 → リスク要因のラベリング → 走行データと合わ て事故予測の精度向上 生成AIによる「構造化データ」 ら「非構造化データ」への変換(以下は例) • 商品の在庫や注文のデータ → 今日推 べ 商品で「 んな人 買ってま 」訴求文面を生成 • 企業の募集要項と求職者の履歴書 → 条件ミスマッチを緩和 るための修正提案メッセージを作成 59 風音屋TechTalk #4 発表資料より 非構造化データ データパイプライン 構造化データ 非構造化データ ①生成AIで前処理 ②生成AIで出力作成
  35. 構造化データ • 行(横)と列(縦)のテーブル(表)で表現で るデータ。 • 従来のデータベース 前提と ている形式であり、最も安定 てデータを管理・利用で る。

    非構造化データ • 表形式で表 ないデータ。画像、動画、音声、PDFなど。 • AI技術の発展に伴い、非構造化データを扱うツール 急進化 ている。 • プログラムでのテキスト処理 容易なJSONやXMLを「半構造化データ」と区別 る ともある。 用語解説:構造化データと非構造化データ 60 id 決済日付 決済利用者 加盟店 金額 100 2022-03-01 Aさん いろは商店 900円 101 2022-03-02 Bさん いろは商店 700円 102 2022-03-03 Cさん にほへ屋 1,100円 103 2022-03-04 Dさん にほへ屋 800円 レコード (行) カラム (列)
  36. 主な技術要素 62 データ 取得元C データ 取得元B データ収集プログラム (ETL) データウェアハウス (分析環境)

    BIツール / ダッシュボード アドホック集計 業務自動化 例:メルマガ配信 元データ 加工 データ データ加工・変換 (ELT) ワークフロー (処理の流れを横断管理) データカタログ (データの説明) データ 取得元A データ連携プログラム (Reverse ETL) 権限管理 監査ログ
  37. ワークフローエンジン • 一連の処理の流れを管理 るツール。 • 「ある処理A 完了 たら、次の処理Bを実行 る」といった制御 可能。

    1. 他システム ら顧客一覧データを取得 る。 2. データを加工・集計 、メルマガ配信リストを作成 る。 3. メルマガ配信ツールに対象者リストを送る。 63 風音屋のMENTA講座の資料より https://learn.microsoft.com/en-us/azure/data-factory/iterative-development-debugging
  38. 主な技術要素 64 データ 取得元C データ 取得元B データ収集プログラム (ETL) データウェアハウス (分析環境)

    BIツール / ダッシュボード アドホック集計 業務自動化 例:メルマガ配信 元データ 加工 データ データ加工・変換 (ELT) ワークフロー (処理の流れを横断管理) データカタログ (データの説明) データ 取得元A データ連携プログラム (Reverse ETL) 権限管理 監査ログ
  39. データカタログ • 社内データを検索 たり、データの特徴や注意点を調べる と で るツール。 ◦ 「user」で検索 るとユーザーに関連

    る社内データを見つ られる。 • データの最終更新日や他にどのような項目 含まれている といった情報も確認で る。 • 「個人情報を含む」といったタグ付 (PIIタギング)を行えるものもある。 ◦ 特定の部署以外 アクセス ると、PIIタグ ついたデータは中身をマスキング る。 ◦ 担当者同士 Excelでやり取りを るよりも安全。 65 風音屋のMENTA講座の資料より https://learn.microsoft.com/ja-jp/purview/concept-best-practices-annotating-data
  40. 主な技術要素 67 データ 取得元C データ 取得元B データ収集プログラム (ETL) データウェアハウス (分析環境)

    BIツール / ダッシュボード アドホック集計 業務自動化 例:メルマガ配信 元データ 加工 データ データ加工・変換 (ELT) ワークフロー (処理の流れを横断管理) データカタログ (データの説明) データ 取得元A データ連携プログラム (Reverse ETL) 権限管理 監査ログ
  41. • アクセス管理機能。「誰 」「どのデータに」(どのシステムに)アクセスで る を設定 る。 • Google Cloudで権限管理を使う場合、Google Driveのフォルダ権限管理と同

    で、Google Groups (メーリングリスト機能)のグループに対 て、データ参照の権限を付与 る と で る。 ◦ 入退社や部署異動の手続 でGoogle Groupsを使っている場合は、同 要領で管理で る。 ◦ 担当者同士 Excelでやり取りを るよりも安全。 IAM(Identity and Access Management) 68 A ん@kazaneya.com B ん@kazaneya.com C ん@kazaneya.com D部署@kazaneya.com E案件@kazaneya.com F職種@kazaneya.com E案件の受領データ D部署 管理 るデータ 研修用のデータ データ利用者 Google Groups BigQueryのデータ IAM 編集権限 閲覧権限 編集権限
  42. 主な技術要素 69 データ 取得元C データ 取得元B データ収集プログラム (ETL) データウェアハウス (分析環境)

    BIツール / ダッシュボード アドホック集計 業務自動化 例:メルマガ配信 元データ 加工 データ データ加工・変換 (ELT) ワークフロー (処理の流れを横断管理) データカタログ (データの説明) データ 取得元A データ連携プログラム (Reverse ETL) 権限管理 監査ログ
  43. 監査ログ • データへのアクセス記録を残 、後 ら監査を行う と で るログ。 • 監査ログを確認

    ると「誰 」「いつ」「どのデータに」アクセス たの 分 る。 • 各クラウドサービスで標準機能と て提供 れている。 ◦ 担当者同士 Excelでやり取りを るよりも安全。 70
  44. データ基盤構築のROIを説明で ない問題 ROIを説明で な て困っているあなた 「国民に水道 必要なのと同 で、現代企業にはデータ 必要だ!」 「水道インフラを整備

    るようにデータ基盤を整備 べ !」 「 の会社にはデータを継続的に使うカルチャー な て理解 れない!」 ROIを説明 てほ いステークホルダー 「商品 (活用施策) 見えていないのに工場 (システム) を作ろうと ている?」 「 の工場に 金や人員をどの らい割 ば良いの 分 らない……」 72
  45. リプレイス作戦(ジョブ理論) データ活用を始めて ら集計作業をシステムに置 換える 集計作業のムダ・ムラ・ムリを減ら る新規構築(または既存改修)を行う 例) 毎月◦日を費や てレポートを作成 →わ

    わ 作業 とも毎日レポート 更新 れる状態に る 74 データ活用 開始1ヶ月目 (繰り返 ) データ活用 開始2ヶ月目 データ活用 開始nヶ月目 手動作業 リプレイス
  46. 繰り返 で徐々に基盤を整備 る 個々のプロジェクト • 商品 (活用施策) を踏まえて工場 (システム) を増築

    てい • 短期的なROIをもとに 金や人員を割 結果と て達成 る状態 • 水道インフラのようにデータ基盤 整備 れた状態 • データを継続的に使うカルチャー 定着 た状態 75 ROIを考慮 た プロジェクト ROIを考慮 た プロジェクト ROIを考慮 た プロジェクト ROIを考慮 た プロジェクト
  47. • ツールの使い方や業務フローを回 ための講座・ハンズオンを実施 る。 • データ利用者 定期的に集まって、事例を共有 たり、悩みを相談 あえる場を作る。 •

    積極的にデータを活用 ている人たちをData Championと て社内表彰 、 人事評価の自己PR欄に記載で るように る。 トレーニングや勉強会を提供 る 78
  48. データ利用状況のモニタリング 79 データ別の利用状況 チーム別の利用状況 チームA チームB チームC チームD チームE チームF

    チームG チームH 生ログ 独自利用 データT支援 業務依頼 データT支援 データ出力 自主的 データ出力 担当者 依存 担当者 依存 自主的 データ生成 他チーム 依頼 基盤貢献! 担当者 依存 担当者 依存 局所化の壁 自走の壁 改善の壁 • 「システムを構築 て終わり」ではな 「データ 使われている 」を定期的にモニタリング る。 • 利用状況を踏まえて「どの部署に」「どのようなデータを」提供 るべ を検討 る。
  49. データ管理者(データスチュワード) 担う運用業務 81 仕様調査 問い合わ 対応 データ利用者の 要求や要望 データスチュワード データソース

    データ オーナー 購買DB 商品マスタ 広告ログ ユースケース データ ユーザー Pythonで 分析 クーポン 配信 BIツール 可視化 DWH データ オーナー データ オーナー データ ユーザー データ ユーザー データ生成者の 事情や背景 • データ生成者(データオーナー)には、データソースに関 る事情や背景を聞いて、仕様調査 る。 • データ利用者(データユーザー)には、ユースケースに関 る要求・要望を受 て、依頼対応 る。
  50. データ生成者とデータ利用者のフィードバックサイクルを回 82 データスチュワード データソース データ オーナー 購買DB 商品マスタ 広告ログ ユースケース

    データ ユーザー Pythonで 分析 クーポン 配信 BIツール 可視化 DWH データ オーナー データ オーナー データ ユーザー データ ユーザー データ管理者(データスチュワード) 両者を仲介 る役割となって、品質水準を最適化 てい 。 ういう事情 ある 分 ってほ い なるほど! ゃあ うやって データを作るね! なるほど! ゃあ うやって データを使うね! ういう要求 ある 対応 てほ い
  51. 品質水準(サービスレベル)をステークホルダーと合意 る • データに わる部署や用途 とに、暗黙的に期待 れている品質目標を洗い出 。 ◦ 誰も望んでいないのに過剰な目標を追って

    まうと、徒労で終わって まう。 ◦ 利用頻度の低いデータのエラー対応で疲弊 ても本末転倒。 • 品質目標を明文化 て関係者と合意 て、SLA(サービスレベル合意)と て定める。 ◦ 業界の汎用SLA あるわ ではな 、ビジネス要求やシステムによって変わりうる。 83 例 用途 約束相手 連絡先 利用データ 期待品質 未達時の影響範囲 1 日次 レポート マーケター Slack #daily_kpi BigQueryの売 上テーブル 毎営業日の8時までに 欠損な 前日売上 レポート れる と 売上状況に応 た 施策 打てな なる (機会損失) 2 … … … … … … 3 … … … … … … … … … … … … …
  52. 品質チェック&チューニング • データ品質を自動でチェック る ◦ 集計処理のエラー ◦ データの件数(0件) ◦ 値の範囲(マイナス)

    ◦ 文字数(0文字、空白) • データ品質向上のためのチューニングを行う ◦ 品質の目標と現状のギャップ 大 い箇所(ボトルネック)を特定 、原因を特定 る。 ◦ 例えば、「朝8時までに売上集計を終わら る」(即時性) 担保 れていない場合、 集計処理のうちどの部分に時間 っているの を確認 る。 84 処理時間 最も長い箇所(=ボトルネック)をチューニング る
  53. 風音屋 定義 るデータ品質の5分類 数十種類の「データ品質」を大ま にまとめると以下の5種類になる。①〜⑤の順に依存関係 ある。 例:① 不十分だと②〜⑤を正確に計測で ない。② 不十分だと③で見るべ

    データ 存在 ない。 85 ②データ 適切な場所に置 れている (可用性・即時性・最新性・回復性・移植性) ③データの中身 現実を正確に表現 ている (正確性⊇完全性、一意性、一貫性、有効性、精度) ④適切な人 適切なデータにアクセスで る (アクセシビリティ・機密性) ⑤データ 使いや い状態になっている (ユーザビリティ⊇理解性、効率性、標準適合性) ①活動を追跡で る(追跡可能性・信憑性)
  54. 1つ1つの取り組みは小 始める と で る 毎週30分だ でも良いので、1つだ でも良いので、前に進めま ょう。 •

    とりあえ 30分で「利用者向 のガイド」を書 ま ょう。 • とりあえ 30分で「利用者向 の説明会」を開催 ま ょう。 • とりあえ 30分で「利用状況のアンケート」に回答 てもらいま ょう。 • とりあえ 30分で「データ利用の問い合わ 」に対応 ま ょう。 • とりあえ 30分で「データ生成時の事情や制約」をヒアリング ま ょう。 • とりあえ 30分で「データの更新タイミング」の説明を書 ま ょう。 • とりあえ 30分で「データの中身 正確 」をチェック ま ょう。 88
  55. 民間企業は同 困難を乗り越えて た 予算 ない?理解 れない?評価 れない? 民間企業でも同 ような課題は起 ていま

    。 れを乗り越えた人たち 褒め称えられているので 。 実際によ あるケースと ては…… 1. データ基盤の専任部署もないまま、別業務を担当 る傍ら、3ヶ月で小 システムを作る。 2. 経営陣の理解を得られない。誰 らも評価 れない。予算 つ ない。地味にコツコツと続 る。 3. 何 の っ で、徐々に利用者 広 ってい 。 4. 数年後になるといつの間に 数百アカウント 使っている。 5. カンファレンスに呼ばれて、 れっぽい話を る。 6. メディアに取材を受 たのを機に、経営陣 やる気を出 て予算をつ て れる。 7. ようや 当初やりた った とに挑戦で るようになる。 まで長 った……! 8. ら 本番だ! 当然な ら 金の流れ 違うので、アカデミアより民間企業のほう 進んでいる部分もあるで ょう。 の差を「行動 ない言い訳」ではな 「ショートカットのヒント」に使ってみてはい で ょう 。 89
  56. 隣の芝生は青い 、冷静に考えれば分 るは カンファレンスだとTableauやSnowflakeを数百アカウント単位で契約 た企業の事例 出て るって? れ 当然 のように発信

    れているって?だ ら大学よりも企業のほう 圧倒的に恵まれているって? 典型的なサンプリングバイアスではないで ょう ! の事例 母集団全体の特徴を正 反映 ていると思いま ? 注目 べ 異常値だ らフィーチャー れているのではないで ょう 。 企業の数 大学の数よりも多いのだ ら、成功例の件数 多いのは自然ではないで ょう 。 「民間企業の事例発表」というゲームのモデルを考えま ょう! の事例を扱う とで各経済主体にどのような利得 生 ると思いま ? ベンダー 大型受注を たい ら意図的に目立た ているのではないで ょう 。 「あの会社は数百人 使っている」と上司を説得 るための材料を提供 ているのではないで ょう 。 時系列や発展段階の観点を加えま ょう! の事例を発表 ている人たちはあなたと同 タイミングで取り組みを始めたので ? 大抵のケースでは数年を費や て徐々に社内の信頼を得ていったのではないで ょう 。 あなたも今 ら始めたら数年後には同 立場になっている可能性 あると思いま ん 。 …… うで 。次にIRシンポジウムで発表 る側に回るのは、あなたで ! 90