Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Excelデータ分析で学ぶディメンショナルモデリング ~アジャイルデータモデリングへ向けて~ ...

Excelデータ分析で学ぶディメンショナルモデリング ~アジャイルデータモデリングへ向けて~ by @Kazaneya_PR / 20251126

技術カンファレンス「Modeling Forum 2025」の資料です。https://kazaneya.com/28770d0c5ac8808cacaef37f134de965

Avatar for 風音屋 (Kazaneya)

風音屋 (Kazaneya) PRO

November 25, 2025
Tweet

More Decks by 風音屋 (Kazaneya)

Other Decks in Technology

Transcript

  1. 注意事項 1. 本資料は許諾した範囲内でのみご利用 ださい。無断転載ならびに複写を禁じます。 2. 本資料に記載されている会社名・製品名などは、一般に各社の登録商標または商標、商品名です。 資料内では ©, ®, ™

    マーク等は省略させていただいて ります。 3. 本資料は特定企業の情報公開や称賛・批判を意図するものではありません。社名 提示されていない ケーススタディやシステム構成は、原則的に複数企業の事例を踏まえたダミー情報となります。 4. 説明を簡略化するために、用語やツールの紹介は厳密な定義に則っていない場合 あります。ご自身 や所属チームでの理解・解釈 紹介内容と異なる場合は、適宜読み替えていただけると幸いです。 3
  2. 本講演について # 開始目安 所要時間 アジェンダ ① 14:20 3分 はじめに ②

    14:23 5分 Excelでデータ分析をはじめよう! ③ 14:28 5分 営業地域別のデータvs業種別のレポート ④ 14:33 5分 どのデータをどう組み合わせるの? ⑤ 14:38 5分 欲しいのは「切り口」と「集計対象」だ! ⑥ 14:43 5分 ビジネスイベントをモデル化しよう ⑦ 14:48 5分 5W1Hをモデル化しよう ⑧ 14:53 5分 チーム 変わる、データモデル 変わる ⑨ 14:58 5分 ビジネス 変わる、データモデル 変わる ⑩ 15:03 5分 AIエージェントを信頼するために ⑪ 15:08 2分 わりに                     <概要> データ分析に適したテーブル設計の手法としてディメンショナルモデリング あります。 この講演では「Excelでのデータ分析」を題材にして、 初学者の方々にディメンショナルモデリングの概要をご紹介で ればと思います。                     <目次>  4
  3. 登壇者 横山 翔(@yuzutas0) • リクルートやメルカリにてデータ活用を推進した後、AWSを経て独立し、株式会社風音屋を創業 • 広告配信の最適化、店舗営業のインセンティブ改善など、データ分析によって数億円規模のインパクトを創出 • 独立行政法人情報処理推進機構(IPA)にて情報処理技術者試験委員を兼任(2025〜) •

    東京大学 経済学研究科 金融教育研究センター 特任研究員を兼任(2023〜2025) 主な登壇・発表 • Pythonのカンファレンス「PyCon JP 2017」にてベストトークアワード優秀賞 • 翔泳社主催「Developers Summit 2018 Summer」にてベストスピーカー賞 • Google主催「Google Cloud Day」(‘21, ‘23),「Google Cloud Next Tokyo」(‘23, ‘25) • 日本統計学会 第16回春季集会 主な執筆・翻訳・出版 • 講談社サイエンティフィク『アジャイルデータモデリング』 • 技術評論社『実践的データ基盤への処方箋』 • 技術評論社『Software Design 2020年7月号 - ログ分析特集』『同 2025年7月号 - SQL特集』 • 風音屋『データマネジメント 30分でわ る本』 • 内閣府「経済分析 第208号 - 景気動向分析の新たな潮流」 主なコミュニティ活動 • Google 認定する技術エキスパート「Google Cloud Champion Innovator / Google Developer Experts」に選出(2023〜) • 1,800人以上 参加するSlackコミュニティ「datatech-jp」の立ち上げ・運営 • 延べ参加者15,640人以上の勉強会「Data Engineering Study」の立ち上げ・モデレーター(2020〜2025) • 国内最大規模の技術カンファレンス「Developers Summit」コンテンツ委員会(2022〜2026) 5
  4. 大手 らスタートアップまで幅広いクライアント企業のデータ活用を支援するITコンサルティング企業。 100社のデータ経営を実現し、諸産業の活性化に貢献することをミッションとして掲げています。 データエンジニアたち 技術相談やノウハウ共有しあう副業ギルドとして始まり、 日本全国 ら多数のご相談・ご要望を受けて法人化。 ステークホルダーの皆様にご協力いただ な ら、会社組織としてアジャイルに成長して

    ました。 スタートアップCEO らの推薦コメント 風音屋( ざねや) 6 ご支援先(一部抜粋)     • ランサーズ株式会社 • エイベックス株式会社 • 株式会社クラシコム • 株式会社商船三井 • 株式会社ビズリーチ • NE株式会社 • 株式会社リクルート • 福岡地所株式会社 • 住友化学株式会社
  5. 「Excelで学ぶデータマネジメント入門」研修 & 風音屋データマネジメント検定 9 【研修実績】 • 全社研修:500名の社員にデータマネジメントの全体像と勘所をインプット • 新入社員研修:ゼミのレポートを題材として、データ管理の Do’s

    & Don’ts を学習 • IT部門研修:データ基盤の実践的なシステム構成例、開発・運用プロセスまで踏み込んでご紹介 【ポイント①】Excelファイルに例えな らデータマネジメントの作法を解説 • 「Excelファイルで◯◯を工夫するのと同じように、本格的なITシステムでは〜」フォーマットで説明 • 業務部門とIT部門 スムーズに連携で るように知識の橋渡しを行う 【ポイント②】理解度チェックテスト(風音屋データマネジメント検定)を活用した柔軟な研修デザイン • 講義の前と後にテスト → 研修による学習効果を計測・評価 • 分割講義で都度テスト → 講義内容の理解をサポート • 満点獲得まで繰り返し → 講義内容の理解を徹底強制し、セキュリティテストと同じ位置付けに • 講義の後に単発テスト → 組織アセスメントや人事評価、配属検討に利用可能
  6. 構造化データ • 行(横)と列(縦)のテーブル(表)で表現で るデータ。 • 従来のデータベース 前提としている形式であり、最も安定してデータを管理・利用で る。 非構造化データ •

    表形式で表せないデータ。画像、動画、音声、PDFなど。 • AI技術の発展に伴い、非構造化データを扱うツール 急進化している 、どれもまだ発展途上。 • プログラムでのテキスト処理 簡単なJSONやXMLを「半構造化データ」と区別することもある。 今回は構造化データを扱うことを想定 17 id 決済日付 決済利用者 加盟店 金額 100 2022-03-01 Aさん いろは商店 900円 101 2022-03-02 Bさん いろは商店 700円 102 2022-03-03 Cさん にほへ屋 1,100円 103 2022-03-04 Dさん にほへ屋 800円 レコード (行) カラム (列)
  7. テーブルの関係性を表現したER図 • データ同士の関係性を図示したものをER図(Entity Relationship Diagram)と呼ぶ • 「ID」や「コード値」と呼ばれる情報で複数のテーブルを結合で るようにする • なるべ

    細 テーブルを分けてい (正規化する)とデータの更新箇所 最小限で済む 例:購買履歴データのER図 18 ゆずたそ(共著)『実践的データ基盤への処方箋』より引用
  8. • データの可視化や統計処理のために、ローデータを貼り付けて、必要なテーブル形式に変換する。 • 最終的なテーブルの形(データモデル)は正規形ではな 、分析要件にもとづ ものになる。 Excelでのデータ分析に けるテーブル作成 21 月次集計テーブル(シート③)

    注文年月 カテゴリ名 注文件数_総計 注文金額_総計 xxx xxx xxx xxx xxx xxx xxx xxx 商品テーブル(シート②) 商品id 商品名 カテゴリ名 xxx xxx xxx xxx xxx xxx 園芸品 ローデータ 集計データ 可視化 調理器具 清掃 注文テーブル(シート①) 注文id 顧客id 商品id 注文日時 注文金額 xxx xxx xxx xxx xxx xxx xxx xxx xxx xxx シート④
  9. 本講演について 22 # 開始目安 所要時間 アジェンダ ① 14:20 3分 はじめに

    ② 14:23 5分 Excelでデータ分析をはじめよう! ③ 14:28 5分 営業地域別のデータvs業種別のレポート ④ 14:33 5分 どのデータをどう組み合わせるの? ⑤ 14:38 5分 欲しいのは「切り口」と「集計対象」だ! ⑥ 14:43 5分 ビジネスイベントをモデル化しよう ⑦ 14:48 5分 5W1Hをモデル化しよう ⑧ 14:53 5分 チーム 変わる、データモデル 変わる ⑨ 14:58 5分 ビジネス 変わる、データモデル 変わる ⑩ 15:03 5分 AIエージェントを信頼するために ⑪ 15:08 2分 わりに                     <概要> データ分析に適したテーブル設計の手法としてディメンショナルモデリング あります。 この講演では「Excelでのデータ分析」を題材にして、 初学者の方々にディメンショナルモデリングの概要をご紹介で ればと思います。                     <目次> 
  10. 1週目 2週目 3週目 4週目 5週目 • 地域別でデータを作成・管理 ◦ 営業組織(担当エリア制)に合わせてエリア別でフォルダを管理 ◦

    年月ごとにシートを管理 • 【地域x年月】でモニタリング ◦ 【この部署xこの月】の営業活動 順調に進んでいる ? ◦ 【この部署xこの月】の予算目標を無事に達成で る ? 日々の業務要件に適した形(=営業地域別)でデータを管理し ち 24 京都府 大阪府 兵庫県 滋賀県 奈良県 1月 2月 3月 n月 1月 2月 3月 n月 1月 2月 3月 n月 1月 2月 3月 n月 1月 2月 3月 n月 和歌山県 1月 2月 3月 n月 リード 商談 契約 京都支部 110 65 10 奈良支部 80 40 20 大阪支部 200 120 55 予算 実績 トレンド
  11. マーケット変化への適応 「これまでは営業組織に合わせてエリア別で数字を見ていた」 「新型コロナの影響 あるはずなので業種別で数字を見たい」 「飲食業など店頭サービス業での利用は減少した 」 「それらの店舗に対して何 支援を提供で ない 」

    「逆にこの状況で伸びている業種はあるのだろう 」 「これまでと違った利用の急な増加に備えるべ 」 当初は想定していな った観点(=業種別)でレポートを作りた なる 25 京都府 大阪府 奈良県 1月 2月 3月 n月 1月 2月 3月 n月 1月 2月 3月 n月 顧客id 社名 地域 業種 xxx xxx xxx xxx xxx xxx xxx xxx 顧客id 社名 地域 業種 xxx xxx xxx xxx xxx xxx xxx xxx 顧客id 社名 地域 業種 xxx xxx xxx xxx xxx xxx xxx xxx 全シートを開いて業種列を抽出
  12. これまでの観点と違う新しい観点でデータを見る 「当初の要件を満たすテーブル」ではな 「切り口を柔軟に変更で るテーブル」 必要 26 繊維 工業 卸小売 飲食業

    宿泊業 チームA 京都府 80 40 60 60 チームB 大阪府 60 60 80 80 チームC 兵庫県 20 80 80 60 チームD 滋賀県 40 20 20 20 マーケット変化への適応 「これまでは営業組織に合わせてエリア別で数字を見ていた」 「新型コロナの影響 あるはずなので業種別で数字を見たい」 「飲食業など店頭サービス業での利用は減少した 」 「それらの店舗に対して何 支援を提供で ない 」 「逆にこの状況で伸びている業種はあるのだろう 」 「これまでと違った利用の急な増加に備えるべ 」 市場環境の変化 これまでと違う観点での データ分析 社内外のデータ 根拠のある 意思決定 変化に適応 失敗を検知
  13. (一般的に)データ分析では複数の元データを組み合わせる • 「駅近店舗の雨天時の注文数」を分析するなら「駅」「店舗」「天気」「注文」のデータを集める。 • 住所と緯度・軽度を変換するといった前処理 必要になり、そのための変換データを取り寄せる。 27 データの入口 店舗マスタ ——————

    - 店舗名 - 住所 社内 Excel 駅マスタ —————— - 駅名 - 住所 国土地理 協会 国土 交通省 気象記録 —————— - 日付 - 天候 気象庁 購買記録 —————— - 日付 - 店舗名 - 来客数 POSレジ - 店舗名 - 緯度 - 経度 - 駅名 - 緯度 - 経度 店舗単位で集計 ———————— - 店舗名 - 駅との距離* ———————— *店舗ごとに距離 一番 小さい値(=最も近い 駅との組み合わせ)だ けを絞り込む - 日付 - 天候 - 店舗名 - 来客数 統合・変換 ———————— - 日付 - 天候* - 店舗名 - 駅との距離** - 来客数 ———————— * 1日の最大降水量 ◯mm以上を「雨」、そ れ以外を「晴れ」と判 別する ** ◯km以内を「近 い」、それ以外を「遠 い」と判別する データの出口 データの繋げ方や加工方法 店舗と駅の組み合わせ ——————————— - 店舗名 - 駅名 - 距離* ——————————— *計算式は √((店舗の緯度-駅の緯度)^2 + (店舗の経度-駅の経度)^2) 集計結果 ——————— - 天候 - 駅との距離 - 平均来客数* ——————— * 合計来客数÷(日 付x店舗数)で平均 値を計算する 変換データ —————— - 住所 - 緯度 - 経度 位置 天候 来店数 想定要因 駅から 近い店舗 晴れ 100人 徒歩で 来店 雨 50人 駅から 遠い店舗 晴れ 80人 自動車で 来店 雨 80人 雨天限定クーポンを 実施したら 効果 ありそう ?
  14. 本講演について 29 # 開始目安 所要時間 アジェンダ ① 14:20 3分 はじめに

    ② 14:23 5分 Excelでデータ分析をはじめよう! ③ 14:28 5分 営業地域別のデータvs業種別のレポート ④ 14:33 5分 どのデータをどう組み合わせるの? ⑤ 14:38 5分 欲しいのは「切り口」と「集計対象」だ! ⑥ 14:43 5分 ビジネスイベントをモデル化しよう ⑦ 14:48 5分 5W1Hをモデル化しよう ⑧ 14:53 5分 チーム 変わる、データモデル 変わる ⑨ 14:58 5分 ビジネス 変わる、データモデル 変わる ⑩ 15:03 5分 AIエージェントを信頼するために ⑪ 15:08 2分 わりに                     <概要> データ分析に適したテーブル設計の手法としてディメンショナルモデリング あります。 この講演では「Excelでのデータ分析」を題材にして、 初学者の方々にディメンショナルモデリングの概要をご紹介で ればと思います。                     <目次> 
  15. ユーザー 分析やモニタリングを行う度に、以下のような対応 必要となる。 • (毎回)ER図を読み返す。 • (毎回)数十枚のシートを連携する。 • (毎回)結合時の注意点を確認する。 •

    (毎回)日付計算の処理を行う。 毎回のように「どのデータをどう組み合わせる 」を考えることになる。 正論と言えば正論ではあるのだ 、これだとユーザーのデータ活用は進まない。 「この分析のと は、これとこれとこれとこれを結合して……」 「ややこしい!分 らない!」 ユーザーは手元でカスタマイズして自分用の「使いやすいシート」を作るはず。 例えば「顧客一覧」「業種一覧」「都道府県一覧」の3つのシートを分けずに、 1つの「顧客一覧」シート内で「業種」「都道府県」を管理するのではない 。 ⇒だったらそのシートを最初 らモデラー 提供すべ では? データ分析のためのテーブル設計 必要 32
  16. この らいのシート管理だと使いやすそう! • fct(ファクト) ◦ 集計対象となる出来事 ≒ トランザクション ◦ 【例】fct_契約シート:合計で◯◯万円の契約になった

    • dim(ディメンション) ◦ 比較の切り口となる観点 ≒ マスタ ◦ 【例】dim_顧客:業種別、エリア別の契約金額 ◦ 【例】dim_従業員:部署別の契約金額(営業成績) ◦ 【例】dim_カレンダー:今月の契約金額 • データ分析では「日付」 結合キーになりうる。 • 「従業員」と「部門」の関係は「主務」のみ抽出した。 ◦ 多対多の設計は応用編なので書籍を参照。 ⇒ファクトとディメンションを組み合わせて使うだけ! トランザクションとマスタで分ける 33
  17. 本講演について 35 # 開始目安 所要時間 アジェンダ ① 14:20 3分 はじめに

    ② 14:23 5分 Excelでデータ分析をはじめよう! ③ 14:28 5分 営業地域別のデータvs業種別のレポート ④ 14:33 5分 どのデータをどう組み合わせるの? ⑤ 14:38 5分 欲しいのは「切り口」と「集計対象」だ! ⑥ 14:43 5分 ビジネスイベントをモデル化しよう ⑦ 14:48 5分 5W1Hをモデル化しよう ⑧ 14:53 5分 チーム 変わる、データモデル 変わる ⑨ 14:58 5分 ビジネス 変わる、データモデル 変わる ⑩ 15:03 5分 AIエージェントを信頼するために ⑪ 15:08 2分 わりに                     <概要> データ分析に適したテーブル設計の手法としてディメンショナルモデリング あります。 この講演では「Excelでのデータ分析」を題材にして、 初学者の方々にディメンショナルモデリングの概要をご紹介で ればと思います。                     <目次> 
  18. BEAM✲は「データ要件を定義するためのフレームワーク」であり、 書籍『アジャイルデータモデリング』にて提唱されている。 • Business Event:ビジネスイベント ら • Analysis:要件を分析して • Modeling:テーブルを設計(モデリング)することで

    • ✲:スタースキーマを構築する BEAM✲にもとづ 、ステークホルダーと協調して「ブレインストーミング」を行いな ら 「データモデリング」を進めるアプローチを「モデルストーミング」と呼ぶ。 BEAM✲ = Business Event Analysis and Modeling 株式会社風音屋(監訳)『アジャイルデータモデリング』より 40
  19. • ステークホルダーと会話をしな ら、具体例をテーブル(表形式)で記載する • 「Fact」や「Dimension」としてまとめるべ 項目を明確にする ◦ データソース らFactとDimに分けるのではな 、分析ニーズ

    らFactとDimを描 ◦ 描いたFactとDimを実現で るように、複数データソースを組み合わせてデータを加工する 具体例をBEAM✲テーブルとして書 出す 株式会社風音屋(監訳)『アジャイルデータモデリング』の図2-1を元に一部改変。 風音屋アドバイザー打出氏「30分でわ るアジャイルデータモデリング」より 顧客は 製品を 注文する 注文日に 販売拠点で [誰 ] [何を] [いつ] [どこで] 一郎さん iPip Blue Suede 2011年5月18日 POMStore 表参道 二郎さん POMBook Air 2011年6月29日 POMStore 表参道 三郎さん iPip Blue Suede 10年前 store.POM.com 四郎さん iPOM Pro 昨日 Amazon.com BEAM✲テーブル「顧客の注文」 最大で10年前まで遡りたい 最短で翌日に分析したい 物理店舗と自社ECと外部EC をまたいで分析したい 41
  20. Fact と Dimension を「イベントマトリクス」としてペラ1にまとめる 42 株式会社風音屋(監訳)『アジャイルデータモデリング』より • Factを左、Dimensionを上に書いて表(マトリクス)で 取りうる組み合わせをまとめる ◦

    Kimball Groupだと「バスマトリクス」と呼ぶ • データチームの定期ミーティングでイベントマトリクスを 更新したり、データ整備やデータ分析のTODOに反映する
  21. 風音屋式イベントマトリクス 以下の組み合わせをまとめると、 1つのアウトプットで情報を網羅すること 可能となる • Fact:出来事>指標>計算方法 • Dimension:5W1H x 階層化

    • ✔:結合可能な組み合わせ →この内容に沿ってテーブルを整備し、  データを分析すること で る。 注1:複数のFactと結合可能なDimensionを 「Conformed(適合)Dimension」と呼ぶ。 注2:マトリクスを書いて抜け漏れ あれば 各ステップに戻ってブラッシュアップする。 43 風音屋の研修「K-DEC Tutorial」より
  22. この らいのシート管理だと使いやすそう! • fct(ファクト) ◦ 集計対象となる出来事 ≒ トランザクション ◦ 【例】fct_契約シート:合計で◯◯万円の契約になった

    • dim(ディメンション) ◦ 比較の切り口となる観点 ≒ マスタ ◦ 【例】dim_顧客:業種別、エリア別の契約金額 ◦ 【例】dim_従業員:部署別の契約金額(営業成績) ◦ 【例】dim_カレンダー:今月の契約金額 • データ分析では「日付」 結合キーになりうる。 • 「従業員」と「部門」の関係は「主務」のみ抽出した。 ◦ 多対多の設計は応用編なので書籍を参照。 ⇒ファクトとディメンションを組み合わせて使うだけ! 【再掲】トランザクションとマスタで分ける 44
  23. 本講演について 45 # 開始目安 所要時間 アジェンダ ① 14:20 3分 はじめに

    ② 14:23 5分 Excelでデータ分析をはじめよう! ③ 14:28 5分 営業地域別のデータvs業種別のレポート ④ 14:33 5分 どのデータをどう組み合わせるの? ⑤ 14:38 5分 欲しいのは「切り口」と「集計対象」だ! ⑥ 14:43 5分 ビジネスイベントをモデル化しよう ⑦ 14:48 5分 5W1Hをモデル化しよう ⑧ 14:53 5分 チーム 変わる、データモデル 変わる ⑨ 14:58 5分 ビジネス 変わる、データモデル 変わる ⑩ 15:03 5分 AIエージェントを信頼するために ⑪ 15:08 2分 わりに                     <概要> データ分析に適したテーブル設計の手法としてディメンショナルモデリング あります。 この講演では「Excelでのデータ分析」を題材にして、 初学者の方々にディメンショナルモデリングの概要をご紹介で ればと思います。                     <目次> 
  24. • ビジネスに いて発生する出来事(ビジネスイベント) 存在する • 一つ一つのビジネスイベント 連なってビジネス 実現される • ビジネスを改善するとは、一つ一つのビジネスイベントを改善すること

    ◦ 例:来店を増やす、注文を増やす、発送を早 する ビジネスイベント(出来事) 来店 注文 発送 返品 集計対象 (fact) Event 来店 Metric 件数 集計対象 (fact) Event 注文 Metric 金額 Calc 総計 Calc 総計 49
  25. • ビジネスイベントを定量的に評価するための指標を定める • そのイベント 「どうなってほしい 」「どうなると困る 」を表現する ◦ 多い⇔少ない:件数、人数、商品数、金額 ◦

    長い⇔短い :時間、距離 ◦ 重い⇔軽い :生産量、輸送量 ビジネスイベントに ける指標 集計対象 (fact) Event 来店 Metric 件数 集計対象 (fact) Event 注文 Metric 金額 Calc 総計 Calc 総計 注文 件数 人数 商品数 金額 50
  26. • 指標をどのように計算する を定める ◦ BIツールに任せるケースもある • 四則演算で済ませる現場 多い:構築 ラク、解釈 ラク、管理

    ラク ◦ 値、個数、総計 ◦ 割合、平均(per 件数、per 人数、per 商品数) ◦ 変化量、変化率(YoY:昨年対比、MoM:月、WoW:週、DoD:日) 指標の計算方法 注文件数 総計 1人あたり 1商品あたり YoY増加率 集計対象 (fact) Event 来店 Metric 件数 集計対象 (fact) Event 注文 Metric 金額 Calc 総計 Calc 総計 51
  27. この らいのシート管理だと使いやすそう! • fct(ファクト) ◦ 集計対象となる出来事 ≒ トランザクション ◦ 【例】fct_契約シート:合計で◯◯万円の契約になった

    • dim(ディメンション) ◦ 比較の切り口となる観点 ≒ マスタ ◦ 【例】dim_顧客:業種別、エリア別の契約金額 ◦ 【例】dim_従業員:部署別の契約金額(営業成績) ◦ 【例】dim_カレンダー:今月の契約金額 • データ分析では「日付」 結合キーになりうる。 • 「従業員」と「部門」の関係は「主務」のみ抽出した。 ◦ 多対多の設計は応用編なので書籍を参照。 ⇒ファクトとディメンションを組み合わせて使うだけ! 【再掲】トランザクションとマスタで分ける 52
  28. 本講演について 53 # 開始目安 所要時間 アジェンダ ① 14:20 3分 はじめに

    ② 14:23 5分 Excelでデータ分析をはじめよう! ③ 14:28 5分 営業地域別のデータvs業種別のレポート ④ 14:33 5分 どのデータをどう組み合わせるの? ⑤ 14:38 5分 欲しいのは「切り口」と「集計対象」だ! ⑥ 14:43 5分 ビジネスイベントをモデル化しよう ⑦ 14:48 5分 5W1Hをモデル化しよう ⑧ 14:53 5分 チーム 変わる、データモデル 変わる ⑨ 14:58 5分 ビジネス 変わる、データモデル 変わる ⑩ 15:03 5分 AIエージェントを信頼するために ⑪ 15:08 2分 わりに                     <概要> データ分析に適したテーブル設計の手法としてディメンショナルモデリング あります。 この講演では「Excelでのデータ分析」を題材にして、 初学者の方々にディメンショナルモデリングの概要をご紹介で ればと思います。                     <目次> 
  29. 【分けて】5W1Hで分析の切り口を定める 【比べる】分析軸による差異を比較する • 「都心の店舗」は「郊外の店舗」より(客数 多い|少ない) • 「今年」は「去年」より(注文総額 多い|少ない) • 「バッグ」は「衣類」より(平均単価

    高い|低い) • 「高単価の商品」は「低単価の商品」より(レビュー評価 高い|低い) • 「リピーター」は「新規顧客」より(1度の注文点数 多い|少ない) 分析軸で「分けて」「比べる」 今月 When 切り口 (dim) Who 新規顧客 今月 When 切り口 (dim) Where 渋谷店 What バッグ Where 店舗(≠EC) Who 誰 What 何を When いつ Where どこで Why なぜ How どのように 55
  30. ビジネスイベントをどのような軸で「分けて」「比べる」 洗い出す 分析軸(Dimension:5W1H)の洗い出し 分析軸(Dimension) Who What Where Why & How

    集計対象 (Fact) イベント 指標 顧客 従業員 商品 店舗 配送住所 クーポン 受注ID 顧客来店 人数 ✔ ✔ 顧客注文 件数 ✔ ✔ ✔ ✔ ✔ ✔ ✔ 商品発送 期間 ✔ ✔ ✔ ✔ ✔ 株式会社風音屋(監訳)『アジャイルデータモデリング』より 56
  31. 分析軸(Dimension:5W1H)の洗い出し(Tips) 業務フロー ら洗い出す 具体例 ら洗い出す Who 店頭スタッフ What 各商品の在庫を When

    毎日20:00閉店後に Where 店舗で 商品 ・A ・B 共 通 ジャンル ・衣類 What 商品カテゴリ 差 異 シーズン ・夏物 ・冬物 When 販売時期 営業 ・Cさん ・Dさん 共 通 所属 ・営業2部 Who 企業 > 部門 差 異 担当エリア ・□市 ・☆市 Where 都道府県 > 市区町村 Who 誰 What 何を When いつ Where どこで Why なぜ How どのように 57
  32. この らいのシート管理だと使いやすそう! • fct(ファクト) ◦ 集計対象となる出来事 ≒ トランザクション ◦ 【例】fct_契約シート:合計で◯◯万円の契約になった

    • dim(ディメンション) ◦ 比較の切り口となる観点 ≒ マスタ ◦ 【例】dim_顧客:業種別、エリア別の契約金額 ◦ 【例】dim_従業員:部署別の契約金額(営業成績) ◦ 【例】dim_カレンダー:今月の契約金額 • データ分析では「日付」 結合キーになりうる。 • 「従業員」と「部門」の関係は「主務」のみ抽出した。 ◦ 多対多の設計は応用編なので書籍を参照。 ⇒ファクトとディメンションを組み合わせて使うだけ! 【再掲】トランザクションとマスタで分ける 59
  33. Dimensionをどこまで細 する 【よ ある質問】                                         Q. 「2024-08-01 13:29:11.555」をDimensionテーブルに切り出すべ ? 【回答】                                             A.

    Dimensionは「単に5W1Hで分けたもの」ではな 、あ まで「分析軸」である! ①「0.555秒であること」を軸にしてカウントしたい ? ⇒大抵の場合はNO。センサー機器 0.555秒のと だけ異なる挙動をする可能性もある もしれない 、  そこまで来るとアドホック分析で個別にクエリを書いたほう 良い。 ②「8月1日であること」を軸にしてカウントしたい ? ⇒大抵の場合はYES。日付 らロールアップして「8月」「月初」「夏」「◯曜日」なども見たい。  した って「Dim_カレンダー」を作成し、日付ごとに1レコードのテーブルとする。 ③「13時であること」を軸にしてカウントしたい ? ⇒あり得る。「昼の時間帯」や「13時台」の客数を集計した なる可能性はある。  ②とは別に「Dim_時計」を作成する。日付(YYYY-MM-DD)は付与せずに HH:mm のみ持たせる。  分析ニーズに応じて1レコードの単位を1分、10分、30分、1時間のいずれ とする。 60
  34. 本講演について 61 # 開始目安 所要時間 アジェンダ ① 14:20 3分 はじめに

    ② 14:23 5分 Excelでデータ分析をはじめよう! ③ 14:28 5分 営業地域別のデータvs業種別のレポート ④ 14:33 5分 どのデータをどう組み合わせるの? ⑤ 14:38 5分 欲しいのは「切り口」と「集計対象」だ! ⑥ 14:43 5分 ビジネスイベントをモデル化しよう ⑦ 14:48 5分 5W1Hをモデル化しよう ⑧ 14:53 5分 チーム 変わる、データモデル 変わる ⑨ 14:58 5分 ビジネス 変わる、データモデル 変わる ⑩ 15:03 5分 AIエージェントを信頼するために ⑪ 15:08 2分 わりに                     <概要> データ分析に適したテーブル設計の手法としてディメンショナルモデリング あります。 この講演では「Excelでのデータ分析」を題材にして、 初学者の方々にディメンショナルモデリングの概要をご紹介で ればと思います。                     <目次> 
  35. • チームの考え方はフェーズによって変わる。 • 当然な ら見るべ データも変わる。 • 当然な らデータモデルのあり方も変わる。 モデルストーミングを継続的に繰り返し、アジャイルなデータモデリングを実現する

    69 株式会社風音屋(監訳)『アジャイルデータモデリング』をもとに一部改変 データ整備・分析 要求の見直し アジャイルな仮説検証サイクルを回し、 データモデルを継続的に改善することで 要求の変化に対して迅速に適応する。
  36. 本講演について 70 # 開始目安 所要時間 アジェンダ ① 14:20 3分 はじめに

    ② 14:23 5分 Excelでデータ分析をはじめよう! ③ 14:28 5分 営業地域別のデータvs業種別のレポート ④ 14:33 5分 どのデータをどう組み合わせるの? ⑤ 14:38 5分 欲しいのは「切り口」と「集計対象」だ! ⑥ 14:43 5分 ビジネスイベントをモデル化しよう ⑦ 14:48 5分 5W1Hをモデル化しよう ⑧ 14:53 5分 チーム 変わる、データモデル 変わる ⑨ 14:58 5分 ビジネス 変わる、データモデル 変わる ⑩ 15:03 5分 AIエージェントを信頼するために ⑪ 15:08 2分 わりに                     <概要> データ分析に適したテーブル設計の手法としてディメンショナルモデリング あります。 この講演では「Excelでのデータ分析」を題材にして、 初学者の方々にディメンショナルモデリングの概要をご紹介で ればと思います。                     <目次> 
  37. • 乗り物の部品を作っている町工場のメーカー • 売上高は堅調だ 、近年の物価高騰で粗利は苦し 、主要販売先や銀行 らプレッシャーを受ける • 販路開拓の余地を探るために、展示会で新素材を体験してもら う!

    • デモンストレーションとして体験型の運転シミュレーションゲームを設置 • ものづ り好 な技師 ゲームの細部までこだわって最高のクオリティに仕上げる • 展示会にゲスト参加した海外の著名人 SNSで「これはすごいぞ」と言及して世界中で話題に • 試しにゲームを販売したら、世界中で飛ぶように売れる • 海外購入者(円安)とソフトウェア産業(原価 少ない)の恩恵で収益率の高い事業となる • 数年後には部品の利益を超える • 部品メーカーとして20年使えるはずのデータモデルを設計してERPを導入した …… • ゲームメーカーとして “プレイヤーの利用状況” や “SNSで話題になっている箇所” を分析するほう 経営陣にとって重要になる 自動車メーカー らゲームメーカーに転身? 72 ※仮想ケースです
  38. • 最初は物珍しさでゲーム 売れた 、数年後、徐々にそれだけでは売れな なってしまう • むしろ他のゲームメーカー ら「ゲーム内の乗り物のCGを作って れない 」と相談を受ける

    • CG制作会社として大活躍!ゲームだけではな 映像作品でも引っ張りだこに! • 日本のアニメーション映画 世界でヒットしているトレンドに乗って「あのシーンはすご った」と 海外のあらゆる映像関係者 感激 • 今度はCG制作会社としてのKPIモニタリングを行うことになる • 映画特集のTV番組にゲスト出演した社員 「まるで俳優」とSNSで話題になり、各番組に呼ばれる • CG制作で専門知識や英語を使っているため、対応の幅も広 、次々に社員たち 各番組で活躍する • 年末年始のこの会社の特番に出ること 芸能界で活躍するための登竜門となる(昔のミスコン枠) • いつのまに 日本有数の芸能プロダクションとして有名になり、KPIモニタリングの内容 また変更 • 自動運転やAI技術の進歩につれて「シミュレーション空間での運転テスト」の重要度 増し、 高度なCG技術とリアルな描画に強いこの会社 世界的に引っ張りだこになる • 地球温暖化や宇宙進出による生活圏の変化により、伝統的な乗り物と異なる New Vehicle 台頭! 自動運転のシミュレーションについてもこれまでとは違う観点 求められるようになり(以下略 ゲームメーカー らCG制作会社に?芸能プロダクションに? 73 ※仮想ケースです
  39. • 「はた織り機」を作っている会社 「自動車」を作り始める(トヨタグループ) • 「アニメーション映像」を作っている会社 「テーマパーク」を始める(ディズニー) • 「花札」を作っている会社 「ビデオゲーム」を作り、ストリーミング販売に対応する(任天堂) •

    「広告雑誌」を作っている会社 「POSレジ」や「結婚相談所」を始める(リクルート) • 「専門書の物販」を行っている会社 「データセンター」を建設する(Amazon) • 「進学塾」を提供していた会社 「ホテル」などの不動産事業に切り替える(代々木ゼミナール) • 「フリマアプリ」を作っている会社 「決済アプリ」を作り始める(メルカリ) ビジネスは変わる 74 「スピード」と「品質」のスイッチング ~事業成長を支える生存戦略~ https://speakerdeck.com/yuzutas0/20210218c1
  40. • マーケットやビジネスは変わり続ける。 • 当然な ら見るべ データも変わる。 • 当然な らデータモデルのあり方も変わる。 再掲:モデルストーミングを継続的に繰り返し、アジャイルなデータモデリングを実現する

    75 株式会社風音屋(監訳)『アジャイルデータモデリング』をもとに一部改変 データ整備・分析 要求の見直し アジャイルな仮説検証サイクルを回し、 データモデルを継続的に改善することで 要求の変化に対して迅速に適応する。
  41. 本講演について 76 # 開始目安 所要時間 アジェンダ ① 14:20 3分 はじめに

    ② 14:23 5分 Excelでデータ分析をはじめよう! ③ 14:28 5分 営業地域別のデータvs業種別のレポート ④ 14:33 5分 どのデータをどう組み合わせるの? ⑤ 14:38 5分 欲しいのは「切り口」と「集計対象」だ! ⑥ 14:43 5分 ビジネスイベントをモデル化しよう ⑦ 14:48 5分 5W1Hをモデル化しよう ⑧ 14:53 5分 チーム 変わる、データモデル 変わる ⑨ 14:58 5分 ビジネス 変わる、データモデル 変わる ⑩ 15:03 5分 AIエージェントを信頼するために ⑪ 15:08 2分 わりに                     <概要> データ分析に適したテーブル設計の手法としてディメンショナルモデリング あります。 この講演では「Excelでのデータ分析」を題材にして、 初学者の方々にディメンショナルモデリングの概要をご紹介で ればと思います。                     <目次> 
  42. 生成AIによるデータ分析の自動化 ジュニア分析者より正確で、シニア分析者より早い&安いアウトプット 1. 大手クラウドベンダーはデータウェアハウスとのネイティブ連携 強み。以下はGoogle Cloudの例。 a. GeminiチャットやNotebookLMによるデータ分析レポートの作成。 b. LookerやLooker

    Studio ProといったBIツールの対話エージェント機能。 2. Claude Desktopといった独立ツール らクラウドデータウェアハウスに接続する事例 a. 本資料作成時点で主流なのはMCPを経由してデータを参照する方法。 78
  43. 生成AI データを正し 使うためには、データの整備 必要 50個の「売上テーブル」 存在していたら、生成AIはどの「売上」で分析すれば良い 判断で ない。 そもそも考え方や用途によって「売上」の定義は変わる。 •

    消費税を含む? • 途中解約はどこに計上する? • 年間契約は月次で按分する? • 割引はどこで差し引 ? • 返金は後で差し引 ? 購入時に遡って差し引 ? • 通販サイトやアプリ決済の決済手数料を含む? 年間契約を行った場合、ある分析では「今月の売上」 大幅に向上したと報告しても、 別の分析だと月次で按分しているので1/12の数字になる。 AI 生成した2つのレポートを見比べると「今月の売上」 10倍近 ズレることになる。 79
  44. 「fct_xxx」と「dim_xxx」のテーブル 用意されている。 つまりこれはディメンショナルモデリングで作られたテーブルだ。 • 集計対象 fctで、切り口 dimだろう。 • それらのテーブルは「xxx_id」列で結合すれば良いのだろう。 •

    1 らAI 集計するのではな 、既に整備されている 「按分売上」や「消費税抜」列を使えば良いのだろう。 • AI 事業年度を「4月 〜 翌3月」と推測するのではな 、 整備されている「事業年度」列を使えば良いのだろう。 生成AIによるデータ分析の品質 安定し、 従業員 カジュアルに生成AIに頼ること で るようになる。 テーブルの形式 明確だと生成AI 推論しやすい 80
  45. SSoTの担保 • SSoT(Single Source of Trust = 信頼で る単一の情報源)の担保 鍵となる。

    • データ分析者 「ここを見れば必要なデータ 揃う」と信頼で る「寄る辺」 必要とされている。 https://techcrunch.com/2017/06/23/five-building-blocks-of-a-data-driven-culture/ ならびに https://jp.techcrunch.com/2017/06/25/20170623five-building-blocks-of-a-data-driven-culture/ ※閉鎖済 事実の単一情報源を持っている場合には、 アナリストや他の意思決定者といったエンドユーザーたちに、 優れた価値を提供すること で る。 彼らは組織内でデータを探す時間 少な て済むようになり、 データの利用により多 の時間を割 こと で るようになる らだ。 When you have a single source of truth,you provide superior value to the end user: the analysts and other decision makers. They’ll spend less time hunting for data across the organization and more time using it. Additionally, the data sources are more likely to be organized, documented and joined. Thus, by providing a richer context about the entities of interest, the users are better positioned to leverage the data and find actionable insights. 85
  46. 本講演について 89 # 開始目安 所要時間 アジェンダ ① 14:20 3分 はじめに

    ② 14:23 5分 Excelでデータ分析をはじめよう! ③ 14:28 5分 営業地域別のデータvs業種別のレポート ④ 14:33 5分 どのデータをどう組み合わせるの? ⑤ 14:38 5分 欲しいのは「切り口」と「集計対象」だ! ⑥ 14:43 5分 ビジネスイベントをモデル化しよう ⑦ 14:48 5分 5W1Hをモデル化しよう ⑧ 14:53 5分 チーム 変わる、データモデル 変わる ⑨ 14:58 5分 ビジネス 変わる、データモデル 変わる ⑩ 15:03 5分 AIエージェントを信頼するために ⑪ 15:08 2分 わりに                     <概要> データ分析に適したテーブル設計の手法としてディメンショナルモデリング あります。 この講演では「Excelでのデータ分析」を題材にして、 初学者の方々にディメンショナルモデリングの概要をご紹介で ればと思います。                     <目次> 
  47. 今回は取り扱わな った課題 例えば…… • ファクトやディメンションの実践的なテーブル設計例は? • 多対多の関係を表現するには? • マスタ(ディメンション)の値 変わる場合は?

    ◦ 例:ユーザー 静岡県 ら東京都に引っ越した。 そのままマスタの値を上書 してしまうと、 去年の購入は静岡県ではな 東京都に計上されてしまう。 ぜひ『アジャイルデータモデリング』を読んでいただければと! 91