Slide 1

Slide 1 text

データ分析者のための ディメンショナルモデリング 2025-01-20 datatech-jp Casual Talks #6 株式会社風音屋(@Kazaneya_PR) ゆずたそ(@yuzutas0) 30分でわかる

Slide 2

Slide 2 text

はじめに

Slide 3

Slide 3 text

datatech-jp Casual Talks #6 3

Slide 4

Slide 4 text

本資料の利用により発生したいかなる損害に対しても資料作成者はその責任を負いかねます。 社名が提示されていないケーススタディやシステム構成については、 原則的に複数企業の事例を踏まえたダミー情報となります。 特定企業の情報公開や称賛・批判を意図するものではありません。 用語やツールの紹介は厳密ではありません。ご自身や所属チームでの理解・解釈が 紹介内容と異なる場合は、適宜読み替えていただけると幸いです。 本資料に記載されている会社名・製品名などは、一般に各社の登録商標または商標、 商品名です。資料内では ©, ®, ™ マーク等は省略させていただいております。 免責事項 4 (要するに)ケチつけないでね& お互いにルールを守ろうね

Slide 5

Slide 5 text

↓ここまではできるけど… ● SQLやPython、BIツールを使えるようになった ● データの集計や可視化ができるようになった ● G検定や統計検定の勉強をしている ↓ここに課題を感じている ● ステークホルダーが期待する「ビジネスに役立つデータ分析」とのギャップを感じている ● 依頼や指示に対応しているだけで、自分からデータ分析の方針を提案できていない ● 思いついたものを思いついた順番にやるだけで、要件の網羅性や優先順位に自信がない という「データ分析者」の皆様! もしくは「データ分析に挑戦してみたいデータエンジニア」の皆様! 想定する聞き手 5

Slide 6

Slide 6 text

データ分析者向けに「ディメンショナルモデリング」を紹介します ● そもそもビジネスにおけるデータ分析とは何か? ● そのために、どのようなデータが整備されていると便利なのか? ● ディメンショナルモデリングを駆使すると、データ分析はどう変わるのか? 本日の内容 6

Slide 7

Slide 7 text

登壇者 7 横山 翔(@yuzutas0) ● リクルートやメルカリにてデータ活用を推進、AWSを経て、風音屋を創業 ● 広告配信の最適化、店舗営業のインセンティブ改善など、データ分析によって数億円規模のインパクトを創出 ● Googleが認定する技術エキスパート「Google Cloud Champion Innovator」(Data Analytics)に選出 ● 東京大学 経済学研究科 金融教育研究センター 特任研究員、およびランサーズ株式会社 データチームリーダーを兼任 主な登壇・発表 ● Pythonのカンファレンス「PyCon JP 2017」にてベストトークアワード優秀賞 ● 翔泳社主催「Developers Summit 2018 Summer」にてベストスピーカー賞 ● Google主催「Google Cloud Day」(‘21, ‘23),「Google Cloud Next Tokyo」(‘23) ● 日本統計学会 第16回春季集会 主な執筆・出版 ● 講談社サイエンティフィク『アジャイルデータモデリング』 ● 技術評論社『実践的データ基盤への処方箋』 ● 技術評論社『Software Design 2020年7月号 - ログ分析特集』 ● 風音屋『データマネジメントが30分でわかる本』 ● 内閣府「経済分析 第208号 - 景気動向分析の新たな潮流」 主なコミュニティ活動 ● 1,500人以上が参加するSlackコミュニティ「datatech-jp」の立ち上げ・運営 ● 延べ参加者10,000人以上の勉強会「Data Engineering Study」の立ち上げ・モデレーター ● 国内最大規模の技術カンファレンス「Developers Summit」コンテンツ委員会(2022〜2025)

Slide 8

Slide 8 text

いま日本で買うならベストな(?)ディメンショナルモデリング本 8

Slide 9

Slide 9 text

大手からスタートアップまで幅広いクライアント企業のデータ活用を支援するITコンサルティング企業。 100社のデータ経営を実現し、諸産業の活性化に貢献することをミッションとして掲げています。 データエンジニアたちが技術相談やノウハウ共有しあう副業ギルドとして始まり、 日本全国から多数のご相談・ご要望を受けて法人化。 ステークホルダーにご協力いただきながら、会社組織としてアジャイルに成長してきました。 スタートアップCEOからの推薦コメント 風音屋 9 ご支援先(一部抜粋)     ● ランサーズ株式会社 ● エイベックス株式会社 ● 株式会社クラシコム ● 株式会社商船三井 ● 株式会社ビズリーチ ● NE株式会社 ● 株式会社リクルート ● 福岡地所株式会社 ● 住友化学株式会社

Slide 10

Slide 10 text

風音屋が提供するサービス 10 データ基盤構築 データ分析

Slide 11

Slide 11 text

本日の発表内容は講座コンテンツをベースにしたものとなります 採用活動の文脈でMENTA講座を提供 11

Slide 12

Slide 12 text

講座イメージ(noteやTwitter/Xにて公開) 12

Slide 13

Slide 13 text

※厳密には諸説ある。複数の文脈の上で立ち上がったため。 風音屋 = datatech-jp 発祥の地!? 13

Slide 14

Slide 14 text

datatech-jp 命名の瞬間 14 @当時の風音屋Slack(≒データエンジニアたちが ざっくばらんに相談しあえる招待制コミュニティ)

Slide 15

Slide 15 text

あれから3年半が経過して…… 15 Slack参加者は1,600人 connpass参加者は3,500人

Slide 16

Slide 16 text

新著『アジャイルデータモデリング』の謝辞にも登場! 16 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用

Slide 17

Slide 17 text

データ分析者向けに「ディメンショナルモデリング」を紹介します ● そもそもビジネスにおけるデータ分析とは何か? ● そのために、どのようなデータが整備されていると便利なのか? ● ディメンショナルモデリングを駆使すると、データ分析はどう変わるのか? 本日の内容(再掲) 17

Slide 18

Slide 18 text

ビジネスにおけるデータ分析

Slide 19

Slide 19 text

あらゆる場面で意思決定が行われている 19 仕事 生活 経営(マネジメント) 事業(ビジネス) 業務(オペレーション) 作業(タスク) 次の10年に関する判断 次の1ヶ月に関する判断 次の5分に関する判断 次の30分に関する判断 事業Aに追加投資するか?撤退するか? 企業Dに転職するか?現職に留まるか? 商品Bと商品Cどちらに注力するか? どの顧客を手厚くサポートするか? メールを連休前に送るか?後に送るか? 旅行先は海外か?国内か?具体的にどこ? 自炊するか?カップ麺で済ませるか? 落とし物を拾って渡すか?無視するか?

Slide 20

Slide 20 text

例:「キラキラした写真を撮ってSNSに上げたい」ときの旅行先を検討する場合 意思決定において比較検討がなされる 20 論点 実施案 評価 得られるリターン 必要なリソース コンセプト 移動距離 所要日数 キラキラ感 気分転換 コスト 体力 山 近い 短い 高尾山(日帰り) △〜◯ ◯ ◎ ◯ 長い 房総半島(5泊) △〜◯ ◯ ◯ ◯ 遠い 短い N/A 長い マチュピチュ(1週間) ◎ ◯ △ ✕ 海 近い 短い お台場(1泊) ◯ ◯ ◎ ◎ 長い 伊豆(5泊) △〜◯ ◯ ◯ ◯ 遠い 短い N/A 長い モルディブ(5泊) ◎ ◯ △ △

Slide 21

Slide 21 text

ビジネスにおける問題解決の流れ 21 目標 現状 課題 解決策 売上10億 売上5億 顧客100社 単価500万 あと5億 値上げ 新規受注 あと100社 あと500万 || × || or − =

Slide 22

Slide 22 text

問題解決は入れ子の構造 22 目標 現状 課題 解決策 売上10億 新規受注 目標 受注100社 現状 課題 解決策 リード70社 アポ35社 未返信 離脱50% 文言見直し リマインド

Slide 23

Slide 23 text

各フェーズで比較検討を行う 23 目標 現状 課題 解決策 候 補 比 較 決 定 候 補 比 較 決 定 候 補 比 較 決 定 リマインド 候 補 比 較 決 定 文言見直し 期間 費用 対象 2h 0 既存35社 10h 0 新規n社 即実施 見送り 候 補 比 較 決 定

Slide 24

Slide 24 text

その意思決定を支えるのがデータ 24 候 補 比 較 決 定 リマインド 文言見直し 期間 費用 対象 2h 0 既存35社 10h 0 新規n社 即実施 見送り 情報・データ ヒアリング アンケート 計測記録 データベース

Slide 25

Slide 25 text

ビジネスにおける四則演算ベースの「データ分析」 25 情報・データ ヒアリング アンケート 計測記録 データベース 問題解決の意思決定を支える (特に定量的な) データによる分析

Slide 26

Slide 26 text

データ分析が出来ない = これらが出来ない 1. 目標となる指標・数値を置く(ことが出来ない) 2. 現在の状況を正確に把握する(ことが出来ない) 3. どこに改善余地があるか探る(ことが出来ない) 4. 解決策の期待効果を見立てる(ことが出来ない) この状態でビジネスを運営しても、問題解決がスムーズに進まない恐れがある (不可能だとは言わないが……) 「データ分析」の効力 26 目標 現状 課題 解決策

Slide 27

Slide 27 text

分析とは「分けて」「比べる」こと

Slide 28

Slide 28 text

● 「集計対象」(Fact:出来事>値>計算)と「切り口」(Dimension:5W1H) ● データから「来店数を1,000回増やす」「売上を100万円増やす」ヒントを探る 見るべきデータは「集計対象」と「切り口」の組み合わせ 28 今月の新規顧客の総来店数 今年の渋谷店のバッグの売上 今月 When 切り口 (dim) Who 新規顧客 集計対象 (fact) Event 来店 Metric 件数 今月 When 切り口 (dim) Where 渋谷店 集計対象 (fact) Event 注文 Metric 金額 What バッグ Calc 総計 Where 店舗(≠EC) Calc 総計

Slide 29

Slide 29 text

● ビジネスにおいて発生する出来事(ビジネスイベント)が存在する ● 一つ一つのビジネスイベントが連なってビジネスが実現される ● ビジネスを改善するとは、一つ一つのビジネスイベントを改善すること ○ 例:来店を増やす、注文を増やす、発送を早くする ビジネスイベント(出来事) 29 来店 注文 発送 返品 集計対象 (fact) Event 来店 Metric 件数 集計対象 (fact) Event 注文 Metric 金額 Calc 総計 Calc 総計

Slide 30

Slide 30 text

● ビジネスイベントを定量的に評価するための指標を定める ● そのイベントが「どうなってほしいか」「どうなるとヤバいか」を表現する ○ 多い⇔少ない:件数、人数、商品数、金額 ○ 長い⇔短い :時間、距離 ○ 重い⇔軽い :生産量、輸送量 ビジネスイベントにおける指標 30 集計対象 (fact) Event 来店 Metric 件数 集計対象 (fact) Event 注文 Metric 金額 Calc 総計 Calc 総計 注文 件数 人数 商品数 金額

Slide 31

Slide 31 text

● 指標をどのように計算するかを定める ● 四則演算で済ませる現場が多い:構築がラク、解釈がラク、管理がラク ○ 値、個数、総計 ○ 割合、平均(per 件数、per 人数、per 商品数) ○ 変化量、変化率(YoY:昨年対比、MoM:月、WoW:週、DoD:日) 指標の計算方法 31 注文件数 総計 1人あたり 1商品あたり YoY増加率 集計対象 (fact) Event 来店 Metric 件数 集計対象 (fact) Event 注文 Metric 金額 Calc 総計 Calc 総計

Slide 32

Slide 32 text

分析軸で「分ける」 32 売上高◯◯円という事実(ファクト)を3つの次元(ディメンション)で分解する 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用(網掛けは本資料での追記) この期間での売上 2億円 この製品での売上 5,000万円 この店舗での売上 800万円 売上累計 30億円

Slide 33

Slide 33 text

分析軸で「比べる」 33 “僕の答えは「分析とは比較、すなわち比べること」というものだ。分析といわれ るものに共通するのは、フェアに対象同士を比べ、その違いを見ることだ。” 『イシューからはじめよ』より

Slide 34

Slide 34 text

【分けて】5W1Hで分析の切り口を定める 【比べる】分析軸による差異を比較する ○ 「都心の店舗」は「郊外の店舗」より(客数が多い|少ない) ○ 「今年」は「去年」より(注文総額が多い|少ない) ○ 「バッグ」は「衣類」より(平均単価が高い|低い) ○ 「高単価の商品」は「低単価の商品」より(レビュー評価が高い|低い) ○ 「リピーター」は「新規顧客」より(1度の注文点数が多い|少ない) 分析軸で「分けて」「比べる」 34 今月 When 切り口 (dim) Who 新規顧客 今月 When 切り口 (dim) Where 渋谷店 What バッグ Where 店舗(≠EC) Who 誰が What 何を When いつ Where どこで Why なぜ How どのように

Slide 35

Slide 35 text

● 事実(雲) ○ 都心の店舗は郊外より客数が多い(注文データ) ○ 営業時間は平日10〜18時のみ(店舗データ) ○ 18〜65歳の住民は◯◯人で、うち◯%が就学・就業中(行政データ) ○ 最寄り駅の平日の利用数は1日あたり◯人で住民の◯%(交通データ) ● 解釈(雨) ○ 平日10〜18時はターゲット層が不在で、来店できないのではないか (⇒確かめるために現地訪問や追加調査を行う) ● 施策(傘) ○ 郊外店舗は土日営業に切り替えてはどうか (⇒確かめるために期間を区切ってテスト営業してみる) データを確認した上で「解釈・考察」と「アクション」 35 データ・事実 解釈・考察 施策・提案 ● XXX(雲) ● XXX(雲) ● XXX(雲) ● XXX(雨) ● XXX(雨) ● XXX(雨) ● XXX(傘) ● XXX(傘) ● XXX(傘)

Slide 36

Slide 36 text

● 「都心の店舗は郊外より客数が多い」だけだと「だから都心に専念しよう」 「だから郊外を立て直そう」の両方が成り立つ ● 将来的な人口動態、市場ニーズの変化、不動産価格の推移、人材の採用状況、 原材料の調達状況、創業者のビジョンなど、多角的な観点から判断する ● 確定値以外のデータは、試算や仮置き(いわゆるフェルミ推定)であったり、 統計的な時系列予測や構造推定(いわゆるデータサイエンス)で算出する ● ピラミッドストラクチャーやロジックツリーで結論・主張が成り立つように 論理の流れを整える(いわゆるロジカルシンキング) 思いつきの提案ではなく、論理の流れを整える 36 (論拠・理由:雨) (根拠・事実:雲) (根拠・事実:雲) (根拠・事実:雲) (論拠・理由:雨) (論拠・理由:雨) (結論・主張:傘) (根拠・事実:雲) (根拠・事実:雲) (根拠・事実:雲) (根拠・事実:雲) (根拠・事実:雲) (根拠・事実:雲)

Slide 37

Slide 37 text

ディメンショナルモデリングとは何か

Slide 38

Slide 38 text

● より迅速に(Agility)より安全に(Quality)データ分析を行えるように 「集計対象」(Fact)と「分析軸」(Dimension)でデータを整理する手法 ● この組み合わせを書き出すプロセス自体が「データ分析の要件定義」になる (=自分たちがどのようなデータをどう分析したいのかを言語化できる) (データ分析者にとっての)ディメンショナルモデリングとは 38 分析軸(Dimension) Who What Where Why & How 集計対象 (Fact) イベント 指標 顧客 従業員 商品 店舗 配送住所 クーポン 受注ID 顧客来店 人数 ✔ ✔ 顧客注文 件数 ✔ ✔ ✔ ✔ ✔ ✔ ✔ 商品発送 期間 ✔ ✔ ✔ ✔ ✔ 商品返品 件数 ✔ ✔ ✔ ✔

Slide 39

Slide 39 text

データ分析の要件を洗い出す ∋ ディメンションとファクトを列挙する 39 ● 「どの切り口で比較すると良さそうか?」「どの指標を見るのが重要か?」を 整理する過程で、必然的にインパクトの大きい領域を特定しやすくなる ● データ分析とディメンショナルモデリングは本質的に連動する

Slide 40

Slide 40 text

ディメンショナルモデリングによるデータ分析のプロセス型化 40 分析テーマの設定 比較軸(ディメンション)の特定 ビジネスイベント(ファクト)の特定 注文:注文金額、注文UU(人数)、注文点数、注文回数 Where(店舗)、What(商品)、Who(顧客属性)、When(季節) 新型コロナで注文の傾向が変わったか確認したい ● ディメンショナルモデリングの発想を知ると、データ分析の手順が明確になる ● 依頼者ヒアリングや作業の見積もり(=データ分析の要件定義)が容易になる

Slide 41

Slide 41 text

「集計対象」(Fact)と「分析軸」(Dimension)を整理した上で、 データ基盤のテーブルとして設計・実装するところまでを指す (本来の意味での)ディメンショナルモデリングとは 41 ゆずたそ(共著)『実践的データ基盤への処方箋』より引用

Slide 42

Slide 42 text

ディメンショナルモデリングでテーブルが整備されていると、 SQLで組み合わせを指定するだけで、欲しいデータを集計できる FactとDimensionの組み合わせを選ぶだけで集計できる(SQL) 42 ゆずたそ(共著)『データマネジメントが30分でわかる本』より引用

Slide 43

Slide 43 text

● BIツールの画面上で組み合わせを指定すると、欲しいデータを集計できる ● 以下は『アジャイルデータモデリング』に掲載されているクラシコム様の事例 FactとDimensionの組み合わせを選ぶだけで集計できる(BIツール) 43 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用

Slide 44

Slide 44 text

Power BI を使うなら、スタースキーマは知っておこうね | ドクセル https://www.docswell.com/s/yugoes1021/KRXVY2-2024-05-08-213110 PowerBIではディメンショナルモデリング(スタースキーマ)が推奨されている 44

Slide 45

Slide 45 text

● DimensionとFactを結合(ワイドテーブル化)してからBIツールに連携 ● 以下は『アジャイルデータモデリング』掲載、NE様とリクルート様の事例 TableauやLookerStudioに渡しやすい形に整えるTips 45 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用

Slide 46

Slide 46 text

● データチームで1冊は持っておくことをオススメしたい ○ 実際にテーブルを設計・構築しようとしたら「あれ?」と思うポイントが多数 ○ データエンジニアの疑問に先回りして応えるのが本書 ● 先にPower BIのスタースキーマガイドを読んでおくと分かりやすいかも ○ https://learn.microsoft.com/ja-jp/power-bi/guidance/star-schema ● 本書の内容すべてを無批判に受け入れてそのまま使う必要はない ○ 風音屋でのデータモデリング標準も本書の内容とは違っている ○ が、議論や検討を始めるための材料は充実している 具体的なテーブルの設計手順については書籍を参照 46 https://www.amazon.co.jp/dp/4065330785

Slide 47

Slide 47 text

2つのデータモデリング( ∋ テーブル設計)の位置付け 47 業務データベースA 例:営業管理システム 業務データベースB 例:予約サイト 目的A 例:営業活動 目的B 例:店舗予約 目的C 例:広告配信 業務データベースC 例:広告ツール 複数システム横断の モニタリング 複数システム横断の データ分析 複数システム横断の データ活用 複数システム横断の データウェアハウス 業務システムを実現するための 3NFをベースとしたデータモデリング データを分析するための データモデリング(今回の内容)

Slide 48

Slide 48 text

数十年の歴史を経て、様々な手法が考案されてきた。手法ごとに得意とする位置づけが異なる。 特に業務ドメイン知識をデータで表現する「ディメンショナルモデリング」は中心的な役割を果たす。 横断データを扱うためのデータモデリング手法 48 前処理のTipsを体系化した Data Vault 2.0 業務知識をマッピングする ディメンショナルモデリング 利用者が加工不要で使える ワイドテーブル データ ソース データ 利用者 スタースキーマや スノーフレークスキーマと呼ばれる テーブル形式で実現する

Slide 49

Slide 49 text

ディメンショナルモデリングを駆使したデータ分析プロセス(イシュー設定編)

Slide 50

Slide 50 text

①関心対象の特定:経営(マネジメント) ● 『アジャイルデータモデリング』掲載、ランサーズの事例 ● コーポレートミッション達成や投資判断のためのデータ分析 50 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用 コーポレートミッション達成に向けて “ダッシュボード画面は、社長室のモニターに 投影しており、常にコーポレートミッショ ン を意識しながら経営がなされる” ● “1人のランサーがサービス横断でどのく らい報酬を得ているのか” ● “カンパニー全体でどのくらい仕事の機 会を提供できているのか” ● “ランサーズの仕事だけで生活できる水 準の報酬を何人に提供できているのか” 投資判断に向けて ● “ランサーズグループが MENTA を買収 した際には、ランサーズと MENTA の利 用状況の重なりを集計し、M&A の成果 (シナジー効果) をモニタリング” ● “事業部単体のデータだけを見ると 「ユーザーの利用が減った」(中略) 横断で見ると「ランサーズグループの サービスを利用し続けている」” ● “データ分析によって M&A や新規事業の 立ち上げといった経営施策を後押し”

Slide 51

Slide 51 text

①関心対象の特定:事業(ビジネス) ● 『アジャイルデータモデリング』掲載、クラシコム様の事例 ● D2C事業におけるビジネス状況とKPIツリーの継続的モニタリング 51 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用

Slide 52

Slide 52 text

①関心対象の特定:業務(オペレーション) ● 『アジャイルデータモデリング』掲載、エイベックス様の事例 ● 担当アーティストの動向や突然のヒット(バズり)を検知 52 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用

Slide 53

Slide 53 text

②構造をモデル化(ビジネスモデル、グロースサイクル) ● 『アジャイルデータモデリング』掲載、ランサーズの事例 ● SNSにて公開、すんで様(すんで埼玉)の事例 ● 事業構造と成長ポイントを図示 53 株式会社風音屋(監訳) 『アジャイルデータモデリング』より引用 「すんで埼玉」SNS投稿より

Slide 54

Slide 54 text

②構造をモデル化(業務フロー図、行動ファネル、画面遷移、カスタマージャーニーマップ) 業務の流れやユーザーの行動を図示 54 カスタマージャーニーマップとは? UX向上を達成する7つの事例と作成方法 https://webtan.impress.co.jp/e/2014/03/24/16722 MENTA講座「K-DEC Tutorial」より

Slide 55

Slide 55 text

③問い(リサーチクエスチョン)に応える どうなると嬉しいか?どうなるとヤバいか?から問いを立て、確認していく 55

Slide 56

Slide 56 text

ディメンショナルモデリングを駆使したデータ分析プロセス(組み合わせ編)

Slide 57

Slide 57 text

④集計対象(Fact:出来事>指標>計算方法)の洗い出し ④-1 : モデル化した図(例:業務フロー図)からビジネスイベントを洗い出す ④-2 : ビジネスイベントから指標を洗い出す ④-3 : 指標から計算方法を洗い出す 57 来店 注文 発送 返品 注文 件数 人数 商品数 金額 注文件数 総計 1人あたり 1商品あたり YoY増加率

Slide 58

Slide 58 text

ビジネスイベントをどのような軸で「分けて」「比べる」か洗い出す ⑤-1 / 分析軸(Dimension:5W1H)の洗い出し 58 分析軸(Dimension) Who What Where Why & How 集計対象 (Fact) イベント 指標 顧客 従業員 商品 店舗 配送住所 クーポン 受注ID 顧客来店 人数 ✔ ✔ 顧客注文 件数 ✔ ✔ ✔ ✔ ✔ ✔ ✔ 商品発送 期間 ✔ ✔ ✔ ✔ ✔ 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用 5W1Hの詳細は ぜひ書籍でご確認ください ※書籍では7Wとして紹介しています。

Slide 59

Slide 59 text

⑤-2 / 分析軸(Dimension:5W1H)の洗い出し(Tips) 59 業務フローから洗い出す 具体例から洗い出す Who 店頭スタッフが What 各商品の在庫を When 毎日20:00閉店後に Where 店舗で 商品 ・A ・B 共 通 ジャンル ・衣類 What 商品カテゴリ 差 異 シーズン ・夏物 ・冬物 When 販売時期 営業 ・Cさん ・Dさん 共 通 所属 ・営業2部 Who 企業 > 部門 差 異 担当エリア ・□市 ・☆市 Where 都道府県 > 市区町村 Who 誰が What 何を When いつ Where どこで Why なぜ How どのように

Slide 60

Slide 60 text

⑤-3 / 分析軸(Dimension:5W1H)の階層化 ● 『アジャイルデータモデリング』掲載、商船三井様の事例 ● 最小粒度でデータを管理し、必要な粒度で集計する 60 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用

Slide 61

Slide 61 text

⑤-4 / 必要なデータ項目が必要な粒度(グレイン)で使えることを確認 【項目】なるべく多くのデータが欲しい ・👎 購入日、支払い金額、対象商品 ・👍 購入日、支払い金額、対象商品、割引額、利用クーポン 仮に最初は不要でも、クーポンの影響を分析したくなる日が来るかも 【粒度】なるべく細かいデータが欲しい ・👎2024年8月01日 ・👍2024-08-01 11:30:00.000 JST 仮に最初は不要でも、時間帯別の売上を分析したくなる日が来るかも 61

Slide 62

Slide 62 text

⑥ Fact (④) と Dimension (⑤) を「イベントマトリックス」としてペラ1にまとめ 62 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用 ● Factを左に、Dimensionを上に書いて 組み合わせ表(マトリックス)をまとめる ● データチームの定期ミーティングにて イベントマトリックスを更新したり データ整備やデータ分析のTODOに反映する

Slide 63

Slide 63 text

参考:風音屋式イベントマトリックス(MENTA講座でハンズオン提供中) 以下の組み合わせをまとめる ● Fact:出来事>指標>計算方法 ● Dimension:5W1H x 階層化 1つのアウトプットで 情報を網羅することが可能となる →この内容に沿って整備・分析できる 63 MENTA講座「K-DEC Tutorial」より

Slide 64

Slide 64 text

ディメンショナルモデリングを駆使したデータ分析プロセス(データ取得編)

Slide 65

Slide 65 text

⑦データ取得元を洗い出す ● CRUD表を書き出して、データがどこで発生し、どこで参照されるかを列挙する ● CRUD表を拡張し、「左に取得元」「上にFactとDimension」の表を書いて、 今回の分析に必要なデータをどこから取得するのかを明らかにする ● 必要なデータが取得できていない場合は、データを集めるところからスタート (例:ドイツ帰りのAIエンジニアが旭川のサポートセンターに1週間滞在してExcelを直した話) 65 ゆずたそ(共著)『実践的データ基盤への処方箋』より引用 スライド『Data Management Guide』より

Slide 66

Slide 66 text

⑧不足データを集める(社内のオペレーション変更やシステム構築) 『アジャイルデータモデリング』掲載、福岡地所様の事例 66 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用 “管理施設の来場客アンケート” “紙のまま管理するのではなく、PC でデータを入力するように運用を見直し” “取引先マスタの実現にあたって、業務支援 SaaS で個々のデータを入力・生 成し、AWS(アマゾンウェブサービス)で横断的にデータを集約・管理” “マスタデータ管理(MDM: Master Data Management)と呼ばれる活動”

Slide 67

Slide 67 text

⑧不足データを集める(外部サービスとのAPI連携) 『アジャイルデータモデリング』掲載、エイベックス様の事例 67 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用 “エイベックスが提供するサービスに加えて、外部の動画サイトやソーシャル メディア、音楽ストリーミングサービスのデータを BigQuery に統合”

Slide 68

Slide 68 text

⑧不足データを集める(オープンデータ) 『アジャイルデータモデリング』掲載、東京大学の事例 68 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用 “天気、気温、休祝日、セール有無といったデータは「ディメンション」に該当” “民間企業の提供データを「ファクト」、オープンデータを「ディメンション」と して扱い、シンプルなスタースキーマの形式で提供” “Python でファクトとディメンションを自由自在に結合し、データ分析を実施”

Slide 69

Slide 69 text

データ整備とデータ分析は常にセット データ整備 【収集】クリミア戦争での英軍の死因を計測した 【集計】月別 x 死因別 に死者数を集計した 【可視化】英国女王がひと目でわかる円グラフで表した データ活用 【事実】負傷(赤)よりも感染症(青)のほうが多い 【洞察】野戦病院の衛生状態が悪いため、負傷者が感染症に罹る 【打ち手】兵士の訓練強化ではなく、病院の衛生改善に注力する 【改善結果】院内死亡率を40%→2%に大幅削減 Florence Nightingale (1858) "Note on Matters affecting the Health, Efficiency and Hospital Administration of the British Army” ナイチンゲールは「白衣の天使」だったのか?―統計学者ナイチンゲールとその歴史的背景 https://www.kansai.ac.jp/pdf/forward01.pdf コラム:世界一有名な統計学者=データ整備人 69

Slide 70

Slide 70 text

ディメンショナルモデリングを駆使したデータ分析プロセス(集計&可視化編)

Slide 71

Slide 71 text

⑨リサーチクエスチョン(問い)に応えるための集計リストを洗い出す ● 集計対象(ファクト)と分析軸(ディメンション)の組み合わせを列挙する ● リサーチクエスチョン(問い)をもとに優先順位を並び替える ● 思いついた分析を、思いついた順番に実施しても、ひたすら手戻りが続くだけ 71 MENTA講座「K-DEC Tutorial」より

Slide 72

Slide 72 text

⑩集計結果に応じたアクションを事前に洗い出す 『アジャイルデータモデリング』掲載、ランサーズの事例 ● WEBサービスの機能リニューアル後に利用状況を分析するケース ● 集計結果に応じたアクションを事前に描く(シナリオ・プランニング) ● 「データを見てから考える」だと、ひたすら手戻りが続くだけ 72 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用

Slide 73

Slide 73 text

⑪アウトプットのスケッチを描く ● 『アジャイルデータモデリング』掲載、ランサーズの事例 ● ファクト(集計対象)とディメンション(分析軸)の組み合わせに適した データ可視化の手法を選定し、ビジュアライズの要件に落とし込む ● 思いついたグラフを、思いついた順番に作っても、ひたすら手戻りが続くだけ 73 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用

Slide 74

Slide 74 text

⑫アウトプットから逆算してデータ集計の流れを確認する ● データ集計の流れを事前にスケッチしておく ● 「SQLやPythonで試行錯誤する」だと、ひたすら手戻りが続くだけ ● この流れに沿って集計し、検算し、可視化し、結果を踏まえて意思決定する 74 MENTA講座「K-DEC Tutorial」より

Slide 75

Slide 75 text

これまでの観点と違う新しい観点でデータを見る 結果:ビジネスを継続的に改善・進化させるための柔軟なデータ分析を実現 75 繊維 工業 卸小売 飲食業 宿泊業 チームA 京都府 80 40 60 60 チームB 大阪府 60 60 80 80 チームC 兵庫県 20 80 80 60 チームD 滋賀県 40 20 20 20 市場環境の変化 これまでと違う観点での データ分析 社内外のデータ 根拠のある 意思決定 変化に適応 失敗を検知 マーケット変化への適応 「これまでは営業組織に合わせてエリア別で数字を見ていた」 「新型コロナの影響があるはずなので業種別で数字を見たい」 「飲食業など店頭サービス業での利用は減少したか」 「それらの店舗に対して何か支援を提供できないか」 「逆にこの状況で伸びている業種はあるのだろうか」 「これまでと違った利用の急な増加に備えるべきか」

Slide 76

Slide 76 text

データエンジニアによるテーブル整備の重要性

Slide 77

Slide 77 text

テーブル整備済みなら多くのステップを省略可能 ● データエンジニアが事前にテーブルを設計していたら、 このプロセスのうち多くのステップを省略することができる ● データ分析者はFactとDimensionの組み合わせを選ぶだけで即座に集計できる ● (再掲)クラシコム様とリクルート様の事例 77 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用

Slide 78

Slide 78 text

分析者のニーズが大きいデータを優先的に整備する ● 『アジャイルデータモデリング』掲載、ビズリーチ様の事例 ● 分析者のニーズを汲み取って、段階的にデータを整備していく 78 “第 1 ラウンドとして、「ビズリーチ」の「契約 企業」に関する中間テーブルを整備” “「Who」に該当するディメンション” “社内から要望の多かった「登録者」(求職者) に 関する中間テーブルも、第 2 ラウンドで整備” “こちらも「7W」における「Who」に該当する ディメンション” “ビズリーチは「契約企業」と「登録者」をマッ チングするビジネスなので、その 2 つの 「Who」を優先的に構築” 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用

Slide 79

Slide 79 text

データ分析のボトルネックになる部分を効率化・標準化する 『アジャイルデータモデリング』掲載、住友化学様の事例 79 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用 “データ解析業務を効率化し、収集・加工に要する工数を 90% 削減” “データ構造を全社的に標準化することで、担当者による試行錯誤が不要になり、 データ分析ツールを 40 以上のプラントに水平展開”

Slide 80

Slide 80 text

データモデリングを実現するためのテクノロジーを導入する 『アジャイルデータモデリング』掲載 ELTツール ・ランサーズの事例(dataform) ・NE様の事例(dbt) Semantic Layer ・クラシコム様の事例(LookML) 80 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用

Slide 81

Slide 81 text

データモデリングをはじめよう! 「使いやすいテーブル」「使われるデータ基盤」の構築に挑戦してみましょう! 2025年をデータ分析業界の「データモデリング元年」にしていきましょう! 81 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用

Slide 82

Slide 82 text

おわりに

Slide 83

Slide 83 text

↓ここまではできるけど… ● SQLやPython、BIツールを使えるようになった ● データの集計や可視化ができるようになった ● G検定や統計検定の勉強をしている ↓ここに課題を感じている ● ステークホルダーが期待する「ビジネスに役立つデータ分析」とのギャップを感じている ● 依頼や指示に対応しているだけで、自分からデータ分析の方針を提案できていない ● 思いついたものを思いついた順番にやるだけで、要件の網羅性や優先順位に自信がない という「データ分析者」の皆様! もしくは「データ分析に挑戦してみたいデータエンジニア」の皆様! 想定する聞き手(再掲) 83

Slide 84

Slide 84 text

データ分析者に「ディメンショナルモデリング」を紹介します! ● そもそもビジネスにおけるデータ分析とは何か? ● そのために、どのようなデータが整備されていると便利なのか? ● ディメンショナルモデリングを駆使すると、データ分析はどう変わるのか? 本日の内容(再掲) 84

Slide 85

Slide 85 text

本日紹介した「データ分析のプロセス」や 「ディメンショナルモデリングの考え方」を データ分析の業務に組み込んでみてはいかがでしょうか? ぜひ明日から何か1つ、どんなに小さくても良いので アクションに繋げていただければと思います! Next Action 85

Slide 86

Slide 86 text

本日紹介した「データ分析のプロセス」に挑戦したい人、初心者でも歓迎なので、 ぜひMENTA講座を受けてください!ハンズオンチュートリアルを提供しています! ※風音屋のnoteにて受講案内を行っております。 今日の内容を実践したい データ分析者やコンサルタント 86

Slide 87

Slide 87 text

FactとDimensionを組み合わせるだけで瞬時にデータを集計できるようにしたい! データ基盤のテーブルを整えていきたい!という人、ぜひ書籍を読んでください! ディメンショナルモデリングを学びたい データエンジニア 87

Slide 88

Slide 88 text

「書籍を読むだけじゃ分からない」「手を動かして訓練したい」という人、 ぜひMENTA講座を受けてください!ハンズオンチュートリアルを提供しています! ※風音屋のnoteにて受講案内を行っております。 ディメンショナルモデリングを実践したい データエンジニア 88

Slide 89

Slide 89 text

ディメンショナルモデリングについて実践したい人& ワイワイと議論したい人、ぜひ風音屋にご応募ください! データ人材、積極採用中! 89 株式会社風音屋(監訳)『アジャイルデータモデリング』より引用

Slide 90

Slide 90 text

ご清聴ありがとうございました 90 改善サイクルを回し、今日よりも良い明日を。 https://kazaneya.com/contact