データ分析を支える技術データモデリング再入門

データ分析を⽀える技術データモデリング再⼊⾨ 2022/07/27 データアナリティクス事業本部⽯川覚

2 ⾃⼰紹介名前︓⽯川覚（いしかわさとる）所属︓データアナリティクス事業本部インテグレーション部コンサルティングチーム担当︓コンサルタント、ブログ・登壇等経歴︓メーカーでSE、研究開発
→ITベンチャーで製品開発、受託研究 →クラスメソッド（2014/6〜）好きなサービス︓Amazon Redshift/Athena、Google BigQuery 2022 ALL Certified & APN AWS Top Engineers Sapporo

Amazon.com, Inc. – Press Room 3 AWSのプレスリリースにて、Redshift ServerlessのPrivate Previewに参加したクラスメソッドのコメントが掲載されました Classmethod,
Inc. is a leading cloud integrator with expertise in big data, mobile, and artificial intelligence. “Our data integration platform service, called Customer Story Analytics (CSA), integrates Amazon Redshift, Amazon S3, Amazon Aurora, and other services to avoid data silos and provide powerful, unified governance between data services,” said Satoru Ishikawa, Solution Architect, Data Integration Division at Classmethod. “Amazon Redshift Serverless automates the sizing of compute and storage and quickly scales to meet demand. This elastic serverless experience mitigates manual operational costs, expands data access among departments, and accelerates autonomy on data analytics and machine learning, allowing us to scale the CSA business in new and exciting ways.” https://press.aboutamazon.com/news-releases/news-release-details/aws-announces-new-serverless-options-three-analytics-services/

関連動画 4 事前に下記のセッションも合わせてご覧ください。 https://dev.classmethod.jp/articles/20200619-devio2020- connect-primer-of-dwh/ https://dev.classmethod.jp/articles/20211015_devio2020- decade-data-analysis-platform/

アジェンダ 5 • DWHのデータモデリング • ビル・インモンさんのDWHのデータモデリング • ラルフ・キンボールさんのディメンショナルモデリング • DWHアプローチの選択
• Data Vault モデリング（Data Vault 2.0）

DWHのデータモデリング

DWHのデータモデリングとは 7 データ分析⽤途のDBであるDWH(データウェアハウス)を分析しやすいテーブル構造や構成にする⼿法

DWHのデータモデリングとは 8 データ分析⽤途のDBであるDWH(データウェアハウス)を分析しやすいテーブル構造や構成にする⼿法 • 基幹DBは、正規化されておりテーブルの関連が複雑で、アナリストが分析しやすい形式ではない • 基幹DBのデータを分析対象の⽬的別に再編する •
データを分かり易く、分析しやすいテーブル構造や構成にする

DWHのデータモデリングとは 9 「仏作って魂⼊れず」ということわざがありますが、データモデリングせずにDWHという「器」を導⼊しただけでは、データ分析は捗りません。

DWHのデータモデリングとは 10 データモデリングを考えずに導⼊したデータ分析基盤は、データマートの乱⽴、もしくは、データが分かりにくく、分析に⼿間がかかるため、あまり使われなくなってしまったり、、、 ৸ͯΔ΍Μ Z z z
. . . .

DWHのデータモデリングとは 11 分析に適さないテーブル構造や構成による性能低下、オーバープロビジョニングによるコスト上昇などの問題が考えられます。 ͰͬɺσΧ

分かりそうで分からない、その理由 12 私の経験でまとめますと、 1. データモデリングというと、⼀般的には基幹システムで⽤いられる「ERモデリング（第3正規化）」を意味する 2. DWHの誕⽣と、その発展に貢献したの⼆⼈のアーキテクトの意⾒の相違がありました。（こちらについては後で解説します。）
3. DWHのデータモデリングよりも、DWH製品やサービスなどに特化した情報ばかりが多く、データの中⾝についてフォーカスされていない。

分かりそうで分からない、その理由 13 この３つの情報が、時系列に関係なく混在しており、ベテランのDBエンジニアに限って混乱してしまいがちです。 Ͳ͕ͬͪ ͑͑Μ΍

代表的なDWHのモデリング⼿法 14 DWHの誕⽣と発展に貢献した2⼤アーキテクトと新しい潮流 • ビル・インモンさんが提唱するDWH（データウェアハウス） • ラフル・キンボールさんが提唱するディメンショナルモデリング • 新しいデータモデリング⼿法 Data
Vault モデリング（Data Vault 2.0）

ビル・インモンさんの DWHのデータモデリング

インモンさんが提唱するDWH 16 DWH（データウェアハウス）の以下の4つの特性に従い、データを横断的に分析するため⼀箇所に集める 1. 統合化（integrated） • 各部⾨のデータの表記揺れや意味を統⼀ 2. サブジェクト指向（subject
oriented） • データを⽬的毎に分類して、分析の軸（次元）ごとに集計して蓄積したデータである「データマート」を作成 3. 恒常性（nonvolatile） • 変更せずに参照可能な状態で保存 4. 時系列（time variant） • ⽇々⽣成されるデータ、その時点のデータ状態を保存

インモンさんが提唱するDWH 17 DWHの特⻑ • データを正規化したトップダウンアプローチ • データを正規化して冗⻑性を可能な限り回避することで、ビジネス要件の明確化とデータ更新の不正を防⽌する • 正規化された構造は、データの読み込みがシンプルで、ビジネスの
変化に対して堅牢であり、データマート全体のデータの次元的な視点が含まれる • DWHは、データマートの「信頼できる唯⼀の情報源（SSOT: Single Source Of Truth）」であり、企業全体の整合性と⼀貫性を確保する

インモンさんが提唱するDWH 18 しかし、、、正規化したデータは、様々な更新が⽣じても⼀貫性を保つことができますが、複雑な参照関係と多数のテーブルができてしまい、アナリストが理解し、活⽤するのは困難です。 ࣌ؒΛ ཁ͢Δ͔΋

ラルフ・キンボールさんのディメンショナルモデリング

キンボールさんが提唱するディメンショナルモデル 20 ラルフ・キンボールさんが提唱するディメンショナルモデルとは、スタースキーマでDWHを構築すること • 分析したい値を持つファクトテーブルと、分析の軸（次元）となる値を持つディメンションテーブルから構成される • ⾮正規化されているため、アナリストは複雑なテーブルを結合せずにドリルアップおよびドリルダウンできます。
• ERモデル（第3正規化）はアナリストが分析するデータとして最適ではない

キンボールさんが提唱するディメンショナルモデル 21 エンタープライズDWH（データウェアハウス）とは反対に、ディメンショナルデータモデルは、ボトムアップアプローチで、最初にデータマートがビジネス要件に基づいて作られます。 Stanford. 2003. “Data Warehousing Concepts”
https://web.stanford.edu/dept/itss/docs/oracle/10g/server.101/b10736/concept.htm#i1006297

スタースキーマとは 22 売上時間ID 店舗ID 商品ID 顧客ID 担当者ID 売上⾦額時間
時間ID 年⽉⽇時間休⽇店舗店舗ID 店舗名地域顧客顧客ID 顧客名顧客分類商品商品ID 商品名カテゴリ担当者担当者ID 担当者名部⾨テーブル同⼠の関係性を可視化すると、ファクトテーブルを中⼼にその周りをディメンションテーブルが取り囲む形になる。

スタースキーマ 23 テーブル同⼠の関係性を可視化すると、ファクトテーブルを中⼼にその周りをディメンションテーブルが取り囲む形になる。売上時間ID 店舗ID 商品ID
顧客ID 担当者ID 売上⾦額時間時間ID 年⽉⽇時間休⽇店舗店舗ID 店舗名地域顧客顧客ID 顧客名顧客分類商品商品ID 商品名カテゴリ担当者担当者ID 担当者名部⾨

ファクトテーブル 24 ファクトテーブルは、分析したい値（メジャー）の列と、その周りのテーブル（ディメンションテーブル）を参照する外部キーの列がある売上時間ID 店舗ID
商品ID 顧客ID 担当者ID 売上⾦額時間時間ID 年⽉⽇時間休⽇店舗店舗ID 店舗名地域顧客顧客ID 顧客名顧客分類商品商品ID 商品名カテゴリ担当者担当者ID 担当者名部⾨ファクト

ディメンションテーブル 25 ディメンションテーブルは分析の軸（次元）を持つテーブル売上時間ID 店舗ID 商品ID 顧客ID 担当者ID
売上⾦額時間時間ID 年⽉⽇時間休⽇店舗店舗ID 店舗名地域顧客顧客ID 顧客名顧客分類商品商品ID 商品名カテゴリ担当者担当者ID 担当者名部⾨ディメンション

ファクトとディメンションの関係 26 売上時間ID 店舗ID 商品ID 顧客ID 担当者ID 売上⾦額時間
時間ID 年⽉⽇時間休⽇店舗店舗ID 店舗名地域顧客顧客ID 顧客名顧客分類商品商品ID 商品名カテゴリ担当者担当者ID 担当者名部⾨ • ディメンションテーブルに対してファクトテーブルは圧倒的にレコード数が多い傾向がある • あえて第3正規形まで正規化せず、第2正規形で留めておくことでテーブルの結合するコストを抑える

スノーフレークスキーマ 27 売上時間ID 店舗ID 商品ID 顧客ID 担当者ID 売上⾦額商品
商品ID 商品名カテゴリID • ディメンションが更に正規化されている構成を雪の結晶に例えて、スノーフレークスキーマと呼ばれる • スタースキーマが望ましいが、ディメンションを事前結合するとレコード数が爆発的に増える場合に有⽤ • 複雑なテーブル結合によるパフォーマンス低下 • テーブル間の関係把握を必要するカテゴリカテゴリID カテゴリディメンションが更に正規化

スローリーチェンジングディメンション（SCD） 28 DWHで使⽤するディメンションテーブルの更新の対応⽅法で、 Type0〜Type4と、2種類のHybrid SCDsがある • Type0 SCD • データが更新しても何もしない
• Type1 SCD • 値が変化したときに、現在のテーブルの値を上書き変更する • Type2 SCD • 値が変化したときに、新しいレコードを追加して、レコードに開始⽇と終了⽇を⼊れる • Type3 SCD • 現在の値と前の値のフィールドを事前に⽤意しておき、変更があった場合にそれぞれに更新する • Type4 SCD • 最新の情報に更新し、古いデータは履歴テーブルへ追加する

スローリーチェンジングディメンション（SCD） 29 DWHで使⽤するディメンションテーブルの更新の対応⽅法で、 Type0〜Type4と、2種類のHybrid SCDsがある • Hybrid SCDs（複数バージョンによる予期可能な変更）事前に複数バージョンのデータを保存するカラムを⽤意する⽅法。開催国2024
開催国2020 開催国2016 ⽇本ブラジル開催国2024 開催国2020 開催国2016 フランス⽇本ブラジル

スローリーチェンジングディメンション（SCD） 30 • Hybrid SCDs（単⼀バージョンによる予測不可能な変更）予測できない変更に対して、現在の状態とそのデータの開始⽇と終了⽇のレコードを追加する⽅法。 DWHで使⽤するディメンションテーブルの更新の対応⽅法で、 Type0〜Type4と、2種類のHybrid SCDsがある
現住所前住所開始⽇終了⽇北海道北海道 20000101 99991231 現住所前住所開始⽇終了⽇東京北海道 20000101 20171231 福岡東京 20180101 99991231

ファクトの設計 31 ファクトデータの格納⽅法は、利⽤⽬的によって4つある。 • トランザクションデータをテーブルに追加して保存する。売上のように積み上げたデータを集計して利⽤する。 • スナップショット
ある時点での状況をテーブルに保存する。在庫などある時点での数量や状態を分析するために利⽤する。 • ファクトレスファクトテーブルファクトの値（メジャー）を持たないが、レコード数を⽤いて集計する。例えば、会員マスタのレコード数から会員数を把握する • アキュムレーションスナップショット 1レコードの中に関連するデータを保存する。関連するデータを分析したい場合に⽤います。発注⽇納品⽇⽀払⽇売上 20220101 100000 発注⽇納品⽇⽀払⽇売上 20220101 20220531 100000 発注⽇納品⽇⽀払⽇売上 20220101 20220531 20220630 100000

ディメンショナルデータモデルの特⻑ 32 • 正規化を意識せずに、DWH設計プロセスの初期段階を迅速に実⾏できるため、構築が⾼速です。 • スタースキーマの利点は、クエリと分析が簡素化される⾮正規化された構造のため、簡単に理解できます。 • 企業全体ではなく個々のビジネス分野とプロセスに焦点を当ててい
るため、DB内のリソースが少なくて済み、システム管理が簡素化されるため、DWHからのデータ取得が⾼速になる

キンボールさんが提唱するディメンショナルモデル 33 しかし、、、 • 「信頼できる唯⼀の情報源（SSOT: Single Source Of
Truth）」は、失われており、企業全体の整合性と⼀貫性を確保できない • ⾮正規化⼿法では、データが更新されるときに冗⻑データがテーブルに追加される可能性やビジネスニーズの変化に応じたデータ変更が困難 • ファクトに列を追加すると、テーブルの分析軸（次元）が拡張され、パフォーマンスに悪影響を与える可能性がある Ұ௕Ұ୹ ͳͷͶ

DWHアプローチの選択

どちらのDWHアプローチが良いのか︖ 35 共通点 • データを⼀箇所に集めて横断的にデータを分析したり、BIレポートをサポートするための中央リポジトリとして機能する • データの読み込みにETL（Extract Transform Load）の概念を⽤いる
• 事前にテーブルを結合することで、データの使い勝⼿やBIダッシュボードのパフォーマンス改善する⼤福帳テーブルを作成する相違点 • ディメンショナルデータモデルは、データをモデル化してDWHに読み込み、スタースキーマを構成する • ディメンショナルデータモデルは、データを素早く、より簡単に扱えるようにするため、あえて第2正規化に留める

DWHアプローチの⽐較 36 特徴インモンさんのアプローチキンボールさんのアプローチ DWHの構築時間を要するより少ない時間で済むメンテナンス企業全体の整合性と⼀貫性
を確保できるため、簡単難しく、冗⻑になりがちで、変更される可能性ありコスト初期コストが⾼いが、プロジェクトの開発コストが削減される初期コストが低く、その後の各フェーズもほぼ同じコスト時間起動時間が⻑くなる初期設定時間が短くて済む難易度専⾨家チームゼネラリストチームデータ統合要件企業全体個別事業領域

DWHアプローチ選択のポイント 37 DWH構築までのスピード感やETL設計の将来のバリエーションに耐える能⼒を考慮する。 • 組織のビジネス⽬標 • ビジネスの性質 • 関連する時間とコスト
• さまざまな機能間の依存関係

DWHアプローチ選択のポイント 38 インモンさんのアプローチ設計にかかる時間と関連するコストに余裕がある安定した状況に適している。ビジネス条件が変化するたびに、設計は変更されません。キンボールさんのアプローチ DWHを迅速に構築することが求め
られ、データを素早く、アナリストがより簡単に扱えることが優先される状況に適している。

られ、データを素早く、アナリストがより簡単に扱えることが優先される状況に適している。すべてのデータが相互に関連しており、全体像を把握することが重要な保険業や、関連する予算に関係なく、複数の機能が関係する製造業に向いている。

られ、データを素早く、アナリストがより簡単に扱えることが優先される状況に適している。すべてのデータが相互に関連しており、全体像を把握することが重要な保険業や、関連する予算に関係なく、複数の機能が関係する製造業に向いている。顧客ごとに販売したサービスを部⾨間でリンクする必要がなく、範囲が限られるCRMや、主にデータマートのみを必要とするマーケティングに向いている。

られ、データを素早く、アナリストがより簡単に扱えることが優先される状況に適している。取り扱うデータや分析要件に応じて、 2つのアプローチ使い分けることが多く、排他的なアプローチではない。

Data Vault モデリング（Data Vault 2.0）

Data Vault 2.0とは 43 DAN LINSTEDT.COM. “Data Vault Basics” the
data vault is a detail oriented, historical tracking and uniquely linked set of normalized tables that support one or more functional areas of business. it is a hybrid approach encompassing the best of breed between 3rd normal form (3nf) and star schema. the design is flexible, scalable, consistent and adaptable to the needs of the enterprise. it is a data model that is architected specifically to meet the needs of todayʼs enterprise data warehouses. Data Vaultは、詳細指向で、履歴を追跡し、⼀意にリンクされた正規化テーブルのセットであり、1 つまたは複数のビジネス機能領域をサポートします。これは、第3正規形（3NF）とスタースキーマの良いところを取り⼊れたハイブリッドなアプローチです。これは、今⽇のエンタープライズデータウェアハウスのニーズを満たすために特別に設計されたデータモデルです。 DAN LINSTEDT.COM. “Data Vault Basics” https://danlinstedt.com/solutions-2/data-vault-basics/

Data Vault のアーキテクチャ 44 Data Vaultのアーキテクチャは、3つの層で構成される。 Sales Finance
Contracts Staging Area (relational) Business Vault Information Delivery Operational Vault Metrics Vault Start Schemas Cube Report collection Meta mart Metrics mart Enterprise Data Warehouse Staging Master Data Data Vault (relational EDW)

Data Vault のアーキテクチャ 45 Staging ソースデータをロードして、データ型やサイズ、⽂字コードの変換、ハッシュ化したプライマリキー、データロード⽇時、データソー
ス元のカラムの追加などの変換を適⽤する。 Sales Finance Contracts Staging Area (relational) Business Vault Information Delivery Operational Vault Metrics Vault Start Schemas Cube Report collection Meta mart Metrics mart Enterprise Data Warehouse Staging Master Data Data Vault (relational EDW)

Data Vault のアーキテクチャ 46 Sales Finance Contracts Staging Area (relational)
Business Vault Information Delivery Operational Vault Metrics Vault Start Schemas Cube Report collection Meta mart Metrics mart Enterprise Data Warehouse Staging Master Data Data Vault (relational EDW) Enterprise Data Warehouse Data Vault データの履歴付きコピーを保持する。ソースに依存しないデータを格納することを除いて、フィルターやビジネス変換は⾏わない。（Hub、 Link、Satelliteを含む） Business Vault PIT(Point in Time) Table やBridge Tableを作り、SQL の結合処理の複雑化を回避。

Business Vault Information Delivery Operational Vault Metrics Vault Start Schemas Cube Report collection Meta mart Metrics mart Enterprise Data Warehouse Staging Master Data Data Vault (relational EDW) Information Delivery BIダッシュボードや抽出など、ユーザーが最もアクセスするデータを保存する場所⼀般にスタースキーマが⽤いられ、データマートや⼤福帳テーブルなどを保存する Data Vaultでは、いわゆるデータマートは、インフォメーションマートと呼ばれる

Information Delivery Start Schemas Cube Report collection Meta mart Metrics mart Staging Master Data

Business Vault Information Delivery Operational Vault Metrics Vault Start Schemas Cube Report collection Meta mart Metrics mart Enterprise Data Warehouse Staging Master Data Data Vault (relational EDW) Enterprise Data Warehouse が、Data Vaultの特徴です。すべての属性は、キンボールさんのディメンションモデリングのSCD Type2に似た⽅法で管理されます。

Data Vault の特徴 50 Hub、Satellite、Linkと呼ばれる3種類のテーブルで作られたエンタープライズデータモデルの領域（Data Vault）をEnterprise Data Warehouseに作る。 •
Hub ソースデータのビジネスキーにより⽣成されるハッシュキー、ビジネスキー、データロード⽇時、データソース元を持つ。 • Satellite ソースデータのHubが持たなかったカラムと、履歴管理⽤のカラムを持つ。履歴管理⽤のカラムは、 Hub のプライマリキー、データロード⽇時、データソース元、ハッシュ値（hash_diff）を持つ。 • Link Hub間やSatelliteを含めたビジネスオブジェクトのリレーションシップを持つ。 Link Hub Hub Satellite Satellite Satellite Satellite Hub

Data Vault が特⻑ 51 •ビジネスキーの管理をビジネスエンティティ (Hub、Satellite、Link) のすべての属性から切り離し、テーブル間の独⽴性を確保できる •すべてのデータを保持して、「信頼できる唯⼀の情報源（SSOT: Single Source
Of Truth）」として機能するため、リエンジニアリングなしでバリエーションや変更に、柔軟に対応できる •履歴レコードの追跡による更新管理と監査可能性を提供します •フォールトトレラントなインジェストパイプラインを⽤いて、⾼度な並列処理でデータの読み込みが可能です •データソースで更新があった場合、レコード追加時の重複管理により値の変更の有無が判別（hash_diff）が可能です

Data Vault の課題 52 しかし、、、 • Data Vaultモデルはより複雑になる可
能性がある • Data Vaultを正しく実装する⽅法を知るデータエンジニアが必要です • データの完全な履歴を維持するために⼤容量のストレージが必要になる場合がある • データがData Vaultに取り込まれれても、BIツールなどで利⽤するためには、スタースキーマを作成する必要がある αΫοͱ෼ੳ͍ͨ͠ ͚ͩͳͷΑ

Data Vault 2.0 を実現するためのフレームワーク 53 • Data Vault 2.0 データウェアハウスを構築するために必要なETLを
⽣成および実⾏する dbt パッケージ • SQLとテンプレート、マクロを⽤いてテーブルなどを構成を管理 • 現在は、Snowflake、MS SQL Server、BigQueryをサポート • 将来的に、Redshift、Datatabricks、PostgreSQLもサポート予定 GitHub - Datavault-UK / dbtvault ※ とは、 ETL（Extract Transform Load）プロセスの中で、DWHに既に読み込まれているデータの「 Transform （変換）」を担うツール。

まとめ

データモデリング⼿法を採⽤する⽅針 55 • 素早くデータ分析基盤を⽴ち上げる場合 • キンボールさんのディメンショナルデータモデリングを採⽤する • 具体的な分析対象・データに対するボトムアップ・アプローチ • 全てのデータを蓄積するデータ分析基盤を⽴ち上げる場合
• Data Vault 2.0もしくはインモンさんの第3正規化で累積データを維持する • BIや抽出などのプレゼンテーション領域は必須、ディメンショナルデータモデリングとのハイブリットになる • スタースキーマやデータマート作成に必要な累積データが明らかな段階でのトップダウン・アプローチ

データモデリング⼿法を採⽤する順番 56 • データ分析基盤を新規で⽴ち上げる場合 • まずは、ディメンショナルデータモデリングを採⽤、スタースキーマでDWHを構築する • データの活⽤を通じてユースケースを⾒極める •
既存のデータ分析基盤を改善したい場合 • 課題（As-is、To-be）を明らかする • スタースキーマや⼤福帳テーブルなどを改善する • 分析要件に柔軟に対応できるようにするため、 Data Vault 2.0 もしくはインモンさんの第3正規化で累積データを維持を検討 • モデリングに最適なアーキテクチャ（データレイク、DWH、データ共有、スケーリング戦略）の⾒直し

DWHのデータモデリングの必要性を感じて頂けたら幸いです。

データ分析を支える技術 データモデリング再入門

データ分析を支える技術 データモデリング再入門

More Decks by Satoru Ishikawa

Other Decks in Technology

Featured

Transcript

データ分析を支える技術データモデリング再入門

データ分析を支える技術データモデリング再入門