2024年度サイバーエージェント新卒社内研修の「データモデリング」の資料公開

データモデリング 2024年度 AI事業本部研修データアプリケーション研修応⽤編より抜粋

基幹系・情報系による分類 2 分類基幹系システム OLTP: Online Transaction Processing 情報系システム OLAP:
Online Analytical Processing 要求データの整合性を担保しながら高速に読み書き大量のデータを高速に集計・分析業務における役割販売管理、在庫管理、生産管理、財務会計といった特に経営を支える屋台骨となる業務を一元管理して、効率よく行うためのシステム社内外のコミュニケーション、事務処理の効率化、あるいは意思決定支援などに利用されるシステム操作の特徴追記に加え、更新も多い追記が多いアクセス範囲読み取らなければいけないデータは全体の一部データ全体

データモデリングの流れ要件分析 ˔ データベースで管理したいデータやデータの使われ⽅などを整理概念設計 ˔ 要件定義をもとに、DBかの対象となる実世界をモデル化 ˔ 特定の DBMS
のデータモデルには依存しない ˔ ER モデルが主流論理設計 ˔ 概念モデルを DBMS のデータモデルでスキーマに変換（PKなど） ˔ スキーマの改善物理設計 ˔ インデックス。ファイルフォーマットなどの性能チューニング ˔ この後のステップにはセキュリティ設計などが含まれる 3

ERD︓Entity Relationship Diagram 4 データベースの構造を視覚的に表現したものエンティティ︓ 実世界のオブジェクトの概念（例︓商品・メーカ・注⽂）属性︓ エンティティを詳細に記述するための要素
（例︓商品名・原価・注⽂⽇）リレーションシップ︓ エンティティ間の関連性や相互作⽤（例︓1:1、1:N、N:M などの関係）

正規化第⼀正規化重複したレコードの排除第⼆正規化⾮キー属性が候補キーに完全関数従属第三正規化⾮キー属性が候補キーに推移的関数従属実務では第３正規化まで⾏うことが多い最適化のために物理設計で
⾮正規化を⾏うこともある 5 キー属性は「注文番号」と「商品番号」。「商品名」、「分類」、「単価」は、「商品 ID」によって一意に決まるので分割キー属性は「注文番号」。「名前」、「住所」、「電話番号」は、「顧客 ID」によって一意に決まるため分割注文明細テーブル注文テーブル注文テーブル注文明細テーブル商品テーブル注文テーブル顧客テーブル注文明細テーブル商品テーブル

モデリングでのテーブルの分類⽅法マスタ（システムにとって重要なデータ） • ユーザーが変更できないデータ • あらかじめ登録しておくデータトランザクション（作業時に発⽣するデータ） • ユーザーが登録するデータ •
⽇報データや売上や活動履歴とかリソース • ユーザや企業、ジョブの状態など • 主に更新されるイベント • ユーザ登録や削除、ジョブ開始など • 主に追記されるマスタ・トランザクション（定義は諸説ある）リソース・イベント（最近はこちらの表現が多い） 6

イミュータブルデータモデリング CRUDの中で基本的に更新が最も時間がかかり、システムを複雑にするデータを変更せず、新しい追記するようにすればパフォーマンスの向上、さらにデータの⼀貫性と信頼性を向上させることができる（関数型プログラミングの原則をデータ管理にも適⽤）リソース系とイベント系を明確に分け、リソース系を⼩さくする⽋点︓
ストレージの⼤量消費、データのクリーンアップが⼤変（スナップショットやアーカイブが必要。クラウドの発達でデメリットにならないケースも） 7

SQL の設計におけるアンチパターンには RDB が苦⼿なデータ構造（半構造データ・グラフ）に対するおすすめのモデリングなどが書かれている。おまけ）「SQLアンチパターン」の紹介例）Jaywalking（信号無視）半構造データを⽂字列結合で１つのカラムに押し込める解決策中間テーブルを⽤意して参照整合性を保つ
8 https://www.oreilly.co.jp/books/9784873115894/

情報系にもいろいろなモデリングがある 9

こんなデータがあったとする🤔 イベント（Fact） 10 購買店舗商品会員カテゴリリソース（Demention）

⼤福帳会員番号性別年齢購買日店舗コード店舗名大カテゴリ名 Janコード商品名
… 購買金額購買数量 Customer_1 男性 40 2024/01/01 Store_1 A店舗カテゴリA Product_1 商品A 10000 1 トランザクションにマスタの情報をすべて結合してして⼀つのテーブルで保持する。 ˔ メリット ˓ 使うときにジョインしなくてもいい ˔ デメリット ˓ 変更に弱い ˓ １テーブルがデカくなるので過去分全部は持てなかった 11

Fact を中⼼として、Dimension を結合して使⽤する。 Fact ˓ POSデータなどの⽇々増えていくデータ Dimension ˓ 店舗マスタ、商品マスタ、カレンダーマスタなど頻繁に更新をしないデータスタースキーマ
12

Data Vault ハブ、リンク、サテライトの 3 種類のエンティティで構成されるモデルが変更された場合に、ETL ジョブのリファクタリングが少なくて済むハブ顧客 ID、製品番号など、ビジネスの中核となるコンセプトを表す。
ユーザーはビジネスキーを使用して、ハブに関する情報を取得する。ビジネスキーには、ビジネスコンセプト ID やシーケンス ID、ロード日、その他のメタデータ情報の組み合わせを含めることができる。リンクハブ間のリレーションシップを表す。サテライトハブに属する情報とハブ間のリレーションシップに関するデータを格納する参考：https://www.phdata.io/blog/how-to-model-and-choose-the-right-data-model/ 13

Data Vault リンクハブサテラ
イト参考：https://www.phdata.io/blog/how-to-model-and-choose-the-right-data-model/ 14

Data Vault ˔ メリット ˓ データの変更に強い ˙ 項⽬追加の場合はサテライトを追加すれば良い ˙ 変更履歴は全部取っておく
˓ スケーラビリティがある ˔ デメリット ˓ クエリを書く際にジョインが多くなる ˓ 初期構築時にビジネスキーとなる項⽬を定義が必要 ˙ なるべく不変的な項⽬参考：https://www.phdata.io/blog/how-to-model-and-choose-the-right-data-model/ 15

情報系データモデリングのまとめ最適解はビジネスモデルに合った形で選ぶ必要があるとはいえ、いまのところスタースキーマがよく選ばれる（Data Vaultは実績がまだあまり多くない・・・） 16

2024年度サイバーエージェント新卒社内研修の「データモデリング」の資料公開

2024年度サイバーエージェント新卒社内研修の「データモデリング」の資料公開

chiba_katsu

Other Decks in Education

Featured

Transcript

データモデリング 2024年度 AI事業本部研修データアプリケーション研修応⽤編より抜粋

基幹系・情報系による分類 2 分類基幹系システム OLTP: Online Transaction Processing 情報系システム OLAP:

データモデリングの流れ要件分析 ˔ データベースで管理したいデータやデータの使われ⽅などを整理概念設計 ˔ 要件定義をもとに、DBかの対象となる実世界をモデル化 ˔ 特定の DBMS

ERD︓Entity Relationship Diagram 4 データベースの構造を視覚的に表現したものエンティティ︓ 実世界のオブジェクトの概念（例︓商品・メーカ・注⽂）属性︓ エンティティを詳細に記述するための要素

正規化第⼀正規化重複したレコードの排除第⼆正規化⾮キー属性が候補キーに完全関数従属第三正規化⾮キー属性が候補キーに推移的関数従属実務では第３正規化まで⾏うことが多い最適化のために物理設計で

情報系にもいろいろなモデリングがある 9

こんなデータがあったとする🤔 イベント（Fact） 10 購買店舗商品会員カテゴリリソース（Demention）

⼤福帳会員番号性別年齢購買日店舗コード店舗名大カテゴリ名 Janコード商品名

Fact を中⼼として、Dimension を結合して使⽤する。 Fact ˓ POSデータなどの⽇々増えていくデータ Dimension ˓ 店舗マスタ、商品マスタ、カレンダーマスタなど頻繁に更新をしないデータスタースキーマ

Data Vault ハブ、リンク、サテライトの 3 種類のエンティティで構成されるモデルが変更された場合に、ETL ジョブのリファクタリングが少なくて済むハブ顧客 ID、製品番号など、ビジネスの中核となるコンセプトを表す。

Data Vault リンクハブサテラ

Data Vault ˔ メリット ˓ データの変更に強い ˙ 項⽬追加の場合はサテライトを追加すれば良い ˙ 変更履歴は全部取っておく

情報系データモデリングのまとめ最適解はビジネスモデルに合った形で選ぶ必要があるとはいえ、いまのところスタースキーマがよく選ばれる（Data Vaultは実績がまだあまり多くない・・・） 16

2024年度 サイバーエージェント新卒社内研修の「データモデリング」の資料公開

2024年度 サイバーエージェント新卒社内研修の「データモデリング」の資料公開

Other Decks in Education

Featured

Transcript

2024年度サイバーエージェント新卒社内研修の「データモデリング」の資料公開

2024年度サイバーエージェント新卒社内研修の「データモデリング」の資料公開