データモデリング・テクニック

データモデリングテクニック伊津野英克 [email protected] Version 1.03

はじめにデータモデリングとは ⚫データ構造を整理する技法 ⚫通常、リレーショナル・データベースにおけるエンティティ設計法のことを指す ⇒ER（エンティティ・リレーション）分析 • エンティティ：データ集合を表現する概念 • リレーション：エンティティ間の関係
⚫リレーショナル以外のデータベースの設計手法は体系化されていない・階層型データベース（IMS）・ネットワーク型データベース（CODASYL）・KVS（LevelDB） 2

なぜデータモデリングが必要か ⚫データベースはグローバル変数 ⚫どのプログラムからでも更新・参照できる ⚫管理しないとぐちゃぐちゃに ⚫整理されてないデータはただのゴミ ⚫Garbage in, garbage out ⚫使うのも、更新するのも難しい
⚫適切にデータモデリングすると ⚫データの重複がなくなる ⚫データの不整合がなくなる ⚫データへのアクセス方法が明確になる 3

いろいろなデータモデリング手法標準的なモデリング手法が存在するわけではない ⚫Peter Chen記法：ER図の元祖（だが使われない） ⚫THモデル：椿正明／穂高良介 ⚫IE (Information Engineering) 記法 ⚫IDEF1X
(Integration Definition) 記法 ⚫T字型ER：佐藤正美 ⚫三要素分析法：渡辺幸三 ⚫UMLクラス図：オブジェクト指向設計 4 記法や詳細は異なるが、基本は通底しているそれぞれの方法論は必ずしも排他的ではなく、学べることも多い

IE記法どの記法を使うべきか ⚫IDEF1X か IE記法（鳥足）が一般的 ⚫今となっては「UMLクラス図」が一番いいかも ⚫ 誰でも知ってるし、わかりやすい ⚫ 機能が多いことより、みんながわかる／知ってることが重要
⚫ この資料ではUMLクラス図を使うことにする ⚫ 欠点：主キーの表現がいまいち書きづらい B C A D IDEF1X B C A D Z P UMLクラス図 B C A D 5 1 0..1 1 0..* 1 1..* Aひとつに対し、Bは0～1個、Cは0個以上、Dは1個以上のデータが紐づくことを表現しているこの関係の数のことをカーディナリティ（多重度）と呼ぶ。

データモデルの種類概念⇒論理⇒物理の順に詳細化 ⚫概念モデル：概念と概念間の関係を整理したもの ⚫論理モデル：エンティティと属性、エンティティ間の関係を整理したもの ⚫物理モデル：データベース内のテーブル、カラム、外部キーなどの定義 6 概念モデル売上得意先商品
0..* 1 1 0..* 論理モデル売上売上番号得意先コード得意先得意先コード得意先名称売上明細売上番号明細番号商品コード売上金額商品商品コード商品名称 0..* 1 1 1..* 1 0..* 物理モデル sales sale_no customer_code customers customer_code customer_name sale_details sale_no sale_detail_no Item_code sale_amount items item_code item_name 0..* 1 1 1..* 1 0..* ※なお、これ以降スペースの関係で主キーは太字、外部キーは下線で表現している。 UMLの正しい表現としてはステレオタイプを用い<<PK>>などと記載するのが一般的。

論理モデル物理モデル説明エンティティテーブルデータのまとまりのこと属性列(Column) データ項目のことタプル
行(Row) データ項目のまとまりのことリレーション－データ間の関係性のこと（※）主キー最も有力な候補キー候補キー－冗長性のないスーパーキースーパーキー－データを一意に特定可能な属性の集合自然キー－業務で実際に使われる候補キー代替キー－自然キーの代わりに人工的に作られた候補キー外部キー別のデータと紐付け可能な属性の集合データモデリングで使う用語 ⚫論理モデルと物理モデルで用語が違うものもある ⚫ エンティティが抽象概念でテーブルはその実装 ⚫ 用語だけの話なのであまり気にしなくていい 7 ※RDBの基礎となるリレーショナル・モデルでのリレーション（関係）とは、タプルの値の組み合わせ、すなわちテーブルに相当する概念を意味する。

論理／物理の住み分け ⚫論理モデルと物理モデルは違うものではあるが…… ⚫フェイズが進むにつれて、論理と物理のふたつの設計書の整合性をとるのはどんどん困難に ⚫メンテするER図は概念レベルにとどめて、論理/物理モデルはエンティティ定義書で管理 ⚫エンティティ数が増えると、ER図も大きくなりすぎて一覧性が低くなる ⚫実装が進むと、物理モデルの方が重要になってくる 8
論理ER図は設計用と割り切る

エンティティ設計の手順 1. イベント系エンティティを抽出する 2. イベント系エンティティを正規化する 3. リソース系エンティティを統廃合する 4. リレーションを見直す 5.
仮想エンティティを探し出す 6. ドメインによる項目の正規化 7. 物理モデル要件を追加する 9

イベントとリソースエンティティは２種類に分類できる ⚫イベント（≒トランザクション） ⚫ 受注や発注など「ある時刻」に記録されたデータ ⚫ ◦◦日として表現可能 ⚫ 動詞で表現できる概念はイベント ⚫リソース（≒マスタ）
⚫ 社員や組織など「ある期間」存在するデータ ⚫ 名詞で表現される概念はリソース ⚫ 注意点 ⚫ 「◦◦を管理する」のような業務はある時刻に発生しないのでイベントにはならない。業務の粒度が荒すぎるので、もっと深掘りが必要。 ⚫ 「◦◦を登録する」「歩く」「息をする」は単なる動作なのでこれもイベントにはならない。あくまで業務のモデリングが目的であることを忘れないようにする。身近なためリソースからモデリングしがちだが、リソースは一連のイベントの中から再利用可能な要素を抜き出し識別子を付けたものに過ぎない 10 発注日仕入先発注金額 2016/10/22 株式会社ABC 1,000円 2016/10/23 あいう株式会社 1,200円 2016/11/02 株式会社ABC 2,000円 2016/11/02 あいう株式会社 500円仕入先（リソース）仕入先ID 仕入先名称 0001 株式会社ABC 0002 あいう株式会社共通要素を抜き出し、識別子を付け再利用可能にする発注（イベント）

イベント系エンティティの抽出業務フロー、画面、帳票などからイベントを導出 ⚫見積る、販売する、計画する、請求する…… ⚫イベントの数は限られているので、取りかかりやすい ⚫一般的な社内業務であれば、業務モデリング本も参考になる ⚫ 梅田弘之著「グラス片手にデータベース設計シリーズ」 ⚫ 渡辺幸三著「業務別データベース設計のためのデータモデリング入門」 11
顧客営業見積を依頼する見積を作成する見積を回答する注文を受ける注文を依頼する見積注文

エンティティ正規化データの不整合を防ぐための手法 ⚫教科書的な正規化手順 ⚫第１正規形 ⚫第２正規形 ⚫第３正規形 ⚫ボイス・コッド正規形 ⚫第４正規形 ⚫第５正規形 12
第３正規形までは問題なく正規化できるが、ボイス・コッド正規形以降は、データの関係性（関数従属性）が崩れる場合がある基本情報処理試験でも扱う内容なので詳細は割愛

エンティティ正規化の意味教科書的な正規化手順は実践的ではない。正規化で何をやっているのか理解することが重要。 ⚫One fact in one place（同じデータは一箇所に） ⚫ 同じデータが複数の項目に格納されていると矛盾したデータが登録でき
てしまう ⚫従属した項目をひとつにまとめる ⚫ 従属性のある項目はまとめて更新した方が整合性がとりやすい ⚫ 関数従属性： y = f(x) すなわち、y は x だけで決まるということ ⚫ NULL列が多い場合は、関数従属性を見落としている可能性が高い 13 このことがわかっていれば手順を意識しなくても正規化できる

識別子 ⚫識別子：社員コードなど主キーに使われるコード体系のこと ⚫ そのデータが他のデータとは異なることを示し識別に使用できる ⚫ 正規化したエンティティには必ず識別子を付けそれでアクセスする ⚫ 識別子がないと、内容は同じだが異なるデータにアクセスできない例：同姓同名、同じ誕生日、同じ出身地の社員 ⚫
明細や連関エンティティは、複数の識別子の組み合わせが識別子となる ⚫識別子は必ず不変性のある無意コードにする ⚫ 無意なデータに見えても公的に流通しているものは、重複したり変化する可能性がある ⚫ 氏名：同姓同名、結婚による姓の変更など ⚫ JANコード：使い回し（現代数学がAmazonにて10年前のエロ雑誌として取り扱われる） ⚫ 識別子が変化すると、意図せず関係が変わってしまうここで言う無意とは「Aで始まるコードは集計対象とする」のように処理の条件には使用しない、ということを意味している。利用者の利便性のために直観的なコード体系にすること自体は必ずしも悪いことではない。 14

イベント系エンティティの正規化 ⚫イベント系エンティティから繰り返しや従属項目をくくりだす発注日仕入先発注番号明細番号商品商品分類発注金額 2016/10/22
株式会社ABC 00001 1 チョコレート食品 500円 2016/10/22 株式会社ABC 00001 2 書籍雑貨 2,000円 2016/10/23 あいう株式会社 00002 1 サンオイル雑貨 1,200円 2016/11/02 株式会社ABC 00003 1 書籍雑貨 2,000円 2016/11/02 あいう株式会社 00004 1 チョコレート食品 500円 2016/11/02 あいう株式会社 00004 2 精肉食品 800円発注日仕入先コード発注番号 2016/10/22 001 00001 2016/10/23 002 00002 2016/11/02 001 00003 2016/11/02 002 00004 仕入先コード仕入先名称 0001 株式会社ABC 0002 あいう株式会社発注番号明細番号商品コード発注金額 00001 1 0001 500円 00001 2 0002 2,000円 00002 1 0003 1,200円 00003 1 0002 2,000円 00004 1 0001 500円 00004 2 0004 800円商品コード商品名称商品分類区分 0001 チョコレート A 0002 書籍 B 0003 サンオイル B 0004 精肉 A 商品分類区分商品分類名称 A 食品 B 雑貨 15 商品分類は、商品に従属しているっぽい発注番号ごとに繰り返しがあるっぽい正規化！

余談：過剰な正規化理屈だけで突き進むとやり過ぎることがある ×都道府県は市区町村に従属しているから取引先マスタから都道府県を取り除こう！ ⚫ 画面上、市区町村はテキスト項目だが、都道府県は選択項目となることが多いので、実装とマッチしない ×請求トランの取引先名称は重複しているので、項目は削除して、マスタの名称を表示しよう！ ⚫
請求書などは再出力しても最初の出力時と同じ名称を印字しなければならないことが多く、出力当時の取引先名称の保持が必要となる ⚫ ファクトデータは捨てると情報量が落ちる場合があるデータモデリングの世界は（決定打がないが故に）原理主義に陥りやすいので、テクニックを参考にしつつ、有用な範囲で導入するのがおすすめ 16

余談：ID方式 ⚫ 主キーはすべて自動連番の内部利用専用IDにすべきという考え方 ⚫ ようはプログラム上のオブジェクトと同様、識別子の具体的な値を意識せず、データへの参照だけを扱えばいいという発想 ⚫ 従来でも代替キーという考え方自体はあるが、すべてに適用する点が違う ⚫ Rails
の ActiveRecord のような O/Rマッパーと親和性が高いため、開発側が楽できる（ActiveRecordは標準では複合キー扱えないし） ⚫ リレーションがシンプルになり、識別子の洗い替え問題にも対応できる ⚫ 識別子の洗い替え問題：コード体系を一括で洗い替える 17 個人的な見解としては（特に業務系システムへの導入には）否定的 • 実は論理モデルとは関係なく、物理設計レベルの工夫に過ぎない • 識別子の洗い替えもドメイン管理がきちんとされていればさほど問題ではない • 理屈上は正しいが、主キーに再現性がない状態で、データ比較をしたり、データをチェックするのは実運用上、結構つらい • 業務系だと外部システムとのI/Fが多いため、むしろ面倒が増える従来方式売上売上番号得意先コード得意先得意先コード得意先名称 0..* 1 ID方式売上売上ID 売上番号得意先ID 得意先得意先ID 得意先コード得意先名称 0..* 1

売上リソース系エンティティの統廃合 ⚫似て非なる概念を統合してしまわないよう注意 ⚫ 商品と製品、得意先と仕入先など ⚫ 必要に応じて上位概念で束ねる（擬似的な継承関係） 18 売上売上番号
得意先コード得意先得意先コード得意先名称売上明細売上番号明細番号商品コード売上金額商品商品コード商品名称販売価格発注発注発注番号仕入先コード仕入先仕入先コード仕入先名称発注明細発注番号明細番号商品コード発注金額商品商品コード商品名称仕入価格商品商品コード商品名称販売価格仕入価格 ⚫複数のイベントから導出したリソースを統廃合する統合！品目商品製品取引先仕入先得意先分析や売掛金と買掛金の相殺で使う

リレーションの見直し ⚫一見同じような関係でもモデリングによって異なる機能性を持つ ⚫ 例えば、商品分類と商品のような親子関係にはいくつかのバリエーションが考えられる ⚫ どれが適しているかはデータのライフサイクルに依存する ⚫ 依存性がある場合、依存されるエンティティは、依存するエンティティより先に生成され、後に削除される必要がある
⚫右図に出てくるエンティティ間の関係を仲介するエンティティを「連関エンティティ」あるいは「交差エンティティ」と呼ぶ ⚫ 分析/計画用の分類は、後付けとなるためこの方式を使ったほうがよい ⚫ m:n の関係を表現する場合には必須（めったにないけど）子供（商品）は親（商品分類）のライフサイクルに依存親（商品分類）は子供（商品）のライフサイクルに依存親（商品分類）と子供（商品）のライフサイクルは無関係商品分類商品分類区分商品分類名称商品商品分類区分商品コード商品名称商品商品コード商品分類区分商品名称商品分類商品分類区分商品分類名称商品商品コード商品名称商品分類商品分類区分商品分類名称商品分類商品紐付商品分類区分商品コード連関（交差）エンティティ 19

区分のフラグ化 ⚫区分はプログラムの処理分岐に使われるため、増やした場合の影響範囲が大きくなる ⚫ 区分で処理を分岐するよりも、適用する処理ごとにフラグを分ける方が汎用的で影響範囲を小さく留めることができる場合がある ⚫ 常にそうすべきというわけではもちろんない 20 IF
区分 IN (‘1’, ‘2’, ‘3’) { 処理Aを実行 } IF 区分 IN (‘3’, ‘5’) { 処理Bを実行 } IF 区分 = ‘4’ { 処理Cを実行 } IF 処理Aフラグ == true { 処理Aを実行 } IF 処理Bフラグ == true { 処理Bを実行 } IF 処理Cフラグ == true { 処理Cを実行 } フラグ化！

余談：履歴ありマスタ ⚫最近は適用期間を持つ履歴ありマスタの利用も一般的になってきた ⚫ 特に組織変更で力を発揮する ⚫ 組織や所属については履歴ありマスタを検討すべき ⚫問題も多いので何でも無条件に履歴ありマスタにするのは考えもの ⚫ 常に範囲検索になるためパフォーマンスが劣化 ⚫
適用期間外の結合でマスタが欠落（月次データとの結合など） ⚫ 履歴ありマスタ同士を結合した物理ビューを作るのは至難の業 ⚫ DB連動のER図作成ツールと相性が悪い 21 組織組織コード適用開始日適用終了日上位組織コード組織名称社員社員コード社員名称入社日退社日所属組織コード社員コード適用開始日適用終了日役職

余談：外部キーは付けるべきか理想的には付けるべきだが…… ⚫マスタの作成など識別子の生成が同一システム内で完結する場合は付けることが望ましい ⚫ とはいえ、データを取り込む場合、順序に制約が発生し作業が煩雑になる ⚫ 外部キー制約を一時的にオフにできるDBなら問題はないかも（MySQL, PostgreSQL
など） ⚫ 外部キーはDB上は索引として実装されるためパフォーマンス上の問題が発生する恐れも ⚫マスタが外部システムで生成される場合には、不整合を許容せざるを得ない場合がある ⚫ 外部システムからの連携タイミングによっては不整合が要件 ⚫ 旧システムの整合性が取れていないデータでも移行せざるを得ない 22

余談：T字型ERのNULL排除 ⚫T字型ERでは正規化を更に進め、NULLの存在を許可しない ⚫ NULLだけでなく状態を項目として持つこと自体を許さない ⚫ 状態ごとにテーブルを作り、行のありなしで表現する ⚫ Coddのリレーショナル・モデルにはそもそもNULLという概念がない 23 取引先コード
取引先名称電話番号 0001 株式会社ABC 090-XXXX-XXXX 0002 あいう株式会社 (NULL) 取引先マスタ取引先コード取引先名称 0001 株式会社ABC 0002 あいう株式会社取引先コード電話番号 0001 090-XXXX-XXXX 取引先マスタ取引先電話番号マスタ分割考え方自体は有効で役に立つ場面もあるが、エンティティ数が爆発し管理が困難になるので、必要もないのに適用する必要はない

仮想エンティティの探索 ⚫仮想エンティティ：ようするにビューのこと ⚫別のデータから導出可能なエンティティがある ⚫ 例１：在庫 ⇒ 入庫、出庫から導出可能 ⚫ 例２：残高 ⇒
仕訳から導出可能 ⇒集計データは仮想エンティティだと思っていい ⚫仮想エンティティは論理設計としては無視できる ⚫ 理屈の上では単なる検索クエリに過ぎない ⚫ パフォーマンスはマテリアライズド・ビューにすれば解決 ⚫ 実際には旧システムから移行した残高データなどがあり、完全にビュー扱いできない場合もあるが、オンラインからの更新とは独立して処理できるという点が重要 24

非正規化の必要性 ⚫非正規化とは：パフォーマンス改善を目的とした正規化くずし ⚫ 件数が多すぎる場合に結合のコストが無視できない場合というのは実際にあり、根拠がないというわけではない ⚫ 階層問い合わせの高速化のために、階層をパスに展開し保持するのも非正規化の一例 ⚫非正規化は仮想エンティティで対応すべし ⚫
非正規化をする＝不整合を許容する、ということ ⚫ 仮想エンティティでなら非正規化状態でも問題ない ⚫ 物理ビューやマテリアライズド・ビュー、バッチ集計とオンタイム集計を組み合わせたリアルタイム集計ビューを使えば、非正規化の必要性はなくなる 25 前日分バッチ集計当日差分リアルタイム集計ビューオンタイム集計リアルタイム集計ビューのイメージ

ドメインによる項目の正規化エンティティの設計が終わったら次は項目の設計を行う ⚫ドメイン：ここでいうドメインとは、項目定義の種類のことを指す ⚫ ドメインを整理することで、項目を正規化する ⚫ 同じドメイン（＝同じ型、同じ桁数）の項目は同じ名前にする ⚫ 同様に、違うドメインの項目は違う名前になる ⚫
同種のドメインに属す項目には似たような項目名を付ける ⚫ 入社日、退社日、入庫日、売上日 ⚫ 継承関係にあるドメインは、項目名も継承する ⚫ 組織コード ⇒ 販売組織コード 26 表記のゆれ正規化ルールの例 ◦◦名称、◦◦名 ◦◦名称に統一社員、従業員、ユーザー社員に統一 ID、コード、区分内部コードにはID、外部コードにはコードを付ける社員コード物理名はEMP_CD、型はVARCHAR(10) に統一項目正規化の例ドメインだけでなく、項目の並び順にもある程度一貫性を持たせたほうがよい。一般的に、主キーは先頭、システム共通項目は最後、主要項目ほど前方、といった並びにすることが多い。

物理モデル要件の追加 ⚫更新ユーザ/更新日時などシステム共通項目の追加 ⚫ 業務要件としては必要ないが、運用ではとても重要 ⚫ワークテーブル ⚫ CSVファイルなどを処理用に一旦取り込んだり、処理高速化のためプログラム内で一時的に使うテーブルのこと ⚫ 業務要件ではないので、論理設計では出てこない
⚫インデックス、パーティションキーの設定 ⚫ インデックスは多く付ければ良いというものではない ⚫ 一般的に、検索は速くなるが、更新は遅くなる ⚫ なぜ、前方一致には有効で、後方一致には無効なのか、など仕組みを理解して使う ⚫ アクセス・パスのショートカットを意識して追加する ⚫ カーディナリティ（値の分散）が低い項目には決して付けない ⚫ 区分やフラグはカーディナリティが低いため、単項目にインデックスを付けると、むしろパフォーマンスが劣化する ⚫ ややこしいが、ここでのカーディナリティは値の多重度のことでリレーションのカーディナリティとは意味が異なる 27

論理削除 ⚫論理削除とは ⚫テーブルに「削除フラグ」を設け、falseになっているレコードを削除したものとみなす仕様 ⚫論理削除は「悪しき習慣」……ではない ⚫論理削除＝削除の代替ではなく無効化 ⚫運用者が誤削除した場合のリカバリを容易にする ⚫業務システムでは物理削除自体が望ましくない ⚫識別子の使い回しを防ぐ簡便な方法でもあるとはいえ、物理ビューやワークテーブルにまで削除フラグを付けるのはナ
ンセンス。論理削除を無効化以外の用途で使っている場合があり、むしろ問題はそこにある場合が多い気がする（論理削除時に他の項目も更新してたり）。 28

楽観ロック ⚫DBの悲観ロック（For Update）は、トランザクション内でのみ有効 ⚫ HTTPベースのシステムはステートレスなため相性が悪い ⚫楽観ロックの仕組み ⚫ 楽観ロックは、ロックというより上書き更新のブロック ⚫ 行のバージョン番号を用意して、更新ごとにカウントアップする
⚫ 番号の代わりにタイムスタンプを使いたくなるが、最近のハードウェアは高速なので重複する可能性が無視できないためNG ⚫ 参照時にバージョン番号を取得し、更新時の条件句に指定する ⚫ 更新件数がゼロ件でなければ、参照してから更新するまでの間、その行に変更は発生していないことが保証できる 29 取引先コードバージョン番号 0001 1 1 バージョン番号 2 バージョン不一致で楽観ロックエラー他の誰かが更新参照時にバージョン番号を控えておく更新処理

参考文献 ⚫羽生章弘著「楽々ERDレッスン」 ⚫主張の異なる点もあるが、本資料はこの本の内容に大きく影響を受けている ⚫C.J.Date著「データベース実践講義」 ⚫梅田弘之著「グラス片手にデータベース設計シリーズ」 ⚫渡辺幸三著「業務別データベース設計のためのデータモデリング入門」 ⚫tgkさん「極北データモデリング」 30

データモデリング・テクニック

データモデリング・テクニック

Hidekatsu Izuno

More Decks by Hidekatsu Izuno

Other Decks in Technology

Featured

Transcript

データモデリングテクニック伊津野英克 [email protected] Version 1.03

いろいろなデータモデリング手法標準的なモデリング手法が存在するわけではない ⚫Peter Chen記法：ER図の元祖（だが使われない） ⚫THモデル：椿正明／穂高良介 ⚫IE (Information Engineering) 記法 ⚫IDEF1X

IE記法どの記法を使うべきか ⚫IDEF1X か IE記法（鳥足）が一般的 ⚫今となっては「UMLクラス図」が一番いいかも ⚫ 誰でも知ってるし、わかりやすい ⚫ 機能が多いことより、みんながわかる／知ってることが重要

論理モデル物理モデル説明エンティティテーブルデータのまとまりのこと属性列(Column) データ項目のことタプル

エンティティ設計の手順 1. イベント系エンティティを抽出する 2. イベント系エンティティを正規化する 3. リソース系エンティティを統廃合する 4. リレーションを見直す 5.

エンティティ正規化データの不整合を防ぐための手法 ⚫教科書的な正規化手順 ⚫第１正規形 ⚫第２正規形 ⚫第３正規形 ⚫ボイス・コッド正規形 ⚫第４正規形 ⚫第５正規形 12

イベント系エンティティの正規化 ⚫イベント系エンティティから繰り返しや従属項目をくくりだす発注日仕入先発注番号明細番号商品商品分類発注金額 2016/10/22

売上リソース系エンティティの統廃合 ⚫似て非なる概念を統合してしまわないよう注意 ⚫ 商品と製品、得意先と仕入先など ⚫ 必要に応じて上位概念で束ねる（擬似的な継承関係） 18 売上売上番号

仮想エンティティの探索 ⚫仮想エンティティ：ようするにビューのこと ⚫別のデータから導出可能なエンティティがある ⚫ 例１：在庫 ⇒ 入庫、出庫から導出可能 ⚫ 例２：残高 ⇒