【統計情報】種類と役割【第1回】

【データベース】統計情報の役割と種類

目次 1. 統計情報の役割 2. 統計情報の主要な種類 3. 統計情報がクエリに与える影響 4. まとめ

1.統計情報の役割 • 概要データベースがデータの全体像を把握してクエリを早く実行するために必要なガイド情報

1.統計情報の役割 • 役割データベースがクエリを最適に実行するために、フルスキャンやインデックススキャンを選択する際の判断材料として利用される。

1.統計情報の役割 • 統計情報の例 ◦ テーブルにどれくらいの行があるか ◦ どのカラムにどんな値が多いか ◦ データの分布（平均値、最大値、最小値など）

2.統計情報の主要な種類 • テーブルレベルの統計情報 • カラムレベルの統計情報 • インデックスレベルの統計情報

2.統計情報の主要な種類 • テーブルレベルの統計情報: ◦ 概要 ▪ テーブル全体に関する情報。 ◦ 例 ▪
テーブルの総行数、NULL値の割合、重複度など。 ◦ 用途 ▪ テーブル全体をスキャンするか、インデックスを使うかの判断に利用。 ◦ SQL ▪ SELECT * FROM PEOPLE;

2.統計情報の主要な種類 • カラムレベルの統計情報: ◦ 概要 ▪ 各カラムのデータ分布に関する情報。 ◦ 例 ▪
カラムの値の分布（最小値、最大値、平均値） ▪ ユニークな値の数 ▪ データの頻度（ヒストグラム）など。 ◦ 用途: ▪ WHERE句の条件で、INDEXを使うかどうかを決定するために利用。 ◦ SQL ▪ SELECT * FROM PEOPLE WHERE NAME = ‘田中太郎’;

2.統計情報の主要な種類 • インデックスレベルの統計情報: ◦ 概要 ▪ インデックスに関する情報。 ◦ 例 ▪
インデックスのユニーク度(重複がどのくらいあるか) ▪ リーフレベルの深さ ▪ クラスタリングファクタ(INDEXの順序通りにデータが並んでいるか ) ◦ 用途 ▪ INDEXスキャンか、フルスキャンかを決定する際に利用。 ◦ SQL ▪ CREATE INDEX IDX_PEOPLE_1 ON PEOPLE (NAME, ADDRESS); ▪ SELECT * FROM PEOPLE WHERE NAME = ‘田中太郎’;

３.統計情報がクエリに与える影響 • ユニーク度（ヒストグラム） • 適切なインデックスの有無

３.統計情報がクエリに与える影響 • ユニーク度（ヒストグラム） ◦ データベース　Postgresql ◦ テーブル名　PEOPLE ◦ 統計情報は最新の状態 ◦
データ数　400万件 ◦ index ▪ index名:Idx_people_person_id 指定カラム: person_id ▪ index名:Idx_people_duplication_many 指定カラム: duplication_many ◦ カラム ▪ PERSON_ID（INTEGER型）（一意なデータ） ▪ DUPLICATION_MANY（INTEGER型）（重複のあるデータ） • 0　：40万件 • 1　：40万件 • 2　：40万件 • 3　：280万件

３.統計情報がクエリに与える影響 • ユニーク度（ヒストグラム）一意なデータをフィルタリングした場合

３.統計情報がクエリに与える影響 • ユニーク度（ヒストグラム）重複のあるデータをフィルタリングした場合取得結果は多いが、 ﬁlterがデータ量の10%程度のため BitmapHeapScanが選択された。取得結果がもっと多い場合（duplication_many=3）の場合はフ
ルスキャンが選択される。

３.統計情報がクエリに与える影響 • 適切なインデックスの有無 ◦ データベース、テーブル名、統計情報最新、データ数の 4項目は先程同様 ◦ index ▪ index名:Idx_duplication_few
指定カラム: duplication_few ◦ カラム ▪ duplication_few（INTEGER型）（一意なデータ） ◦ クエリ ▪ Select * frrom people where duplication_few = 135233;

３.統計情報がクエリに与える影響 • 適切なインデックスの有無適切なインデックスが存在する場合

３.統計情報がクエリに与える影響 • 適切なインデックスの有無適切なインデックスが存在しない場合

４.まとめ • FROM、WHERE等を考慮しユニーク度の高いカラムからINDEXに定義 • ヒストグラムを意識したINDEX作成 ◦ 特にユニーク度が高いカラムには INDEXが効果的 ◦ ユニーク度が低くINDEXがあっても時間がかかる場合
▪ パーティション、キャッシュの利用、 LIMIT、OFFSET、非同期等

【統計情報】種類と役割【第1回】

【統計情報】種類と役割【第1回】

Shin

More Decks by Shin

Other Decks in Programming

Featured

Transcript

【データベース】統計情報の役割と種類

目次 1. 統計情報の役割 2. 統計情報の主要な種類 3. 統計情報がクエリに与える影響 4. まとめ

1.統計情報の役割 • 概要データベースがデータの全体像を把握してクエリを早く実行するために必要なガイド情報

1.統計情報の役割 • 役割データベースがクエリを最適に実行するために、フルスキャンやインデックススキャンを選択する際の判断材料として利用される。

1.統計情報の役割 • 統計情報の例 ◦ テーブルにどれくらいの行があるか ◦ どのカラムにどんな値が多いか ◦ データの分布（平均値、最大値、最小値など）

2.統計情報の主要な種類 • テーブルレベルの統計情報 • カラムレベルの統計情報 • インデックスレベルの統計情報

2.統計情報の主要な種類 • テーブルレベルの統計情報: ◦ 概要 ▪ テーブル全体に関する情報。 ◦ 例 ▪

2.統計情報の主要な種類 • カラムレベルの統計情報: ◦ 概要 ▪ 各カラムのデータ分布に関する情報。 ◦ 例 ▪

2.統計情報の主要な種類 • インデックスレベルの統計情報: ◦ 概要 ▪ インデックスに関する情報。 ◦ 例 ▪

３.統計情報がクエリに与える影響 • ユニーク度（ヒストグラム） • 適切なインデックスの有無

３.統計情報がクエリに与える影響 • ユニーク度（ヒストグラム） ◦ データベース　Postgresql ◦ テーブル名　PEOPLE ◦ 統計情報は最新の状態 ◦

３.統計情報がクエリに与える影響 • ユニーク度（ヒストグラム）一意なデータをフィルタリングした場合

３.統計情報がクエリに与える影響 • 適切なインデックスの有無 ◦ データベース、テーブル名、統計情報最新、データ数の 4項目は先程同様 ◦ index ▪ index名:Idx_duplication_few

３.統計情報がクエリに与える影響 • 適切なインデックスの有無適切なインデックスが存在する場合

３.統計情報がクエリに与える影響 • 適切なインデックスの有無適切なインデックスが存在しない場合

４.まとめ • FROM、WHERE等を考慮しユニーク度の高いカラムからINDEXに定義 • ヒストグラムを意識したINDEX作成 ◦ 特にユニーク度が高いカラムには INDEXが効果的 ◦ ユニーク度が低くINDEXがあっても時間がかかる場合