データベースと応用システム：データの検索機構

(c)長岡技術科学大学電気系 1 データベースと応用システムデータの検索機構山本和英長岡技術科学大学電気系

(c)長岡技術科学大学電気系 2 ディスクアクセス

(c)長岡技術科学大学電気系 3 ハードディスク(HDD) • セクタ：記憶単位 • トラック：セクタの集まり • シリンダ：トラックの集まり
• 記憶容量＝シリンダ数　　　　x 1シリンダのトラック数　　　　x １トラックのセクタ数

(c)長岡技術科学大学電気系 4 アクセス時間 • シーク時間 (位置決め時間) – 磁気ヘッドを目的のトラック上まで移動させる時間 •
サーチ時間 (回転待ち時間) – （データにたどりつくための）ディスクの回転時間 – （平均を取って）1/2回転する時間を使う • データ転送時間 – データの１回転時間 = 1トラックのデータ転送時間

(c)長岡技術科学大学電気系 5 アクセス時間の計算例 • 平均位置決め時間： 20ms • 記憶容量： 20kB/トラック
• 回転数： 3000 rpm – １回転に要する時間： 60000ms/3000回転 = 20ms/回転 – 20msで20kBアクセスできる ⇒ 1msで1kB • 5kBのデータのアクセス時間は、 20ms (シーク時間) + 10ms (サーチ時間＝0.5回転する時間) + 5ms （5kBのデータ転送時間） = 35ms

(c)長岡技術科学大学電気系 6 インデックス（索引）

(c)長岡技術科学大学電気系 7 インデックス • データを効率的（＝高速）に検索するための仕組み • 一般にインデックスがあったほうが検索効率は向上するが、必ずそうなるとは限らない（例：データ量が少ない時）
• データを更新するとインデックスも更新する必要がある

(c)長岡技術科学大学電気系 8 インデックスの効果データ数が同じでも、データの内容によってインデックスの効果は異なる： • データ値が多様である – ２値（０と１）しかないようなデータでは、いくらインデッ
クスを作成しても効果は低い • データ値による頻度の分布が小さい – 種類数が同じでもデータ値に偏りが大きいと平均検索効率は悪くなる

(c)長岡技術科学大学電気系 9 B木インデックス • 多分岐の木構造となっているインデックス • バランス木 – リーフノード（最下位ノード）の深さが同じ
• 検索時間のばらつきが低い • データ数が２倍になっても検索時間（＝探索する階層）は１増えるだけ

(c)長岡技術科学大学電気系 10 Ｂ木の例 11 6 17 3 9 14
20 22 1 3 4 6 7 9 10 11 13 14 16 17 19 20

(c)長岡技術科学大学電気系 11 Ｂ＋木インデックス • B木インデックスは順次アクセスの際に効率が悪い • よって、B木インデックスの条件を満たしたまま、さらに各リーフノードをポインタで順に連結した –
この時のリーフノードをシーケンスセットと呼ぶ • これによってB木の特徴を生かしたまま、順次アクセスの非効率を解消

(c)長岡技術科学大学電気系 12 Ｂ＋木の例 11 6 17 3 9 14
20 22 1 3 4 6 7 9 10 11 13 14 16 17 19 20

(c)長岡技術科学大学電気系 13 ハッシュインデックス • キー値にある関数を適用して、その値によって行の格納位置を求めるインデックス • ハッシュ関数の例：「ある素数で割った余り」 •
検索効率がデータベースの規模に左右されない • 衝突（コンフリクト）が起こると同義語（シノニム）が発生し、これが多いとアクセス効率が低下する • 範囲検索（例：不等号条件）や曖昧検索（部分文字列条件）などには使えない

(c)長岡技術科学大学電気系 14 ビットマップインデックス • 取り得る値の種類が少ないフィールド（例： ON/OFF、男・女）に対して有効 • リーフページ以外はB+木インデックスと同じ •
各キー値に対して、複数の格納位置(ROWID)ではなく、各ビットが表中の各行に対応するビット列を持つ • ビット演算が容易にできるので、AND/OR/NOTだけで行う検索には効率的

(c)長岡技術科学大学電気系 15 使われないインデックスこういう検索をするとインデックスがあっても使われない： DISTINCTやGROUP BYを使った検索 WHERE 商品名
LIKE '%パソコン' WHERE 売上 * 1.05 = 5250 WHERE NOT 学籍番号 = 999 WHERE 従業員 IS NULL WHERE コード = 'HT%' OR 商品名 LIKE '%パソコン ' – AND検索はインデックスを使用する

(c)長岡技術科学大学電気系 16 チューニングと保守管理

(c)長岡技術科学大学電気系 17 チューニング • データベースへのアクセス性能を向上させる改良のこと。 • データ構造、アプリケーション（SQLやインデックス）、システムリソース（メモリやディスク）の順に検
討する • データ構造のチューニングは性能改善の可能性が高いが影響も大きい。

(c)長岡技術科学大学電気系 18 チューニング：データモデル • テーブルを非正規化する – 正規化は冗長性を除去して更新時異常を防止できるが、検索時にデータの結合処理が必要になる •
サマリテーブルを作成する – 集合関数(GROUP BY)などの計算を、その都度計算するのでなくあらかじめ計算して結果をテーブルにしておく。 • 分散データベースを使用する – スケーラビリティや信頼性を高め、アクセス性能を向上させる

(c)長岡技術科学大学電気系 19 チューニング：SQL インデックスを利用する • 効果大：主キー、外部キー、WHEREやORDER BYでよく使われる列 •
効果小：ON/OFFや男・女など、種類数が少ない時 • 更新が頻繁に行われるテーブルは、インデックスも頻繁に更新する必要があるため、注意が必要

(c)長岡技術科学大学電気系 20 チューニング：ストアドプロシージャの利用よく使う一連の処理（プロシージャ）をまとめてサーバーに保存（ストア）しておくこと • メリット： – 手間いらず
– ネットワーク負荷が軽減する – 処理時間も軽減する（コンパイルしてあるので） • 注意点： – １回目に読み込み時間がかかる

(c)長岡技術科学大学電気系 21 チューニング：ディスクアクセス • クラスタリング – 一緒に用いることの多いデータの集まり（＝クラスタ）を、事前に同じブロックに格納すること •
データベースの再編成 – 追加、削除等を繰り返して断片的になったデータベースのデータをきれいに「置き直す」こと – ディスクアクセスやメモリの効率が改善 • 一時作業領域を増やす • ディスク競合の回避 – データとインデックスのアクセス先を分離 – データとログのアクセス先も分離

(c)長岡技術科学大学電気系 22 チューニング：トランザクション • ロックの粒度の検討 – 大きくロックする（例：テーブル）と、ロック待ちが増える – 小さくロックする（例：行）と、ロック待ちとロック解除が
頻繁になって負荷がかかる • よって、 – 頻繁にアクセスされるデータは小さくロック – 同時アクセスが少ないデータは大きくロック

(c)長岡技術科学大学電気系 23 チューニング：メモリバッファヒット率を改善させる • できるだけメモリ内でアクセスを完結させ、ディスクアクセスしないことが望ましい • 一般に、バッファヒット率が80%未満の場合はバッ
ファの拡張やメモリの増設が必要

(c)長岡技術科学大学電気系 24 データベースの保守管理 • データベースを一定期間使用した後、利用状況の変化に対応するために保守管理を行う • 再構成 –
テーブルに列やインデックスを追加 – データ構造を変更、など • 再編成 – 未使用断片領域を解消してデータを再配置 – 記憶効率やアクセス効率を改善 – データ構造は変更されない

(c)長岡技術科学大学電気系 25 テーブルの結合

(c)長岡技術科学大学電気系 26 テーブルの結合方法 • SQL文の処理は、選択、射影、結合の３種類 • このうち、結合が最も負荷がかかる • ３種類の結合方法
– 入れ子ループ（ネストループ）結合 – マージ結合 – ハッシュ結合 • 普通はハッシュ結合が効率的だが、条件によっては異なる

(c)長岡技術科学大学電気系 27 ネストループ結合 • 要するに、２レコードを総当たりで比較する探索 • 処理コストはレコードの積に比例 • 一般に、
– インデックスのない小テーブルと – インデックスのある大テーブルを結合する場合に効果的

(c)長岡技術科学大学電気系 28 マージ結合 • 要するに、両方のテーブルのフィールドをソートしておいて、順に走査する探索 • レコードの走査が１回で済むので効率的

(c)長岡技術科学大学電気系 29 ハッシュ結合 • 一般には最も効率的 • テーブルＢのハッシュテーブルを作る • テーブルＡのレコードごとに、ハッシュテーブルを検
索

データベースと応用システム：データの検索機構

データベースと応用システム：データの検索機構

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Education

Featured

Transcript

(c)長岡技術科学大学電気系 1 データベースと応用システムデータの検索機構山本和英長岡技術科学大学電気系

(c)長岡技術科学大学電気系 2 ディスクアクセス

(c)長岡技術科学大学電気系 3 ハードディスク(HDD) • セクタ：記憶単位 • トラック：セクタの集まり • シリンダ：トラックの集まり

(c)長岡技術科学大学電気系 4 アクセス時間 • シーク時間 (位置決め時間) – 磁気ヘッドを目的のトラック上まで移動させる時間 •

(c)長岡技術科学大学電気系 5 アクセス時間の計算例 • 平均位置決め時間： 20ms • 記憶容量： 20kB/トラック

(c)長岡技術科学大学電気系 6 インデックス（索引）

(c)長岡技術科学大学電気系 7 インデックス • データを効率的（＝高速）に検索するための仕組み • 一般にインデックスがあったほうが検索効率は向上するが、必ずそうなるとは限らない（例：データ量が少ない時）

(c)長岡技術科学大学電気系 8 インデックスの効果データ数が同じでも、データの内容によってインデックスの効果は異なる： • データ値が多様である – ２値（０と１）しかないようなデータでは、いくらインデッ

(c)長岡技術科学大学電気系 9 B木インデックス • 多分岐の木構造となっているインデックス • バランス木 – リーフノード（最下位ノード）の深さが同じ

(c)長岡技術科学大学電気系 10 Ｂ木の例 11 6 17 3 9 14

(c)長岡技術科学大学電気系 11 Ｂ＋木インデックス • B木インデックスは順次アクセスの際に効率が悪い • よって、B木インデックスの条件を満たしたまま、さらに各リーフノードをポインタで順に連結した –

(c)長岡技術科学大学電気系 12 Ｂ＋木の例 11 6 17 3 9 14

(c)長岡技術科学大学電気系 13 ハッシュインデックス • キー値にある関数を適用して、その値によって行の格納位置を求めるインデックス • ハッシュ関数の例：「ある素数で割った余り」 •

(c)長岡技術科学大学電気系 14 ビットマップインデックス • 取り得る値の種類が少ないフィールド（例： ON/OFF、男・女）に対して有効 • リーフページ以外はB+木インデックスと同じ •

(c)長岡技術科学大学電気系 15 使われないインデックスこういう検索をするとインデックスがあっても使われない： DISTINCTやGROUP BYを使った検索 WHERE 商品名

(c)長岡技術科学大学電気系 16 チューニングと保守管理

(c)長岡技術科学大学電気系 17 チューニング • データベースへのアクセス性能を向上させる改良のこと。 • データ構造、アプリケーション（SQLやインデックス）、システムリソース（メモリやディスク）の順に検

(c)長岡技術科学大学電気系 18 チューニング：データモデル • テーブルを非正規化する – 正規化は冗長性を除去して更新時異常を防止できるが、検索時にデータの結合処理が必要になる •

(c)長岡技術科学大学電気系 19 チューニング：SQL インデックスを利用する • 効果大：主キー、外部キー、WHEREやORDER BYでよく使われる列 •

(c)長岡技術科学大学電気系 20 チューニング：ストアドプロシージャの利用よく使う一連の処理（プロシージャ）をまとめてサーバーに保存（ストア）しておくこと • メリット： – 手間いらず

(c)長岡技術科学大学電気系 21 チューニング：ディスクアクセス • クラスタリング – 一緒に用いることの多いデータの集まり（＝クラスタ）を、事前に同じブロックに格納すること •

(c)長岡技術科学大学電気系 22 チューニング：トランザクション • ロックの粒度の検討 – 大きくロックする（例：テーブル）と、ロック待ちが増える – 小さくロックする（例：行）と、ロック待ちとロック解除が

(c)長岡技術科学大学電気系 24 データベースの保守管理 • データベースを一定期間使用した後、利用状況の変化に対応するために保守管理を行う • 再構成 –

(c)長岡技術科学大学電気系 25 テーブルの結合

(c)長岡技術科学大学電気系 26 テーブルの結合方法 • SQL文の処理は、選択、射影、結合の３種類 • このうち、結合が最も負荷がかかる • ３種類の結合方法

(c)長岡技術科学大学電気系 27 ネストループ結合 • 要するに、２レコードを総当たりで比較する探索 • 処理コストはレコードの積に比例 • 一般に、

(c)長岡技術科学大学電気系 28 マージ結合 • 要するに、両方のテーブルのフィールドをソートしておいて、順に走査する探索 • レコードの走査が１回で済むので効率的

(c)長岡技術科学大学電気系 29 ハッシュ結合 • 一般には最も効率的 • テーブルＢのハッシュテーブルを作る • テーブルＡのレコードごとに、ハッシュテーブルを検