【Rによる統計的学習入門】6章線形モデル選択と正則化

線形モデル選択と正則化 Linear Model Selection and Regularization yusumi 9 June 2021
参考資料 An Introduction to Statistical Learning with Applications in R Chapter 6

目次 1. Introduction 2. Subset Selection 3. Shrinkage Methods 4.
Dimension Reduction Methods 5. Considerations in High Dimensions 6. Conclusion 7. Appendix 8. References

Introduction

第５回輪講A Introduction 4 特徴量の選択予測精度を向上させる有効な特徴量を見つけたい e.g.) 不動産の価格推定問題 • 部屋の大きさ
• 築年数 • 駅からの近さ • 建ぺい率 • 容積率与えられた特徴量部屋の大きさ築年数駅からの近さ建ぺい率容積率

第５回輪講A Introduction 5 特徴量の選択予測精度を向上させる有効な特徴量を見つけたい • 部屋の大きさ • 築年数
• 駅からの近さ • 建ぺい率 • 容積率与えられた特徴量予測に有効な特徴量が２つだけの場合を考える ◼ データ数は特徴量より十分多いとする e.g.) 不動産の価格推定問題

第５回輪講A Introduction 6 価格を推定する線形重回帰モデル価格の予測値 𝒙 パラメータ ෡ 𝜷
ො 𝑦 = ෡ 𝜷𝐓𝒙 ◼ ５つの特徴量から価格を推定するモデル部屋の大きさ築年数駅からの近さ建ぺい率容積率予測に有効な特徴量を選択するよ選択された特徴量ベクトル線形重回帰モデル特徴選択モデル

第５回輪講A Introduction 7 訓練データから最小二乗法で回帰係数を推定標準的な線形重回帰モデル 𝑦𝑖 = 𝛽0 +
𝛽1 𝑥𝑖1 + ⋯ + 𝛽𝑝 𝑥𝑖𝑝 + 𝜖𝑖 応答変数誤差項説明変数 : 𝑥𝑖1 , 𝑥𝑖2 , ⋯ , 𝑥𝑖𝑝 回帰係数 : 𝛽1 , 𝛽2 , ⋯ , 𝛽𝑝 ෝ 𝑦𝑖 = ෢ 𝛽0 + ෢ 𝛽1 𝑥𝑖1 + ⋯ + ෢ 𝛽𝑝 𝑥𝑖𝑝 回帰係数の推定値 : ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝 ෍ 𝑖=1 𝑛 𝑦𝑖 − ො 𝑦𝑖 2 最小化推定式残差平方和 (RSS) ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝 ෞ 𝑦1 , ෞ 𝑦2 , ⋯ , ෞ 𝑦𝑛 𝑦1 , 𝑦2 , ⋯ , 𝑦𝑛 𝜖𝑖 ~𝑁 0, 𝜎2

第５回輪講A Introduction 8 線形回帰モデルの評価に関する注意点注意点 : 説明変数が多いほど訓練誤差は小さくなる →過学習の原因訓練誤差が小さい
テスト誤差が小さい ◼ 訓練誤差が最小のモデル = 説明変数を全て含んだモデル訓練誤差からモデルを評価してはいけない

第５回輪講A Introduction 9 線形回帰モデルの評価に関する注意点 ◼ 訓練誤差最小となる特徴選択 → 全説明変数部屋の大きさ
築年数駅からの近さ建ぺい率容積率訓練誤差最小のモデルから特徴選択するよ • 部屋の大きさ • 築年数 • 駅からの距離 • 建ぺい率 • 容積率選択された特徴量𝒙 予測精度と解釈性の低下特徴選択モデル

第５回輪講A Introduction 10 目的特徴選択モデル ◼ ５つの特徴量から価格を推定するモデル部屋の大きさ築年数
駅からの近さ建ぺい率容積率予測に有効な特徴量を選択した線形モデルが欲しい • 部屋の大きさ • 築年数選択された特徴量𝒙 予測精度と解釈性が高い

Subset Selection

第５回輪講A Subset Selection 12 最良部分選択 𝒙1 𝒙2 𝒙2 𝒙𝑝
𝒙𝑝 𝒙𝑝 𝒙𝑝 𝑀0 𝑀1 𝑀2𝑝−2 𝑀2𝑝−1 含む含まない含まない含まない含まない含まない含まない含まない含む含む含む含む含む含む全特徴量の組み合わせを考慮得られたモデル

第５回輪講A Subset Selection 13 最良なモデルの選択 ◼ 得られたモデル𝑀0 , ⋯
, 𝑀2𝑝−1 から最良なモデルを選択最良なモデル • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準説明変数の数に応じた訓練誤差から選択テスト誤差から選択

第５回輪講A 最良部分選択の問題点 Subset Selection 14 ➢ 𝑝 = 20で100万回以上の
組合せ計算 ➢ 𝑝 ≥ 40だと1兆回以上の組合せ計算説明変数が多い時は別のモデル選択が必要 ◼ 次元の呪い → 検討するモデル総数 : 2𝑝 計算量の関数計算量の順序 𝑂 log 𝑛 𝑂 𝑛 𝑂 𝑛 log 𝑛 𝑂 𝑛2 𝑂 𝑛3 𝑂 2𝑛 大

第５回輪講A Stepwise 法 ◼ 限定されたモデルのみを探索する方法 ↔ 最良部分選択 ➢ 変数増加法
➢ 変数減少法 ➢ 変数増減法 Subset Selection 15

第５回輪講A Subset Selection 16 変数増加法価格 Step1 説明変数を含まないモデルを作り記憶 :
応答変数の平均値などを単に出力 e.g. ) 不動産価格を予測する問題 Step1 Step2 Step3 Step4

第５回輪講A Subset Selection 17 変数増加法価格 Step2 説明変数を一つ追加したモデルのうち, 訓練誤差最小のモデルを記憶
価格価格価格築年数部屋の大きさ家からの近さ価格建ぺい率容積率訓練誤差最小 → 記憶 Step1 Step2 Step3 Step4

第５回輪講A Subset Selection 18 変数増加法価格 Step3 記憶したモデルに新たに一つ説明変数を追加し, 訓練誤差最小のモデルを記憶
価格価格価格築年数部屋の大きさ家からの近さ建ぺい率容積率築年数築年数築年数訓練誤差最小 → 記憶 Step1 Step2 Step3 Step4

第５回輪講A Subset Selection 19 変数増加法 Step3 記憶したモデルに新たに一つ説明変数を追加し, 訓練誤差最小のモデルを記憶価格
築年数部屋の大きさ容積率家からの近さ価格築年数部屋の大きさ建ぺい率価格築年数部屋の大きさ訓練誤差最小 → 記憶 Step1 Step2 Step3 Step4

第５回輪講A Subset Selection 20 変数増加法 Step3 記憶したモデルに新たに一つ説明変数を追加し, 訓練誤差最小のモデルを記憶価格
築年数部屋の大きさ家からの近さ訓練誤差最小 → 記憶建ぺい率容積率価格築年数部屋の大きさ家からの近さ Step1 Step2 Step3 Step4

第５回輪講A Subset Selection 21 変数増加法 Step4 記憶したモデルから最良のモデルを選択最良なモデル •
AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 Step1 Step2 Step3 Step4

第５回輪講A 変数増加法における計算量 ◼ 検討すべきモデルの総数 Subset Selection 22 2𝑝 個
1 + σ 𝑘=0 𝑝−1 𝑝 − 𝑘 = 1 + 𝑝 𝑝+1 2 個最良部分選択変数増加法最良部分選択より計算量的に効率の良い方法 e.g. ) 𝑝 = 20のとき 1,048,576個のモデル検討 211個のモデル検討

第５回輪講A 変数増加法の問題点 Subset Selection 23 e.g. ) 𝑝 =
3 (説明変数𝑋1, 𝑋2 , 𝑋3)の以下のモデル ➢1変数における最良モデルは説明変数𝑋1 を含む ➢2変数における最良モデルは説明変数𝑋2 , 𝑋3 を含むこれを変数増加法でモデル選択すると… 𝑋1 𝑋2 𝑋3 𝑋1 𝑋2 𝑋3 𝑀2 では必ず𝑋1 を含まなければならない初期モデル𝑀0 一変数モデル𝑀1 二変数モデル𝑀2

第５回輪講A Subset Selection 24 最良なモデルの選択 ◼ 変数選択の際のモデルの評価最良なモデル •
𝐶𝑝 • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準説明変数の数に応じた訓練誤差から選択テスト誤差から選択

第５回輪講A Mallows の 𝐶𝑝 Subset Selection 26 𝐶𝑝 ≝
1 𝑛 ෍ 𝑖=1 𝑛 𝑦𝑖 − ො 𝑦𝑖 2 + 2𝑑 ො 𝜎2 𝑛 訓練MSE 罰則項 𝐶𝑝 が小さいほど良いモデル ◼ 罰則項の導入 → 説明変数の過剰な増加を抑制 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 𝑑 : 予測に使用した説明変数の数 ො 𝜎2: 誤差項𝜖𝑖 の標本分散全説明変数を利用

第５回輪講A AIC (Akaike’s Information Criterion) Subset Selection 27 対数尤度
罰則項 AIC ≝ − 2 𝑛 log 𝐿 + 2𝑑 𝑛 ◼ 罰則項の導入 → 説明変数の過剰な増加を抑制 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 ◼ モデルの当てはまりの良さに最尤法を適用 AICが小さいほど良いモデル 𝑑 : 予測に使用した説明変数の数 𝐿 : 説明変数𝑑個の最尤推定

第５回輪講A BIC (Bayesian Information Criterion) Subset Selection 28 対数尤度
罰則項 BIC ≝ − 2 𝑛 log 𝐿 + log 𝑛 𝑑 𝑛 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 ◼ 𝑛 > 7 → log 𝑛 > 2 ➢ 𝐶𝑝 やAICに比べて説明変数の数による罰則が強め ➢ 𝐶𝑝 やAICより説明変数が少ないモデルが選ばれやすい ◼ 罰則項の導入 → 説明変数の過剰な増加を抑制 BICが小さいほど良いモデル 𝑑 : 予測に使用した説明変数の数 𝐿 : 説明変数𝑑個の最尤推定

第５回輪講A Adjusted 𝑅2 Subset Selection 29 Adjusted 𝑅2 ≝
1 − 1 𝑛−𝑑−1 σ𝑖=1 𝑛 𝑦𝑖− ො 𝑦𝑖 2 1 𝑛−1 σ 𝑖=1 𝑛 𝑦𝑖− ത 𝑦 2 Adjusted 𝑅2が1に近いほど良いモデル誤差項𝜖𝑖 の不偏分散応答変数の不偏分散 ◼ 𝑅2 : 変数が多いほど高評価 → Adjusted 𝑅2 : 予測に関係ない変数を含むと低評価 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 ◼ 𝑑が大きいと分子が増加

第５回輪講A Subset Selection 30 𝐶𝑝, BIC, Adjusted 𝑅2 による最適モデルの選択結果
◼ 実験用データセットでの比較 : 説明変数10個 ◼ 罰則項の強さ : Adjusted 𝑅2 < 𝐶𝑝 < BIC

第５回輪講A Subset Selection 32 Hold-out Validation と Cross-Validation ◼
テスト誤差が最小のモデルを選択 Hold-out Validation Cross-Validation

第５回輪講A Subset Selection 33 BIC, Hold-out, Cross-Validationによる最適モデル選択 ◼ 実験用データセットでの比較
: 説明変数10個 ◼ 罰則の強さ : Hold-out Validation = Cross-Validation < BIC

Shrinkage Methods

第５回輪講A Shrinkage Methods 35 リッジ回帰 (Ridge Regression) と The
Lasso ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 + 𝜆 ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 2 𝐿2 ノルム罰則項残差平方和最小化 ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 + 𝜆 ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝐿1 ノルム罰則項残差平方和最小化 ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 The Lasso Ridge Regression

第５回輪講A Shrinkage Methods 36 Ridge Regression の罰則項による回帰係数の変化 𝜆と標準化回帰係数の関係 𝜆が小さい時
誤差関数は単純な残差平方和 𝜆が大きい時 𝐿2 ノルム罰則項が効いて標準化回帰係数は0に近づく全体の回帰係数を0付近に縮小 ◼ 実験用データセットに Ridge Regression を適用説明変数の標準化必須

第５回輪講A Shrinkage Methods 37 Ridge Regression の罰則項による予測精度の変化 Bias Variance
テストMSE テストMSE, Bias, Varianceの関係トレードオフの関係最小可能MSE ◼ 実験用データセットに Ridge Regression を適用 ➢ 説明変数 𝑝 = 45個 ➢ 観測数 𝑛 = 50個 Variance → 減少 Bias → ほぼ変化なし Variance → 減少 Bias → 増加テストMSE改善領域

第５回輪講A Shrinkage Methods 38 The Lasso の罰則項による回帰係数の変化 𝜆と標準化回帰係数の関係 𝜆が小さい時
誤差関数は単純な残差平方和 𝜆が大きい時 𝐿1 ノルム罰則項が効いて標準化回帰係数は0に近づく回帰係数の一部を0に縮小 ◼ 実験用データセットに The Lasso を適用説明変数の標準化必須

第５回輪講A Shrinkage Methods 39 The Lasso の罰則項による予測精度の変化 Bias Variance
テストMSE テストMSE, Bias, Varianceの関係トレードオフの関係 ◼ 実験用データセットに The Lasso を適用 ➢ 説明変数 𝑝 = 45個 ➢ 観測数 𝑛 = 50個 Variance → 減少 Bias → ほぼ変化なし Variance → 減少 Bias → 増加テストMSE改善領域 Ridge Regression と結果は似ている

第５回輪講A Shrinkage Methods 40 Ridge Regression VS. The Lasso
① ◼ 実験用データセットでの比較 Bias Variance テストMSE The LassoとRidge Regressionの関係 ➢ 説明変数 𝑝 = 45個 : 全ての変数が応答変数に関係 ➢ 観測数 𝑛 = 50個実線 : The Lasso 破線 : Ridge Regression Bias : Lasso ≈ Ridge Variance : Lasso > Ridge MSE : Lasso > Ridge 全ての変数が応答変数に関係する時変数選択を必要としないデータは Ridgeの方が優れているノイズ変数なし

第５回輪講A Shrinkage Methods 41 Ridge Regression VS. The Lasso
② ◼ 実験用データセットでの比較 Bias Variance テストMSE The LassoとRidge Regressionの関係 ➢ 説明変数 𝑝 = 45個 : 2変数のみ応答変数に関係 ➢ 観測数 𝑛 = 50個実線 : The Lasso 破線 : Ridge Regression Bias : Lasso < Ridge Variance : Lasso < Ridge MSE : Lasso < Ridge ２変数のみが応答変数に関係する時変数選択を必要とするデータは Lassoの方が優れているノイズ変数あり

第５回輪講A Shrinkage Methods 42 Tuning parameter 𝜆 の選択 ◼
Cross-Validation誤差が最小となる 𝜆 を選択 Optimal 𝜆 Input Data Cross-Validation ①データ入力 ②交差検証による学習 ③誤差最小の𝜆を決定

Dimension Reduction Methods

第５回輪講A Dimension Reduction Methods 44 特徴量の集約 ◼ 複数の特徴量をまとめると嬉しいことがある e.g.)
学校の成績私の合計点は 80 + 70 + 90 = 240点だわ僕の合計点は 230点だ国語 : 80点数学 : 70点英語 : 90点国語 : 60点数学 : 90点英語 : 80点「合計点」を導入することで比較し易くなった → 特徴量の集約

第５回輪講A Dimension Reduction Methods 45 説明変数の変換今までの説明変数 : 𝑥𝑖1
, 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝 変換後の合成変数 : 𝑧𝑖1 , 𝑧𝑖2 ⋯ , 𝑧𝑖𝑀 (𝑀 < 𝑝) 𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 変換 𝜙1𝑚 , 𝜙2𝑚 , ⋯ , 𝜙𝑝𝑚 : 定数 𝑚 = 1, ⋯ , 𝑀 𝜙1𝑚 , 𝜙2𝑚 , ⋯ , 𝜙𝑝𝑚 を上手に選んで説明変数の次元を削減したい

第５回輪講A Dimension Reduction Methods 46 主成分分析 (PCA : Principal
Component Analysis) 人口と広告費用の散布図における主成分分析第一主成分第二主成分データの分散を最大にする軸第一主成分と直交する軸のうちデータの分散を最大にする軸高次元の特徴量から低次元の特徴量を抽出する手法 ◼ 高次元の特徴量 ➢ データの次元数が大きい ◼ 低次元の特徴量 ➢ データの次元数が小さい高次元の特徴量をできるたげ損なわずにデータを要約 ※可視化のために2次元データを用いたが本来はもっと高次元データを想定

第５回輪講A Dimension Reduction Methods 47 主成分分析における合成変数 (主成分) の導出 maximize
1 𝑛 ෍ 𝑖=1 𝑛 𝑧𝑖1 − ഥ 𝑧1 2 𝜙11 , ⋯ , 𝜙𝑝1 ◼ 𝜙𝑗𝑚 の決め方 : 合成変数 𝑧𝑖𝑚 の分散を最大化 𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 ◼ 第1主成分 𝒛1 の係数ベクトル𝜙𝑗1 の最適化問題 subject to ෍ 𝑗=1 𝑝 𝜙𝑗1 2 = 1 元の説明変数 𝑥𝑗 : 平均0に中心化 (ഥ 𝑥𝑗 = 0) → 𝑧𝑚 = 𝜙1𝑚 𝑥1 + 𝜙2𝑚 𝑥2 + ⋯ + 𝜙𝑝𝑚 𝑥𝑝 = 0 1 𝑛 ෍ 𝑖=1 𝑛 𝑧𝑖1 2 = 1 𝑛 ෍ 𝑖=1 𝑛 ෍ 𝑗=1 𝑝 𝜙𝑗1 𝑥𝑖𝑗 2 𝜙𝑗1 が無限に大きくならないための制約条件ゼロ .

第５回輪講A Dimension Reduction Methods 48 第２主成分以降の導出 ◼ 第２主成分 𝒛2
は既に得られた第1主成分 𝒛1 に含まれない情報を抽出 𝑥𝑖1 , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝 第1主成分第2主成分第1主成分を搾り取ったカスから第２主成分を搾り取る ◼ 新たに加わる制約条件 ➢ 𝑍𝑖1 と𝑍𝑖2 が無相関第３, 第４,…主成分も同様の手続き 𝑥𝑖1 , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝

第５回輪講A Dimension Reduction Methods 49 主成分軸の回転 PCAの問題点 : 主成分が多いと軸の解釈が困難
通常の視点 𝑥軸や𝑦軸から見ると主成分が何を表しているか分かりづらい回転後主成分軸で見ると解釈が容易軸を回転軸を回転することで解釈性が向上主成分はデータの見方を変えただけ第一主成分第一主成分

第５回輪講A Dimension Reduction Methods 50 主成分回帰 (PCR : Principal
Component Regression) ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 + ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 通常の線形回帰モデル ◼ 𝑀個 (𝑀 < 𝑝)の主成分を説明変数として線形回帰 ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 最小化 ෍ 𝑖=1 𝑛 𝑦𝑖 − 𝜃0 + ෍ 𝑚=1 𝑀 𝜃𝑚 𝑧𝑖𝑚 2 主成分回帰 (PCR) 𝜃1 , ⋯ , 𝜃𝑀 最小化説明変数 : 𝑥𝑖1 , ⋯ , 𝑥𝑖𝑝 回帰係数 : ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 合成変数 : 𝑧𝑖1 , ⋯ , 𝑧𝑖𝑀 回帰係数 : 𝜃1 , ⋯ , 𝜃𝑝

第５回輪講A Dimension Reduction Methods 51 次元削減の利点 ෝ 𝑦𝑖 =
෢ 𝛽0 + ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 , 通常の線形回帰モデル通常次元削減後の線形回帰モデル PCR 𝑖 = 1, ⋯ , 𝑛 ෝ 𝑦𝑖 = 𝜃0 + ෍ 𝑚=1 𝑀 𝜃𝑚 𝑧𝑖𝑚 , 𝑖 = 1, ⋯ , 𝑛 ◼ 𝑝個の説明変数を𝑀個 (𝑀 < 𝑝)の説明変数に変換次元を𝑝 + 1個から𝑀 + 1個に削減にすることで問題を単純化できる

第５回輪講A Dimension Reduction Methods 52 PCRの予測性能 ◼ 実験用データセットでのシミュレーション人工データでのシミュレーション結果
第５主成分でモデルの当てはまりが最も良い少数の主成分でモデル化できるタスクに適している ➢ 少数の主成分でモデルを説明できるような人工データ PCR 比較用実線 : The Lasso 破線 : Ridge Regression

第５回輪講A Dimension Reduction Methods 53 最適な主成分数の選択 ◼ Cross-Validation誤差が最小となる主成分数を選択 Dimension
reduction data Cross-Validation ①次元削減データ ②交差検証による学習 ③誤差最小の主成分を決定

第５回輪講A Dimension Reduction Methods 54 PCRの問題点 PCRの問題点 : 主成分の導出は教師なし学習
𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 𝑥𝑖1 , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝 の線形結合応答変数𝒚の情報が含まれていない説明変数𝒙𝑖𝑗 と応答変数𝑦𝑖 の両方を説明できるように次元削減すれば解釈性向上 ◼ 教師あり学習の導入

第５回輪講A Dimension Reduction Methods 55 部分最小二乗法 (PLS : Partial
Least Squares) ◼ PCRの𝜙𝑗𝑚 の導出を変更 ◼ 教師あり学習の導入 → 解釈性の向上 ➢ 各𝜙𝑗𝑚 を応答変数𝒚の線形回帰モデルの係数と等しくする ➢ Biasの減少 𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 ෍ 𝑖=1 𝑛 𝑦𝑖 − 𝜙0𝑚 + ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 2 部分最小二乗法 (PLS) 𝜙1𝑚 , ⋯ , 𝜙𝑝𝑚 最小化説明変数 : 𝑥𝑖1 , ⋯ , 𝑥𝑖𝑝 回帰係数 :𝜙1𝑚 , ⋯ , 𝜙𝑝𝑚

第５回輪講A Dimension Reduction Methods 56 PCRとPLSの比較実験データセットにおけるPCRとPLSの比較 ◼ 予測精度
➢ PLS < PCR ◼ 解釈性 ➢ PCR < PLS 予測精度と解釈性どちらを重視するかで検討するモデルが異なる実線 : 第1PLS 破線 : 第1PCR Populationsの方がAd Spending よりSalesに強く関係することが分かる ◼ 実験用データセットでの比較 ➢ 説明変数 : Population, Ad Spending ➢ 応答変数 : Sales

Considerations in High Dimensions

第５回輪講A Considerations in High Dimensions 58 高次元データにおける問題点 𝑝 =
2, 𝑛 = 20の最小二乗法による回帰 𝑝 = 2, 𝑛 = 2の最小二乗法による回帰 ◼ p : 説明変数の数 𝑛 : 観測数データ数を減らすデータに完全に当てはまらないデータに完全に当てはまる！ 𝑝 > 𝑛 または 𝑝 ≈ 𝑛 だと過学習を起こしやすい

第５回輪講A 59 高次元データにおける問題点 Considerations in High Dimensions 高次元の訓練データにSubset Selectionの評価指標は使えない
◼ 観測数 20 のデータ単調に増加説明変数の数単調に減少過学習

第５回輪講A 60 高次元の場合における回帰分析 Considerations in High Dimensions ◼ 変数増加
(減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso Lassoの非零係数の数テストMSE

(減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso Lassoの非零係数の数弱い正則化全ての特徴量が応答変数に関係 𝜆が小さいほど正則化が効かない Lassoの非零係数の数は増加 ෍ 𝑖=1 𝑛 𝑦𝑖 − 𝛽0 − ෍ 𝑗=1 𝑝 𝛽𝑖 𝑥𝑖𝑗 2 + 𝜆 ෍ 𝑗=1 𝑝 𝛽𝑗 The Lasso

(減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso 強い正則化一部の特徴量が応答変数に関係

(減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso 正則化に関わらず精度が悪い少しの特徴量が応答変数に関係

Conclusion

第５回輪講A Conclusion 65 まとめ ◼ 予測精度と解釈性を加味した線形モデル選択の方法を学んだ ◼ モデルの柔軟性を考慮した評価方法を学んだ ◼
高次元データを扱う際はモデル選択と評価の解釈に注意する必要がある ➢ 最良部分選択 ➢ 変数増加法, 変数減少法, 変数増減法 ➢ Ridge Regression ➢ The Lasso ➢ PCR ➢ PLS ➢ 𝐶𝑝, AIC, BIC, Adjusted 𝑅2 ➢ Hold-out法, Cross-Validation

ご清聴ありがとうございました Thank you for your attention.

Appendix

第５回輪講A 最良部分選択のアルゴリズム Appendix 68 𝑀0 を説明変数を持たないモデルとする. 𝑀0 の予測値は標本平均など. ①
𝑘 = 1, 2, ⋯ , 𝑝 について : ← 説明変数の数に応じてループ a. 𝑘個の説明変数を持つ 𝑝 𝑘 個のモデルすべてに回帰を当てはめる. b. 𝑝 𝑘 個のモデルすべてからRSSが最小または𝑅2が最大のものを選び, これを𝑀𝑘 とする. ② 𝑀0 , ⋯ , 𝑀𝑝 のうち最良なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2 などがある. ◼ 実際のアルゴリズムは説明変数の数に応じた代表モデルを比較

第５回輪講A 変数増加法のアルゴリズム Appendix 69 ① 変数を全く含まないモデルを𝑀0 とする. ② 𝑘
= 0 , 1, ⋯ , 𝑝 − 1 について以下を繰り返す : ← 説明変数の数に応じてループ a. 𝑀𝑘 の説明変数に含まれない変数のうち, どれか1つを加えることで構成される 𝑝 − 𝑘 個のモデルを考える. b. 𝑝 − 𝑘 個のモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝑀𝑘+1 とする. ③ 𝑀0 , ⋯ , 𝑀𝑝 のうち Best なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2 などがある.

第５回輪講A 変数減少法のアルゴリズム Appendix 70 ① 𝑝個すべての変数を含むモデルを𝑀𝑝 とする. ② 𝑘
= 𝑝, 𝑝 − 1 ⋯ , 1 について以下を繰り返す : ← 説明変数の数に応じてループ a. 𝑀𝑘 から説明変数を一つ除いてできる𝑘個のモデルを考える. これらは𝑘 − 1個の説明変数を持つ. b. 𝑘 個のモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝑀𝑘−1 とする. ③ 𝑀0 , ⋯ , 𝑀𝑝 のうち Best なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2 などがある.

第５回輪講A 変数減少法における計算量および問題点 ◼ 最良部分選択に比べて計算量的に効率の良い方法 ◼ 検討すべきモデルの総数 ➢ 最良部分選択 :
2𝑝個 ➢ 変数増加法 : 1 + σ 𝑘=0 𝑝−1 𝑝 − 𝑘 = 1 + 𝑝 𝑝 + 1 /2 個 ➢ 変数減少法 : 1 + σ𝑘=𝑝 1 𝑘 = 1 + 𝑝 𝑝 + 1 /2 個 ◼ 問題点 : 変数増加法と同様 Appendix 71

第５回輪講A 変数増減法のアルゴリズム Appendix 72 ① 変数を全く含まないモデルを𝑀0 とし, 説明変数の集合を𝑆 =
𝑋1 , ⋯ , 𝑋𝑝 とする. ② 𝑘 = 0, 1, ⋯ , 𝑆 について以下を繰り返す : ← 説明変数の数に応じてループ a. 𝑀𝑘 の説明変数に含まれない𝑆の要素のうち, どれか1つを加えることで構成されるモデルを考える. b. そのモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝑁𝑗=𝑘+1 とする. c. 加えた1つの説明変数を元に戻す. d. 𝑘が1以上の時, 𝑀𝑘 から説明変数𝑋𝑖 を1つ削除してできる𝑘個のモデルを考える. これらは𝑘 − 1個の説明変数を持つ. e. 𝑘 個のモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝐿𝑗=𝑘−1 とする. f. (削除した1つの説明変数𝑋𝑖 を元に戻す. ) g. 𝑁𝑗=𝑘+1 と𝐿𝑗=𝑘−1 のうち最良のモデルを𝑀𝑗 とする. 𝐿𝑘−1 が最良の場合𝑋𝑖 を𝑆から削除する. ③ 𝑀0 , ⋯ , 𝑀 𝑆 のうち Best なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2などがある.

第５回輪講A 誤差項 𝜖𝑖 が正規分布に従うときのAIC Appendix 73

第５回輪講A Appendix 74 誤差項 𝜖𝑖 が正規分布に従うときのBIC

第５回輪講A Appendix 75 線形回帰モデルの切片෢ 𝛽0 を推定する必要がない理由

第５回輪講A Appendix 76 BiasとVarianceはトレードオフの関係予測誤差, Bias, Varianceの関係

第５回輪講A Appendix 77 Ridge Regression と The Lasso を最適化問題で表現
minimize ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 subject to ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 ≤ 𝑠 . ◼ The Lasso 残差平方和制約条件 minimize ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 subject to ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 2 ≤ 𝑠 . ◼ Ridge Regression 残差平方和制約条件 ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝 ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝

第５回輪講A Appendix 78 The Lasso で変数選択ができる理由 ◼ 制約付き最適化問題を図示 The
Lasso Ridge Regression

第５回輪講A References ◼ James, Gareth, et al. An introduction
to statistical learning. Vol. 112. New York: springer, 2013. ◼ 林邦好, 冨田誠, and 田中豊. "主成分分析における軸の回転について." 計算機統計学 19.2 (2008): 89-101. ◼ Geladi, Paul, and Bruce R. Kowalski. "Partial least-squares regression: a tutorial." Analytica chimica acta 185 (1986): 1-17. ◼ Bishop, Christopher M. Pattern recognition and machine learning. springer, 2006. 79 End

【Rによる統計的学習入門】6章 線形モデル選択と正則化

【Rによる統計的学習入門】6章 線形モデル選択と正則化

More Decks by yusumi

Featured

Transcript

【Rによる統計的学習入門】6章線形モデル選択と正則化

【Rによる統計的学習入門】6章線形モデル選択と正則化