Slide 1

Slide 1 text

線形モデル選択と正則化 Linear Model Selection and Regularization yusumi 9 June 2021 参考資料 An Introduction to Statistical Learning with Applications in R Chapter 6

Slide 2

Slide 2 text

目次 1. Introduction 2. Subset Selection 3. Shrinkage Methods 4. Dimension Reduction Methods 5. Considerations in High Dimensions 6. Conclusion 7. Appendix 8. References

Slide 3

Slide 3 text

Introduction

Slide 4

Slide 4 text

第5回 輪講A Introduction 4 特徴量の選択 予測精度を向上させる有効な特徴量を見つけたい e.g.) 不動産の価格推定問題 • 部屋の大きさ • 築年数 • 駅からの近さ • 建ぺい率 • 容積率 与えられた特徴量 部屋の大きさ 築年数 駅からの近さ 建ぺい率 容積率

Slide 5

Slide 5 text

第5回 輪講A Introduction 5 特徴量の選択 予測精度を向上させる有効な特徴量を見つけたい • 部屋の大きさ • 築年数 • 駅からの近さ • 建ぺい率 • 容積率 与えられた特徴量 予測に有効な特徴量が 2つだけの場合を考える ◼ データ数は特徴量より 十分多いとする e.g.) 不動産の価格推定問題

Slide 6

Slide 6 text

第5回 輪講A Introduction 6 価格を推定する線形重回帰モデル 価格の予測値 𝒙 パラメータ ෡ 𝜷 ො 𝑦 = ෡ 𝜷𝐓𝒙 ◼ 5つの特徴量から価格を推定するモデル 部屋の大きさ 築年数 駅からの近さ 建ぺい率 容積率 予測に有効な特徴量を 選択するよ 選択された 特徴量ベクトル 線形重回帰モデル 特徴選択モデル

Slide 7

Slide 7 text

第5回 輪講A Introduction 7 訓練データから最小二乗法で回帰係数を推定 標準的な線形重回帰モデル 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + ⋯ + 𝛽𝑝 𝑥𝑖𝑝 + 𝜖𝑖 応答変数 誤差項 説明変数 : 𝑥𝑖1 , 𝑥𝑖2 , ⋯ , 𝑥𝑖𝑝 回帰係数 : 𝛽1 , 𝛽2 , ⋯ , 𝛽𝑝 ෝ 𝑦𝑖 = ෢ 𝛽0 + ෢ 𝛽1 𝑥𝑖1 + ⋯ + ෢ 𝛽𝑝 𝑥𝑖𝑝 回帰係数の推定値 : ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝 ෍ 𝑖=1 𝑛 𝑦𝑖 − ො 𝑦𝑖 2 最小化 推定式 残差平方和 (RSS) ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝 ෞ 𝑦1 , ෞ 𝑦2 , ⋯ , ෞ 𝑦𝑛 𝑦1 , 𝑦2 , ⋯ , 𝑦𝑛 𝜖𝑖 ~𝑁 0, 𝜎2

Slide 8

Slide 8 text

第5回 輪講A Introduction 8 線形回帰モデルの評価に関する注意点 注意点 : 説明変数が多いほど訓練誤差は小さくなる →過学習の原因 訓練誤差が小さい テスト誤差が小さい ◼ 訓練誤差が最小のモデル = 説明変数を全て含んだモデル 訓練誤差からモデルを評価してはいけない

Slide 9

Slide 9 text

第5回 輪講A Introduction 9 線形回帰モデルの評価に関する注意点 ◼ 訓練誤差最小となる特徴選択 → 全説明変数 部屋の大きさ 築年数 駅からの近さ 建ぺい率 容積率 訓練誤差最小のモデル から特徴選択するよ • 部屋の大きさ • 築年数 • 駅からの距離 • 建ぺい率 • 容積率 選択された特徴量𝒙 予測精度と 解釈性の低下 特徴選択モデル

Slide 10

Slide 10 text

第5回 輪講A Introduction 10 目的 特徴選択モデル ◼ 5つの特徴量から価格を推定するモデル 部屋の大きさ 築年数 駅からの近さ 建ぺい率 容積率 予測に有効な特徴量を 選択した線形モデルが欲しい • 部屋の大きさ • 築年数 選択された特徴量𝒙 予測精度と 解釈性が高い

Slide 11

Slide 11 text

Subset Selection

Slide 12

Slide 12 text

第5回 輪講A Subset Selection 12 最良部分選択 𝒙1 𝒙2 𝒙2 𝒙𝑝 𝒙𝑝 𝒙𝑝 𝒙𝑝 𝑀0 𝑀1 𝑀2𝑝−2 𝑀2𝑝−1 含む 含まない 含まない 含まない 含まない 含まない 含まない 含まない 含む 含む 含む 含む 含む 含む 全特徴量の 組み合わせを考慮 得られたモデル

Slide 13

Slide 13 text

第5回 輪講A Subset Selection 13 最良なモデルの選択 ◼ 得られたモデル𝑀0 , ⋯ , 𝑀2𝑝−1 から最良なモデルを選択 最良なモデル • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 説明変数の数に応じた 訓練誤差から選択 テスト誤差から選択

Slide 14

Slide 14 text

第5回 輪講A 最良部分選択の問題点 Subset Selection 14 ➢ 𝑝 = 20で100万回以上の 組合せ計算 ➢ 𝑝 ≥ 40だと1兆回以上の 組合せ計算 説明変数が多い時は 別のモデル選択が必要 ◼ 次元の呪い → 検討するモデル総数 : 2𝑝 計算量の関数 計算量の順序 𝑂 log 𝑛 𝑂 𝑛 𝑂 𝑛 log 𝑛 𝑂 𝑛2 𝑂 𝑛3 𝑂 2𝑛 大

Slide 15

Slide 15 text

第5回 輪講A Stepwise 法 ◼ 限定されたモデルのみを探索する方法 ↔ 最良部分選択 ➢ 変数増加法 ➢ 変数減少法 ➢ 変数増減法 Subset Selection 15

Slide 16

Slide 16 text

第5回 輪講A Subset Selection 16 変数増加法 価格 Step1 説明変数を含まないモデルを作り記憶 : 応答変数の平均値などを単に出力 e.g. ) 不動産価格を予測する問題 Step1 Step2 Step3 Step4

Slide 17

Slide 17 text

第5回 輪講A Subset Selection 17 変数増加法 価格 Step2 説明変数を一つ追加したモデルのうち, 訓練誤差最小のモデルを記憶 価格 価格 価格 築年数 部屋の大きさ 家からの近さ 価格 建ぺい率 容積率 訓練誤差最小 → 記憶 Step1 Step2 Step3 Step4

Slide 18

Slide 18 text

第5回 輪講A Subset Selection 18 変数増加法 価格 Step3 記憶したモデルに新たに一つ説明変数を追加し, 訓練誤差最小のモデルを記憶 価格 価格 価格 築年数 部屋の大きさ 家からの近さ 建ぺい率 容積率 築年数 築年数 築年数 訓練誤差最小 → 記憶 Step1 Step2 Step3 Step4

Slide 19

Slide 19 text

第5回 輪講A Subset Selection 19 変数増加法 Step3 記憶したモデルに新たに一つ説明変数を追加し, 訓練誤差最小のモデルを記憶 価格 築年数 部屋の大きさ 容積率 家からの近さ 価格 築年数 部屋の大きさ 建ぺい率 価格 築年数 部屋の大きさ 訓練誤差最小 → 記憶 Step1 Step2 Step3 Step4

Slide 20

Slide 20 text

第5回 輪講A Subset Selection 20 変数増加法 Step3 記憶したモデルに新たに一つ説明変数を追加し, 訓練誤差最小のモデルを記憶 価格 築年数 部屋の大きさ 家からの近さ 訓練誤差最小 → 記憶 建ぺい率 容積率 価格 築年数 部屋の大きさ 家からの近さ Step1 Step2 Step3 Step4

Slide 21

Slide 21 text

第5回 輪講A Subset Selection 21 変数増加法 Step4 記憶したモデルから最良のモデルを選択 最良なモデル • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 Step1 Step2 Step3 Step4

Slide 22

Slide 22 text

第5回 輪講A 変数増加法における計算量 ◼ 検討すべきモデルの総数 Subset Selection 22 2𝑝 個 1 + σ 𝑘=0 𝑝−1 𝑝 − 𝑘 = 1 + 𝑝 𝑝+1 2 個 最良部分選択 変数増加法 最良部分選択より計算量的に効率の良い方法 e.g. ) 𝑝 = 20のとき 1,048,576個のモデル検討 211個のモデル検討

Slide 23

Slide 23 text

第5回 輪講A 変数増加法の問題点 Subset Selection 23 e.g. ) 𝑝 = 3 (説明変数𝑋1, 𝑋2 , 𝑋3)の以下のモデル ➢1変数における最良モデルは説明変数𝑋1 を含む ➢2変数における最良モデルは説明変数𝑋2 , 𝑋3 を含む これを変数増加法でモデル選択すると… 𝑋1 𝑋2 𝑋3 𝑋1 𝑋2 𝑋3 𝑀2 では必ず𝑋1 を 含まなければならない 初期モデル𝑀0 一変数モデル𝑀1 二変数モデル𝑀2

Slide 24

Slide 24 text

第5回 輪講A Subset Selection 24 最良なモデルの選択 ◼ 変数選択の際のモデルの評価 最良なモデル • 𝐶𝑝 • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 説明変数の数に応じた 訓練誤差から選択 テスト誤差から選択

Slide 25

Slide 25 text

第5回 輪講A Subset Selection 25 最良なモデルの選択 ◼ 変数選択の際のモデルの評価 最良なモデル • 𝐶𝑝 • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 説明変数の数に応じた 訓練誤差から選択 テスト誤差から選択

Slide 26

Slide 26 text

第5回 輪講A Mallows の 𝐶𝑝 Subset Selection 26 𝐶𝑝 ≝ 1 𝑛 ෍ 𝑖=1 𝑛 𝑦𝑖 − ො 𝑦𝑖 2 + 2𝑑 ො 𝜎2 𝑛 訓練MSE 罰則項 𝐶𝑝 が小さいほど良いモデル ◼ 罰則項の導入 → 説明変数の過剰な増加を抑制 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 𝑑 : 予測に使用した説明変数の数 ො 𝜎2: 誤差項𝜖𝑖 の標本分散 全説明変数を利用

Slide 27

Slide 27 text

第5回 輪講A AIC (Akaike’s Information Criterion) Subset Selection 27 対数尤度 罰則項 AIC ≝ − 2 𝑛 log 𝐿 + 2𝑑 𝑛 ◼ 罰則項の導入 → 説明変数の過剰な増加を抑制 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 ◼ モデルの当てはまりの良さに最尤法を適用 AICが小さいほど良いモデル 𝑑 : 予測に使用した説明変数の数 𝐿 : 説明変数𝑑個の最尤推定

Slide 28

Slide 28 text

第5回 輪講A BIC (Bayesian Information Criterion) Subset Selection 28 対数尤度 罰則項 BIC ≝ − 2 𝑛 log 𝐿 + log 𝑛 𝑑 𝑛 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 ◼ 𝑛 > 7 → log 𝑛 > 2 ➢ 𝐶𝑝 やAICに比べて説明変数の数による罰則が強め ➢ 𝐶𝑝 やAICより説明変数が少ないモデルが選ばれやすい ◼ 罰則項の導入 → 説明変数の過剰な増加を抑制 BICが小さいほど良いモデル 𝑑 : 予測に使用した説明変数の数 𝐿 : 説明変数𝑑個の最尤推定

Slide 29

Slide 29 text

第5回 輪講A Adjusted 𝑅2 Subset Selection 29 Adjusted 𝑅2 ≝ 1 − 1 𝑛−𝑑−1 σ𝑖=1 𝑛 𝑦𝑖− ො 𝑦𝑖 2 1 𝑛−1 σ 𝑖=1 𝑛 𝑦𝑖− ത 𝑦 2 Adjusted 𝑅2が1に近いほど良いモデル 誤差項𝜖𝑖 の不偏分散 応答変数の不偏分散 ◼ 𝑅2 : 変数が多いほど高評価 → Adjusted 𝑅2 : 予測に関係ない変数を含むと低評価 ◼ モデルの当てはまりの良さとモデルの複雑さを同時に考慮 ◼ 𝑑が大きいと分子が増加

Slide 30

Slide 30 text

第5回 輪講A Subset Selection 30 𝐶𝑝, BIC, Adjusted 𝑅2 による最適モデルの選択結果 ◼ 実験用データセットでの比較 : 説明変数10個 ◼ 罰則項の強さ : Adjusted 𝑅2 < 𝐶𝑝 < BIC

Slide 31

Slide 31 text

第5回 輪講A Subset Selection 31 最良なモデルの選択 ◼ 変数選択の際のモデルの評価 最良なモデル • 𝐶𝑝 • AIC • BIC • Adjusted 𝑅2 • Hold-out 法 • Cross-Validation 選択基準 説明変数の数に応じた 訓練誤差から選択 テスト誤差から選択

Slide 32

Slide 32 text

第5回 輪講A Subset Selection 32 Hold-out Validation と Cross-Validation ◼ テスト誤差が最小のモデルを選択 Hold-out Validation Cross-Validation

Slide 33

Slide 33 text

第5回 輪講A Subset Selection 33 BIC, Hold-out, Cross-Validationによる最適モデル選択 ◼ 実験用データセットでの比較 : 説明変数10個 ◼ 罰則の強さ : Hold-out Validation = Cross-Validation < BIC

Slide 34

Slide 34 text

Shrinkage Methods

Slide 35

Slide 35 text

第5回 輪講A Shrinkage Methods 35 リッジ回帰 (Ridge Regression) と The Lasso ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 + 𝜆 ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 2 𝐿2 ノルム罰則項 残差平方和 最小化 ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 + 𝜆 ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝐿1 ノルム罰則項 残差平方和 最小化 ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 The Lasso Ridge Regression

Slide 36

Slide 36 text

第5回 輪講A Shrinkage Methods 36 Ridge Regression の罰則項による回帰係数の変化 𝜆と標準化回帰係数の関係 𝜆が小さい時 誤差関数は単純な残差平方和 𝜆が大きい時 𝐿2 ノルム罰則項が効いて標準化 回帰係数は0に近づく 全体の回帰係数を0付近に縮小 ◼ 実験用データセットに Ridge Regression を適用 説明変数の標準化必須

Slide 37

Slide 37 text

第5回 輪講A Shrinkage Methods 37 Ridge Regression の罰則項による予測精度の変化 Bias Variance テストMSE テストMSE, Bias, Varianceの関係 トレードオフ の関係 最小可能MSE ◼ 実験用データセットに Ridge Regression を適用 ➢ 説明変数 𝑝 = 45個 ➢ 観測数 𝑛 = 50個 Variance → 減少 Bias → ほぼ変化なし Variance → 減少 Bias → 増加 テストMSE改善領域

Slide 38

Slide 38 text

第5回 輪講A Shrinkage Methods 38 The Lasso の罰則項による回帰係数の変化 𝜆と標準化回帰係数の関係 𝜆が小さい時 誤差関数は単純な残差平方和 𝜆が大きい時 𝐿1 ノルム罰則項が効いて標準化 回帰係数は0に近づく 回帰係数の一部を0に縮小 ◼ 実験用データセットに The Lasso を適用 説明変数の標準化必須

Slide 39

Slide 39 text

第5回 輪講A Shrinkage Methods 39 The Lasso の罰則項による予測精度の変化 Bias Variance テストMSE テストMSE, Bias, Varianceの関係 トレードオフ の関係 ◼ 実験用データセットに The Lasso を適用 ➢ 説明変数 𝑝 = 45個 ➢ 観測数 𝑛 = 50個 Variance → 減少 Bias → ほぼ変化なし Variance → 減少 Bias → 増加 テストMSE改善領域 Ridge Regression と結果は似ている

Slide 40

Slide 40 text

第5回 輪講A Shrinkage Methods 40 Ridge Regression VS. The Lasso ① ◼ 実験用データセットでの比較 Bias Variance テストMSE The LassoとRidge Regressionの関係 ➢ 説明変数 𝑝 = 45個 : 全ての変数が応答変数に関係 ➢ 観測数 𝑛 = 50個 実線 : The Lasso 破線 : Ridge Regression Bias : Lasso ≈ Ridge Variance : Lasso > Ridge MSE : Lasso > Ridge 全ての変数が 応答変数に関係する時 変数選択を必要としないデータは Ridgeの方が優れている ノイズ変数なし

Slide 41

Slide 41 text

第5回 輪講A Shrinkage Methods 41 Ridge Regression VS. The Lasso ② ◼ 実験用データセットでの比較 Bias Variance テストMSE The LassoとRidge Regressionの関係 ➢ 説明変数 𝑝 = 45個 : 2変数のみ応答変数に関係 ➢ 観測数 𝑛 = 50個 実線 : The Lasso 破線 : Ridge Regression Bias : Lasso < Ridge Variance : Lasso < Ridge MSE : Lasso < Ridge 2変数のみが 応答変数に関係する時 変数選択を必要とするデータは Lassoの方が優れている ノイズ変数あり

Slide 42

Slide 42 text

第5回 輪講A Shrinkage Methods 42 Tuning parameter 𝜆 の選択 ◼ Cross-Validation誤差が最小となる 𝜆 を選択 Optimal 𝜆 Input Data Cross-Validation ①データ入力 ②交差検証による学習 ③誤差最小の𝜆を決定

Slide 43

Slide 43 text

Dimension Reduction Methods

Slide 44

Slide 44 text

第5回 輪講A Dimension Reduction Methods 44 特徴量の集約 ◼ 複数の特徴量をまとめると嬉しいことがある e.g.) 学校の成績 私の合計点は 80 + 70 + 90 = 240点 だわ 僕の合計点は 230点だ 国語 : 80点 数学 : 70点 英語 : 90点 国語 : 60点 数学 : 90点 英語 : 80点 「合計点」を導入することで比較し易くなった → 特徴量の集約

Slide 45

Slide 45 text

第5回 輪講A Dimension Reduction Methods 45 説明変数の変換 今までの説明変数 : 𝑥𝑖1 , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝 変換後の合成変数 : 𝑧𝑖1 , 𝑧𝑖2 ⋯ , 𝑧𝑖𝑀 (𝑀 < 𝑝) 𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 変 換 𝜙1𝑚 , 𝜙2𝑚 , ⋯ , 𝜙𝑝𝑚 : 定数 𝑚 = 1, ⋯ , 𝑀 𝜙1𝑚 , 𝜙2𝑚 , ⋯ , 𝜙𝑝𝑚 を上手に選んで説明変数 の次元を削減したい

Slide 46

Slide 46 text

第5回 輪講A Dimension Reduction Methods 46 主成分分析 (PCA : Principal Component Analysis) 人口と広告費用の散布図における主成分分析 第一主成分 第二主成分 データの分散を 最大にする軸 第一主成分と直交する軸のうち データの分散を最大にする軸 高次元の特徴量から低次元の特徴量を抽出する手法 ◼ 高次元の特徴量 ➢ データの次元数が大きい ◼ 低次元の特徴量 ➢ データの次元数が小さい 高次元の特徴量をできるたげ 損なわずにデータを要約 ※可視化のために2次元データを用いたが本来はもっと高次元データを想定

Slide 47

Slide 47 text

第5回 輪講A Dimension Reduction Methods 47 主成分分析における合成変数 (主成分) の導出 maximize 1 𝑛 ෍ 𝑖=1 𝑛 𝑧𝑖1 − ഥ 𝑧1 2 𝜙11 , ⋯ , 𝜙𝑝1 ◼ 𝜙𝑗𝑚 の決め方 : 合成変数 𝑧𝑖𝑚 の分散を最大化 𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 ◼ 第1主成分 𝒛1 の係数ベクトル𝜙𝑗1 の最適化問題 subject to ෍ 𝑗=1 𝑝 𝜙𝑗1 2 = 1 元の説明変数 𝑥𝑗 : 平均0に中心化 (ഥ 𝑥𝑗 = 0) → 𝑧𝑚 = 𝜙1𝑚 𝑥1 + 𝜙2𝑚 𝑥2 + ⋯ + 𝜙𝑝𝑚 𝑥𝑝 = 0 1 𝑛 ෍ 𝑖=1 𝑛 𝑧𝑖1 2 = 1 𝑛 ෍ 𝑖=1 𝑛 ෍ 𝑗=1 𝑝 𝜙𝑗1 𝑥𝑖𝑗 2 𝜙𝑗1 が無限に大きくならない ための制約条件 ゼロ .

Slide 48

Slide 48 text

第5回 輪講A Dimension Reduction Methods 48 第2主成分以降の導出 ◼ 第2主成分 𝒛2 は既に得られた第1主成分 𝒛1 に含まれない情報を抽出 𝑥𝑖1 , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝 第1主成分 第2主成分 第1主成分を搾り取ったカスから 第2主成分を搾り取る ◼ 新たに加わる制約条件 ➢ 𝑍𝑖1 と𝑍𝑖2 が無相関 第3, 第4,…主成分も同様の手続き 𝑥𝑖1 , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝

Slide 49

Slide 49 text

第5回 輪講A Dimension Reduction Methods 49 主成分軸の回転 PCAの問題点 : 主成分が多いと軸の解釈が困難 通常の視点 𝑥軸や𝑦軸から見ると主成分が 何を表しているか分かりづらい 回転後 主成分軸で見ると解釈が容易 軸を回転 軸を回転することで解釈性が向上 主成分はデータの見方を変えただけ 第一主成分 第一主成分

Slide 50

Slide 50 text

第5回 輪講A Dimension Reduction Methods 50 主成分回帰 (PCR : Principal Component Regression) ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 + ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 通常の線形回帰モデル ◼ 𝑀個 (𝑀 < 𝑝)の主成分を説明変数として線形回帰 ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 最小化 ෍ 𝑖=1 𝑛 𝑦𝑖 − 𝜃0 + ෍ 𝑚=1 𝑀 𝜃𝑚 𝑧𝑖𝑚 2 主成分回帰 (PCR) 𝜃1 , ⋯ , 𝜃𝑀 最小化 説明変数 : 𝑥𝑖1 , ⋯ , 𝑥𝑖𝑝 回帰係数 : ෢ 𝛽1 , ⋯ , ෢ 𝛽𝑝 合成変数 : 𝑧𝑖1 , ⋯ , 𝑧𝑖𝑀 回帰係数 : 𝜃1 , ⋯ , 𝜃𝑝

Slide 51

Slide 51 text

第5回 輪講A Dimension Reduction Methods 51 次元削減の利点 ෝ 𝑦𝑖 = ෢ 𝛽0 + ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 , 通常の線形回帰モデル 通常 次元削減後の線形回帰モデル PCR 𝑖 = 1, ⋯ , 𝑛 ෝ 𝑦𝑖 = 𝜃0 + ෍ 𝑚=1 𝑀 𝜃𝑚 𝑧𝑖𝑚 , 𝑖 = 1, ⋯ , 𝑛 ◼ 𝑝個の説明変数を𝑀個 (𝑀 < 𝑝)の説明変数に変換 次元を𝑝 + 1個から𝑀 + 1個に削減にすることで 問題を単純化できる

Slide 52

Slide 52 text

第5回 輪講A Dimension Reduction Methods 52 PCRの予測性能 ◼ 実験用データセットでのシミュレーション 人工データでのシミュレーション結果 第5主成分でモデルの 当てはまりが最も良い 少数の主成分でモデル化 できるタスクに適している ➢ 少数の主成分でモデルを説明できるような人工データ PCR 比較用 実線 : The Lasso 破線 : Ridge Regression

Slide 53

Slide 53 text

第5回 輪講A Dimension Reduction Methods 53 最適な主成分数の選択 ◼ Cross-Validation誤差が最小となる主成分数を選択 Dimension reduction data Cross-Validation ①次元削減データ ②交差検証による学習 ③誤差最小の主成分を決定

Slide 54

Slide 54 text

第5回 輪講A Dimension Reduction Methods 54 PCRの問題点 PCRの問題点 : 主成分の導出は教師なし学習 𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 𝑥𝑖1 , 𝑥𝑖2 ⋯ , 𝑥𝑖𝑝 の線形結合 応答変数𝒚の情報が含まれていない 説明変数𝒙𝑖𝑗 と応答変数𝑦𝑖 の両方を 説明できるように次元削減すれば解釈性向上 ◼ 教師あり学習の導入

Slide 55

Slide 55 text

第5回 輪講A Dimension Reduction Methods 55 部分最小二乗法 (PLS : Partial Least Squares) ◼ PCRの𝜙𝑗𝑚 の導出を変更 ◼ 教師あり学習の導入 → 解釈性の向上 ➢ 各𝜙𝑗𝑚 を応答変数𝒚の線形回帰モデルの係数と等しくする ➢ Biasの減少 𝑧𝑖𝑚 = ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 ෍ 𝑖=1 𝑛 𝑦𝑖 − 𝜙0𝑚 + ෍ 𝑗=1 𝑝 𝜙𝑗𝑚 𝑥𝑖𝑗 2 部分最小二乗法 (PLS) 𝜙1𝑚 , ⋯ , 𝜙𝑝𝑚 最小化 説明変数 : 𝑥𝑖1 , ⋯ , 𝑥𝑖𝑝 回帰係数 :𝜙1𝑚 , ⋯ , 𝜙𝑝𝑚

Slide 56

Slide 56 text

第5回 輪講A Dimension Reduction Methods 56 PCRとPLSの比較 実験データセットにおけるPCRとPLSの比較 ◼ 予測精度 ➢ PLS < PCR ◼ 解釈性 ➢ PCR < PLS 予測精度と解釈性どちらを 重視するかで検討する モデルが異なる 実線 : 第1PLS 破線 : 第1PCR Populationsの方がAd Spending よりSalesに強く関係することが分かる ◼ 実験用データセットでの比較 ➢ 説明変数 : Population, Ad Spending ➢ 応答変数 : Sales

Slide 57

Slide 57 text

Considerations in High Dimensions

Slide 58

Slide 58 text

第5回 輪講A Considerations in High Dimensions 58 高次元データにおける問題点 𝑝 = 2, 𝑛 = 20の最小二乗法による回帰 𝑝 = 2, 𝑛 = 2の最小二乗法による回帰 ◼ p : 説明変数の数 𝑛 : 観測数 データ数 を減らす データに完全に 当てはまらない データに完全に 当てはまる! 𝑝 > 𝑛 または 𝑝 ≈ 𝑛 だと過学習を起こしやすい

Slide 59

Slide 59 text

第5回 輪講A 59 高次元データにおける問題点 Considerations in High Dimensions 高次元の訓練データにSubset Selectionの評価指標は使えない ◼ 観測数 20 のデータ 単調に増加 説明変数の数 単調に減少 過学習

Slide 60

Slide 60 text

第5回 輪講A 60 高次元の場合における回帰分析 Considerations in High Dimensions ◼ 変数増加 (減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso Lassoの非零係数の数 テストMSE

Slide 61

Slide 61 text

第5回 輪講A 61 高次元の場合における回帰分析 Considerations in High Dimensions ◼ 変数増加 (減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso Lassoの非零係数の数 弱い 正則化 全ての特徴量が 応答変数に関係 𝜆が小さいほど正則化が効かない Lassoの非零係数の数は増加 ෍ 𝑖=1 𝑛 𝑦𝑖 − 𝛽0 − ෍ 𝑗=1 𝑝 𝛽𝑖 𝑥𝑖𝑗 2 + 𝜆 ෍ 𝑗=1 𝑝 𝛽𝑗 The Lasso

Slide 62

Slide 62 text

第5回 輪講A 62 高次元の場合における回帰分析 Considerations in High Dimensions ◼ 変数増加 (減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso 強い正則化 一部の特徴量が 応答変数に関係

Slide 63

Slide 63 text

第5回 輪講A 63 高次元の場合における回帰分析 Considerations in High Dimensions ◼ 変数増加 (減少) 法や縮小推定が有利 ➢ シミュレーションデータで実験 : 𝑝個のうち20個が応答変数に関係 ➢ 回帰手法 : The Lasso 正則化に関わらず 精度が悪い 少しの特徴量が 応答変数に関係

Slide 64

Slide 64 text

Conclusion

Slide 65

Slide 65 text

第5回 輪講A Conclusion 65 まとめ ◼ 予測精度と解釈性を加味した線形モデル選択の方法を学んだ ◼ モデルの柔軟性を考慮した評価方法を学んだ ◼ 高次元データを扱う際はモデル選択と評価の解釈に注意する必要がある ➢ 最良部分選択 ➢ 変数増加法, 変数減少法, 変数増減法 ➢ Ridge Regression ➢ The Lasso ➢ PCR ➢ PLS ➢ 𝐶𝑝, AIC, BIC, Adjusted 𝑅2 ➢ Hold-out法, Cross-Validation

Slide 66

Slide 66 text

ご清聴ありがとうございました Thank you for your attention.

Slide 67

Slide 67 text

Appendix

Slide 68

Slide 68 text

第5回 輪講A 最良部分選択のアルゴリズム Appendix 68 𝑀0 を説明変数を持たないモデルとする. 𝑀0 の予測値は標本平均など. ① 𝑘 = 1, 2, ⋯ , 𝑝 について : ← 説明変数の数に応じてループ a. 𝑘個の説明変数を持つ 𝑝 𝑘 個のモデルすべてに回帰を当てはめる. b. 𝑝 𝑘 個のモデルすべてからRSSが最小または𝑅2が最大のものを選び, これを𝑀𝑘 とする. ② 𝑀0 , ⋯ , 𝑀𝑝 のうち最良なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2 などがある. ◼ 実際のアルゴリズムは説明変数の数に応じた代表モデルを比較

Slide 69

Slide 69 text

第5回 輪講A 変数増加法のアルゴリズム Appendix 69 ① 変数を全く含まないモデルを𝑀0 とする. ② 𝑘 = 0 , 1, ⋯ , 𝑝 − 1 について以下を繰り返す : ← 説明変数の数に応じてループ a. 𝑀𝑘 の説明変数に含まれない変数のうち, どれか1つを加えることで構成される 𝑝 − 𝑘 個のモデルを 考える. b. 𝑝 − 𝑘 個のモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝑀𝑘+1 とする. ③ 𝑀0 , ⋯ , 𝑀𝑝 のうち Best なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2 などがある.

Slide 70

Slide 70 text

第5回 輪講A 変数減少法のアルゴリズム Appendix 70 ① 𝑝個すべての変数を含むモデルを𝑀𝑝 とする. ② 𝑘 = 𝑝, 𝑝 − 1 ⋯ , 1 について以下を繰り返す : ← 説明変数の数に応じてループ a. 𝑀𝑘 から説明変数を一つ除いてできる𝑘個のモデルを考える. これらは𝑘 − 1個の説明変数を持つ. b. 𝑘 個のモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝑀𝑘−1 とする. ③ 𝑀0 , ⋯ , 𝑀𝑝 のうち Best なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2 などがある.

Slide 71

Slide 71 text

第5回 輪講A 変数減少法における計算量および問題点 ◼ 最良部分選択に比べて計算量的に効率の良い方法 ◼ 検討すべきモデルの総数 ➢ 最良部分選択 : 2𝑝個 ➢ 変数増加法 : 1 + σ 𝑘=0 𝑝−1 𝑝 − 𝑘 = 1 + 𝑝 𝑝 + 1 /2 個 ➢ 変数減少法 : 1 + σ𝑘=𝑝 1 𝑘 = 1 + 𝑝 𝑝 + 1 /2 個 ◼ 問題点 : 変数増加法と同様 Appendix 71

Slide 72

Slide 72 text

第5回 輪講A 変数増減法のアルゴリズム Appendix 72 ① 変数を全く含まないモデルを𝑀0 とし, 説明変数の集合を𝑆 = 𝑋1 , ⋯ , 𝑋𝑝 とする. ② 𝑘 = 0, 1, ⋯ , 𝑆 について以下を繰り返す : ← 説明変数の数に応じてループ a. 𝑀𝑘 の説明変数に含まれない𝑆の要素のうち, どれか1つを加えることで構成される モデルを考える. b. そのモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝑁𝑗=𝑘+1 とする. c. 加えた1つの説明変数を元に戻す. d. 𝑘が1以上の時, 𝑀𝑘 から説明変数𝑋𝑖 を1つ削除してできる𝑘個のモデルを考える. これらは𝑘 − 1個の説明変数を持つ. e. 𝑘 個のモデルのうち, RSSが最小または𝑅2が最大のものを選び, これを𝐿𝑗=𝑘−1 とする. f. (削除した1つの説明変数𝑋𝑖 を元に戻す. ) g. 𝑁𝑗=𝑘+1 と𝐿𝑗=𝑘−1 のうち最良のモデルを𝑀𝑗 とする. 𝐿𝑘−1 が最良の場合𝑋𝑖 を𝑆から削除する. ③ 𝑀0 , ⋯ , 𝑀 𝑆 のうち Best なモデルを選ぶ. 選択基準は交差検証, AIC, BIC, Adjusted 𝑅2などがある.

Slide 73

Slide 73 text

第5回 輪講A 誤差項 𝜖𝑖 が正規分布に従うときのAIC Appendix 73

Slide 74

Slide 74 text

第5回 輪講A Appendix 74 誤差項 𝜖𝑖 が正規分布に従うときのBIC

Slide 75

Slide 75 text

第5回 輪講A Appendix 75 線形回帰モデルの切片෢ 𝛽0 を推定する必要がない理由

Slide 76

Slide 76 text

第5回 輪講A Appendix 76 BiasとVarianceはトレードオフの関係 予測誤差, Bias, Varianceの関係

Slide 77

Slide 77 text

第5回 輪講A Appendix 77 Ridge Regression と The Lasso を最適化問題で表現 minimize ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 subject to ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 ≤ 𝑠 . ◼ The Lasso 残差平方和 制約条件 minimize ෍ 𝑖=1 𝑛 𝑦𝑖 − ෢ 𝛽0 − ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 𝑥𝑖𝑗 2 subject to ෍ 𝑗=1 𝑝 ෡ 𝛽𝑗 2 ≤ 𝑠 . ◼ Ridge Regression 残差平方和 制約条件 ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝 ෢ 𝛽1 , ෢ 𝛽2 , ⋯ , ෢ 𝛽𝑝

Slide 78

Slide 78 text

第5回 輪講A Appendix 78 The Lasso で変数選択ができる理由 ◼ 制約付き最適化問題を図示 The Lasso Ridge Regression

Slide 79

Slide 79 text

第5回 輪講A References ◼ James, Gareth, et al. An introduction to statistical learning. Vol. 112. New York: springer, 2013. ◼ 林邦好, 冨田誠, and 田中豊. "主成分分析における軸の回転について." 計算機統計学 19.2 (2008): 89-101. ◼ Geladi, Paul, and Bruce R. Kowalski. "Partial least-squares regression: a tutorial." Analytica chimica acta 185 (1986): 1-17. ◼ Bishop, Christopher M. Pattern recognition and machine learning. springer, 2006. 79 End