Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ridgelasso

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for yuki yuki
January 03, 2021
6.9k

 ridgelasso

Avatar for yuki

yuki

January 03, 2021
Tweet

Transcript

  1. 3 (復習)最小二乗法で扱う誤差関数 ✓ 誤差関数を誤差の2乗の和とし 誤差関数が最小となるような係数を計算する (入力変数が2つの場合の)最小二乗法で扱う誤差関数E(w) = ෍ =1 1

    2 () − 0 + 1 1 () + 2 2 () 2 誤差の2乗 回帰平面 y=w 0 +w 1 x 1 +w 2 x 2 誤差 (残差) n個のデータを仮定 i番目のデータ (x 1 (i), x 2 (i), y(i)) x 1 y x 2 w 0 +w 1 x 1 (i)+w 2 x 2 (i) y(i) = 0 1 2
  2. 6 過学習とは ✓ M=9の例では回帰曲線が全てのデータを通っており 誤差関数E(w*)=0となっている ✓ これは与えられたデータ数が10組なのに対し 学習する係数も10個存在するため ✓ 回帰曲線はノイズに過度に引きずられており

    適切とは言えない⇒過学習と呼ばれる現象 = 0 + 1 1 + 2 2 + ⋯ + 8 8 + 9 9 与えられたノイズを含む点列に 過度に適合している ⇒過学習(過適合; over-fitting)
  3. 8 正則化項の導入 ✓ 誤差関数に正則化項を導入 ✓ 誤差最小化時に係数も最小化されるので過学習を抑制できる ✓ 正則化項の次数q=2の時の回帰手法をridge回帰 q=1の時の回帰手法をlassoと呼ぶ ෨

    = + 2 ෍ =0 二乗和誤差項 正則化項 ෍ =0 = ൝ 0 2 + 1 2 + ⋯ + 2 0 + 1 + ⋯ + 正則化項の代表的な例 q=2 ⇒ ridge回帰 q=1 ⇒ lasso : 二乗和誤差項と正則化項の 相対的な重要度を調整する ハイパーパラメータ (パラメータwを決定する ためのパラメータなので ハイパーパラメータと呼ぶ) 正則化最小二乗法で扱う誤差関数
  4. 11 誤差関数の幾何学的解釈(1/2) ✓ 線形回帰の誤差関数を考える ✓ 係数w0, w1に対する誤差関数の等高線は楕円型となる ෍ =1 1

    2 () − 0 + 1 1 () 2 二乗和誤差項(線形回帰) 二乗和誤差項が最小となる点 係数w0, w1に対する誤差項の変化
  5. 12 ✓ 正則化項は下図のようになる 0 2 + 1 2 正則化項(ridge) 0

    + 1 正則化項(lasso) 誤差関数の幾何学的解釈(2/2) 誤差関数が最小となる点は原点 係数w0, w1に対する正則化項の変化
  6. 13 なぜlassoはスパース解が得られやすいのか(1/2) ✓ 正則化項付き誤差関数の最小化を制約あり最小化に変換 min ෍ =1 1 2 ()

    − 0 + 1 1 () 2 + 2 ෍ =0 2 min ෍ =1 1 2 () − 0 + 1 1 () 2 . . ෍ =0 2 ≤ ラグランジュの未定乗数法より等価 : ラグランジュ乗数 から決まる定数 二乗和誤差項 正則化項 目的関数は二乗和誤差項のみ 正則化項は制約条件に w 0 w 1 (q=2の場合) 半径 √η の円内で 二乗和誤差が最小となる 点を探索する イメージ
  7. 14 なぜlassoはスパース解が得られやすいのか(2/2) ✓ lassoではスパース解となりやすい! スパース解が得られない場合 スパース解が得られる場合 ridge lasso w 0

    w 1 最適解(w 0 *,w 1 *) w 0 w 1 最適解 スパース解が 得られるケースは 極めて稀 w 0 w 1 w0 w1 最適解 最適解 中心が紫の領域内 だと係数が0に! 制約条件 制約条件 制約条件 制約条件 二乗和誤差 二乗和誤差