Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第七章-非線形モデル【数学嫌いと学ぶデータサイエンス・統計的学習入門】

795a1c8d5e46f6b9067202655ea5dfae?s=47 Ringa_hyj
July 22, 2020
47

 第七章-非線形モデル【数学嫌いと学ぶデータサイエンス・統計的学習入門】

795a1c8d5e46f6b9067202655ea5dfae?s=128

Ringa_hyj

July 22, 2020
Tweet

Transcript

  1. 1 第七章 1 第七章 @Ringa_hyj 日本一の数学嫌いと学ぶ データサイエンス ~第七章:非線形線形モデル~

  2. 2 第七章 2 第七章 対象視聴者: 数式や記号を見ただけで 教科書を閉じたくなるレベル , , C

    , ,
  3. 3 第七章 3 第七章 非線形のモデル ・多項式 ・階段関数 ・回帰スプライン ・平滑化スプライン

  4. 4 第七章 4 第七章 ・内挿、外挿のはなし 未知の関数から生まれたデータ 未知の関数をデータ点を通る関数を考えて近似的に推定 = 関数近似

  5. 5 第七章 5 第七章 ・内挿、外挿のはなし データ点の間を関数によって値を当てはめる = 内挿(interpolation)、補間 データ点の外側の領域に値を当てはめる =

    外挿(extrapolation)、補外
  6. 6 第七章 6 第七章 ・多項式回帰 = 0 + 1 1

    = 0 + 1 1 + 2 1 2 + 3 1 3 = 0 + 1 1 1 + 2 2 1 + 3 3 1 基底関数b()の特別な場合 = 基底関数が多項式関数である場合 1 = 1 線形回帰では説明できなかった関係性も、非線形ならばカバーできる 回帰係数は最小二乗法 次数は3~4くらいが多い
  7. 7 第七章 7 第七章 ・多項式回帰 = 0 + 1 1

    + 2 1 2 + 3 1 3・・・・ 多項式は曲線にフィットさせるので 両端(外挿)部分の予測精度は悪い
  8. 8 第七章 8 第七章 ・階段関数 基底関数b()の特別な場合 = 1 ≤ <

    + 1 + 2 ≤ < + 1 指示関数(indicator)・定義関数・特性関数 指定の区間だけ1になる関数 β 2 β 1 (区分定数関数)
  9. 9 第七章 9 第七章 ・回帰スプライン 連続であってほしい 複雑な次数の多項式を使いたくない = 細かい区分で単純な多項式をつかう 階段関数(区分)と多項式を組み合わせた

    区分多項式 spline 製図・デザインに使われるしなる定規 節点:knot
  10. 10 第七章 10 第七章 ・ (3次)回帰スプライン knotsで滑らかに結合してほしい → 制約:d-1までの導関数が等しくなる 1次導関数

    = 傾き 2次導関数 = 変化量 ※制約の下で、各区間での係数を最小二乗法で求める knots
  11. 11 第七章 11 第七章 ・ (3次)回帰スプライン knotsで滑らかに結合してほしい → 制約:d-1までの導関数が等しくなる K=6とする

    全体の関数をP(x) 各区間でn+1個のp(x)が存在 p1(x)とp2(x)の交わるξ1では、 制約: ・交点P(x), ・一次導関数P’(x), ・二次導関数P’’(x) が等しい ξ 1 ξ 2 ξ 3 ξ 4 ξ 5 ξ 6 X 1 X 2 X 3 X 4 X 5 X 6 p 1 p 2 p 3 p 4 p 5 p 6 p 7
  12. 12 第七章 12 第七章 ・ (3次)回帰スプライン ξが1つの時 ℎ , =

    − + 3 = − 3 ⋯ > 0 ⋯ ≤ 切断冪関数 (truncated power function) 負の範囲を切り捨て X 1 ξ 1 = ℎ , = − 3 ⋯ > = ℎ , = 0 ⋯ ≤ X 1 +3
  13. 13 第七章 13 第七章 ・knot以下の範囲では3次多項式を学習させる ・knotが1つならば 、knotよりも大きい値のxの範囲では 下記の式をデータに対してRSSが最小になるように求める ・knotが複数ある場合、区間設定と係数が増える ・

    (3次)回帰スプライン ξが1つの時 = 0 + 1 1 + 2 2 + 3 3 最適化すべき関数 (基底関数表現で) = 0 + 1 1 + 2 2 + 3 3 +4 ℎ , =
  14. 14 第七章 14 第七章 ・ (3次)回帰スプライン knotsで滑らかに結合してほしい → 制約:d-1までの導関数が等しくなる ξ

    1 ξ 2 ξ 3 ξ 4 ξ 5 ξ 6 X 1 X 2 X 3 X 4 X 5 X 6 p 1 p 2 p 3 p 4 p 5 p 6 p 7 p 1 (x)とp 2 (x)でどれだけ式が異なるの? x=x 1 のとき p 1 (x 1 )=p 2 (x 1 ) p 1 ’(x 1 )=p 2 ’(x 1 ) p 1 ’’(x 1 )=p 2 ’’(x 1 ) を満たしているならば 二つの関数の違いは p 2 (x) - p 1 (x) = ? 1 = 0 + 1 − 1 + 2 − 1 2 +3 − 1 3 2 = α0 + α1 − 1 + α2 − 1 2 +α3 − 1 3
  15. 15 第七章 15 第七章 ・(3次)回帰スプライン knotsで滑らかに結合してほしい → 制約:d-1までの導関数が等しくなる ξ 1

    ξ 2 ξ 3 ξ 4 ξ 5 ξ 6 X 1 X 2 X 3 X 4 X 5 X 6 p 1 p 2 p 3 p 4 p 5 p 6 p 7 1 = 0 + 1 − 1 + 2 − 1 2 +3 − 1 3 2 = α0 + α1 − 1 + α2 − 1 2 +α3 − 1 3 ′ 1 = 1 + 22 − 1 + ′′ 1 = 22 + 33 − 1 2 63 − 1 ′ 2 = α1 + 2α2 − 1 + ′′ 2 = 2α2 + 3α3 − 1 2 6α3 − 1 上記すべての式にx=x 1 を代入する α 0 =β 0 ,α 1 =β 1 ,α 2 =β 2 を得られる p 2 (x) - p 1 (x) = (β 3 -α 3 )(x-x 1 )3 p 2 (x) = p 1 (x) + (β 3 -α 3 )(x-x 1 )3 p 2 (x) = p 1 (x) + η 1 (x-x 1 )3
  16. 16 第七章 16 第七章 ・ (3次)回帰スプライン knotsで滑らかに結合してほしい → 制約:d-1までの導関数が等しくなる ξ

    1 ξ 2 ξ 3 ξ 4 ξ 5 ξ 6 X 1 X 2 X 3 X 4 X 5 X 6 p 1 p 2 p 3 p 4 p 5 p 6 p 7 p 2 (x) = p 1 (x) + η 1 (x-x 1 )3 p 3 (x) = p 2 (x) + η 2 (x-x 2 )3 p 4 (x) = p 3 (x) + η 3 (x-x 3 )3 p 5 (x) = p 4 (x) + η 4 (x-x 4 )3 p 6 (x) = p 5 (x) + η 5 (x-x 5 )3 p 7 (x) = p 6 (x) + η 6 (x-x 6 )3 ≤ 1 p 1 (x) = 0 + 1 + 2 2 + 1 3 1 < ≤ 2 6 < 5 < ≤ 6 4 < ≤ 5 3 < ≤ 4 2 < ≤ 3 ξの数+元の4パラメーターを計算する knotをいくつに設定するか ・交差検証で一番RSSが最小になる値
  17. 17 第七章 17 第七章 ・回帰スプライン やはり両端は不自然になる 両端で曲線を使わない → 自然スプライン

  18. 18 第七章 18 第七章 ・(3次)平滑化スプライン 全データ点xを節点として、区間ごとに多項式を求めるのではなく、 罰則項を設けて滑らかにする = 全データ点を節点とした自然(3次元)スプラインと等価 ෍

    − 2 + න ′′ 2 ⅆ 上記を最小にするようなf(x) を求める すべての時点での変化量(二階微分)の合計を求めることで、 関数全体の曲率(複雑さ)を求める λを大きくすると罰則項が大きくなり、二階微分の値に余裕が無くなる = 変化量は0に近づき、モデルは直線になる 平滑化パラメータλ は交差検証によって決める ※f∉C2 二階微分可能な関数fである ※λ>0
  19. 19 第七章 19 第七章 ℎ = ሚ − መ ′′

    = ℎ ′′ + ′′ ሚ ′′ 2 = ℎ ′′ 2 + ′′ 2 +2ℎ′′ ′′ ∫ ሚ ′′ 2 ⅆx = ∫ ℎ ′′ 2 ⅆx + ∫ ′′ 2 ⅆx +2∫ ℎ′′ ′′ ⅆx
  20. 20 第七章 20 第七章 ・局所回帰 周辺のデータを使い細かく線形回帰を使っていく

  21. 21 第七章 21 第七章 一般化加法モデル (GAM:generalized additive model)

  22. 22 第七章 22 第七章 f1~3をそれぞれをスプライン等なにかでモデル化してから合計する 離散変数の場合はダミー化して回帰する 等 推定した関数たちを合計する 故に「加法additiveモデル」 f(x)

    = 0 + 1 ℎ + 2 ℎℎ + 3 ・モデル自体を加法する メリット ・変数ごとに非線形モデルを当てはめることができて柔軟 ・加法モデルということで各変数を固定したり消すとどうなるか 影響を観察できる デメリット ・一般的な加法モデルでは変数間の交互作用を考慮していない (相関が影響している関係 β x 1 x 2 ) もちろん変数を作れば別
  23. 23 第七章 23 第七章 分類のGAM 0,1が予測対象とするとき データxが与えられた時のY=1である条件付き確率 P(Y=1|X) ロジスティックモデルであれば log(p(x)/1-p(x))

    = β0+β1X1+β2X2+・・・ ロジットは1である条件付き確率と0である確率の対数オッズである この各変数を関数にして考える場合 log(p(x)/1-p(x)) = β0+f1(X1)+f2(X2)+・・・ これがロジスティックGAM
  24. 24 第七章 24 第七章

  25. 25 第七章 25 第七章