Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第二章-回帰と周辺の知識【数学嫌いと学ぶデータサイエンス・統計的学習入門】

 第二章-回帰と周辺の知識【数学嫌いと学ぶデータサイエンス・統計的学習入門】

第二章【数学嫌いと学ぶデータサイエンス・統計的学習入門】

Ringa_hyj

June 15, 2020
Tweet

More Decks by Ringa_hyj

Other Decks in Technology

Transcript

  1. 4 第二章 4 第二章 「最小二乗法」によるモデル化の考え方は1800年代ごろ発表され、 回帰モデル(被説明変数が連続な数値)は天文学で使われていた 保険数理や経済判断などで、 顧客が⾧生きか死亡するか・株が上がるか下がるかなど 分類モデル(2クラス・3クラスに分けるモデル) 1900年代になりロジスティック回帰が使われ始めた

    サポートベクターマシン・ボルツマンマシンなどのアルゴリズムが登場 この時代から「データをもとにモデルを学習する」という考え方が生まれていた。 しかし複雑(非線形)な問題はコンピューターの問題で使えなかった。 Least-squares method regression classification support vector machine, SVM Boltzmann machine
  2. 12 第二章 12 第二章 ・簡単な線形代数(ベクトル・行列) No Speed dist 1 4

    2 2 4 10 3 7 4 ・・・ ・・・ ・・・ 48 24 93 49 24 120 50 25 85 イメージ - 数字の入った表・箱 行ベクトル row vector 列ベクトル column vector 転置 T transpose
  3. 13 第二章 13 第二章 ・簡単な線形代数(ベクトル・行列) No Speed dist 1 4

    2 2 4 10 3 7 4 ・・・ ・・・ ・・・ 48 24 93 49 24 120 50 25 85 イメージ - 数字の入った表・箱 (3行3列の) (3次元の) 行列 matrix i,j 成分
  4. 18 第二章 18 第二章 ・定式化(モデル化)の方法 と 過学習 どうやら speed に比例して

    dist が上昇しているようだ。 「掛け算」と「足し算」で表現しよう 事前に使うものを決めておくこと パラメトリック
  5. 23 第二章 23 第二章 ・モデルの評価 点がたくさんあったらどう計算する? 平均二乗誤差(mean squared error:MSE) 回帰直線を学習する時は

    残差平方和(residual sum of squares:RSS) を最小にするように最小二乗法を使う 平均的なはずれ具合で評価する 残差・誤差
  6. 25 第二章 25 第二章 ・モデルの評価 モデルの当てはまりの良さ R2値・決定係数 総平方和(total sum of

    squares:TSS) 平均値という単純なモデルから どれだけ外れているかの値 残差平方和 (residual sum of squares:RSS) モデルがすべての点を通る =RSSが0 =TSS/TSS=1
  7. 27 第二章 27 第二章 ・モデルの評価 (高・低) (バイアス・バリアンス) なモデル バイアス バリアンス

    モデルが単純で、真のモデルと離れている 真のモデルも極めて単純ならば問題は起こりにくい 新しいデータに対して、モデルの予測値がどれだけ外れているか 「高バリアンスなモデル」とは既存のデータにあわせすぎて、 新しいデータに対応できないモデルのこと 汎化性 訓練(学習)データ
  8. 28 第二章 28 第二章 ・モデルの評価 (高・低) (バイアス・バリアンス) なモデル 本当はこの式から出てきたデータ モデルが複雑すぎる

    モデルが単純すぎる 高バリアンス 低バイアス 低バリアンス 高バイアス なモデル MSEはとても低いが 予測精度は落ちる なモデル どちらも真のモデルと遠い = 正確な予測ができない
  9. 29 第二章 29 第二章 ・モデルの評価 (高・低) (バイアス・バリアンス) なモデル 高バリアンス なモデルは

    データ量が多ければ 真のモデルに近くなる(可能性がある) 多少、真のモデルに近づいた
  10. 32 第二章 32 第二章 (出典)Kaggle : House Prices: Advanced Regression

    Techniquesより Id LotFrontageOverallQual OverallCondYearBuilt 1stFlrSF 2ndFlrSF GarageCars GarageArea Fence YrSold SaleType SalePrice 1 65 7 5 2003 856 854 2 548NA 2008WD 208500 2 80 6 8 1976 1262 0 2 460NA 2007WD 181500 3 68 7 5 2001 920 866 2 608NA 2008WD 223500 4 60 7 5 1915 961 756 3 642NA 2006WD 140000 ・重回帰 β = (重)回帰係数(coefficients) x = 変数 b = 切片(バイアス項) x0 = 1 単回帰(バイアス,変数1) 世の中単純な関係だけでないので、 各変数がどのように影響しているのか係数を調べる&予測する
  11. 33 第二章 33 第二章 (出典)Kaggle : House Prices: Advanced Regression

    Techniquesより Id LotFrontageOverallQual OverallCondYearBuilt 1stFlrSF 2ndFlrSF GarageCars GarageArea Fence YrSold SaleType SalePrice 1 65 7 5 2003 856 854 2 548NA 2008WD 208500 2 80 6 8 1976 1262 0 2 460NA 2007WD 181500 3 68 7 5 2001 920 866 2 608NA 2008WD 223500 4 60 7 5 1915 961 756 3 642NA 2006WD 140000 ・重回帰 ガレージの面積 数値(量的変数) フェンス ある・なし(質的変数) 質的変数に係数をかけたい フェンスがあるなら1.5倍高値がつく フェンスがないなら0.8倍減る 物件番号 フェンス フェンス-ある フェンス-なし 物件1 ある 1 0 物件2 なし 0 1 物件3 ある 1 0 フェンス・ある フェンス・なし ダミー変数化・one-hot-encoding one-hot-vector 質的変数が1つで2種類なら切片項で吸収することもできる
  12. 35 第二章 35 第二章 ・係数に関する検定 (詳しくは分布や検定で) 係数が本当に被説明変数に影響を与えているのか? を調べる 係数が0でない (検定)

    残差平方和 (residual sum of squares:RSS) 残差標準偏差 (residual standard error:RSE) RSEをσの推定値として、係数のばらつき値を計算する ばらつきがわかると95%区間が求まる T統計量が求まれば0でないと示せる
  13. 46 第二章 46 第二章 ・モデル評価できない部分の問題 – 分散不均一 log変換したデータに 線形モデルを使う 残差がランダムである

    (線形モデルで説明できていそう) 非線形変換しなくても 非線形なモデルを使えば? ・線形モデルを前提とした アルゴリズムに適応させる (時系列の回帰) ・非線形変換後に線形回帰を 行うと非線形モデルになる
  14. 50 第二章 50 第二章 ・モデル評価できない部分の問題 – はずれ値 外れ値を除いた線形回帰(黒線) モデルがそんなに変わらないし 外れ値は「消しても、残しても問題ない」?

    ↓ 場合による ・そもそも外れ値だったのか?(再度データ収集) ・除いても問題ないのか?(分析目的を確認) ・モデルが間違っているのでは?(仮説立て直し) ステューデント化残差で確認
  15. 51 第二章 51 第二章 ・モデル評価できない部分の問題 – はずれ値 Rなら線形回帰モデルの残差評価を 一行で実行できる 絶対値&平方根の残差

    残差の正規分布との比較 残差の確認 クックの距離で外れ具合評価 てこ比、マハラノビス距離など ほかの外れ値検出方法も。 外れ値は適切に見極めて処理しよう
  16. 54 第二章 54 第二章 ・モデル評価できない部分の問題 – 共線性 線形回帰とは、 変数に係数をかけて目的変数を作るもの y

    x1 x2 10 1 2 20 2 4 30 3 6 40 4 7 50 5 10 60 6 12 x1とx2に正の相関があった yを出力するには (β1,β2)=(0,5)(10,0)(2,4)… 係数の組み合わせが無数存在 = 片方の変数不要
  17. 55 第二章 55 第二章 ・モデル評価できない部分の問題 – 共線性 β1 β2 係数の推定時、

    最適な値の範囲が多すぎて 最適を求められない = 係数に信憑性がなくなる = 係数から推論できなくなる ・変数の共線性をチェック →課題に関係の無い変数は除去
  18. 57 第二章 57 第二章 ・K-nn回帰について K-nn K-nearest neighbor K近傍法 K個のデータ点の平均値を求め線で結ぶことで

    データを表す回帰モデルをつくる (未知のデータ点から周囲のK個のラベルを見て多かった方のクラスに分ける「分類」にも使われる) K=2 K=10
  19. 58 第二章 58 第二章 ・どのくらい非線形なモデルを選ぶべきか K=2 K=10 K=30 K=2 未知のデータを表現できない

    外れ値に弱い K=10 なだらかに表現 K=30 近傍の値が多すぎてほとんど平均 ・評価指標MSE,R2などで評価 ・何点か学習に使わないで、予測モデルが正解するか試す ・バイアス、バリアンスの時に説明した対処法で判断していく 検証データ