おまえは万物をRSTUDIOで書ける/YOU CAN WRITE EVERYTHING ON RSTUDIO

Slide 1

Slide 1 text

おまえは万物を RStudio で書ける Katagiri, Satoshi (ill-identified) Tokyo.R #88, 2020/9/19 (10/17 更新) 1

Slide 14

Slide 14 text

94 第 10 章統計的学習の一般理論 10.5 特徴量と前処理をどう選ぶべきか前処理, 特徴量変換という言葉はだいぶ曖昧に使われて, コンセンサスのある定義も存在しません. しかし, 使用する目的によって分けることができます. ただし, 完全に分割できるわけでなく, 複数の役割を同時に担っているものもあります. 1. データをアルゴリズムに適用できる形式に変換すること 2. 数値計算の安定化 3. モデルをデータへ近似させる補助これまで TD や pandas で解説してきた範囲は (1) に対応します. 多くのアルゴリズムとその実装は, 入力データを数値の配列の形式で受け取ります. あちこちにセル結合のあるエクセルファイルや, 自然言語で書かれた乱雑なテキストは受け付けません. これは機械学習の理論からだいぶ離れた話になるため, ここではこれ以上触れません. 数値特徴量の正規化 (normalize, min-max 変換) や標準化 (standardize) は変数のスケールを統一することで数値計算の桁落ちを減らしたり, 最適化の計算の収束を早める効果があります. 具体的な話は 10.2 章で言及したとおりです. これは (2) の観点です. 一方で, 正則化をする際には, 正規化や標準化で変数の平均とスケールを揃えておかないと, 正則化の強さが特徴量ごとにばらばらになり, 歪んだ結果を生み出します*9. 理論上は特徴量ごとに異なる正則化を与えることも可能ですが, そのための実装や計算処理は非効率です. また, これは回帰モデルの話になりますが, 最小二乗法は目的変数の分布が正規分布, あるいはそれに近い対称分布になることを暗に仮定しています. そのため, 目的変数のヒストグラムがべき分布に近い形状を示すならば, 目的変数を対数変換や Box-Cox 変換によってより対称な分布に変換すると当てはまりが改善される場合がよくあります. これらは, 実際のデータに含まれる特徴量や目的変数の分布を, 使用するモデルが想定し 13

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text