Slide 14
Slide 14 text
94 第 10 章 統計的学習の一般理論
10.5 特徴量と前処理をどう選ぶべきか
前処理, 特徴量変換という言葉はだいぶ曖昧に使われて, コンセンサスのある定義も存在
しません. しかし, 使用する目的によって分けることができます. ただし, 完全に分割でき
るわけでなく, 複数の役割を同時に担っているものもあります.
1. データをアルゴリズムに適用できる形式に変換すること
2. 数値計算の安定化
3. モデルをデータへ近似させる補助
これまで TD や pandas で解説してきた範囲は (1) に対応します. 多くのアルゴリズム
とその実装は, 入力データを数値の配列の形式で受け取ります. あちこちにセル結合のあ
るエクセルファイルや, 自然言語で書かれた乱雑なテキストは受け付けません. これは機
械学習の理論からだいぶ離れた話になるため, ここではこれ以上触れません.
数値特徴量の正規化 (normalize, min-max 変換) や標準化 (standardize) は変数の
スケールを統一することで数値計算の桁落ちを減らしたり, 最適化の計算の収束を早める
効果があります. 具体的な話は 10.2 章で言及したとおりです. これは (2) の観点です.
一方で, 正則化をする際には, 正規化や標準化で変数の平均とスケールを揃えておかない
と, 正則化の強さが特徴量ごとにばらばらになり, 歪んだ結果を生み出します*9. 理論上は
特徴量ごとに異なる正則化を与えることも可能ですが, そのための実装や計算処理は非効
率です. また, これは回帰モデルの話になりますが, 最小二乗法は目的変数の分布が正規
分布, あるいはそれに近い対称分布になることを暗に仮定しています. そのため, 目的変
数のヒストグラムがべき分布に近い形状を示すならば, 目的変数を対数変換や Box-Cox
変換によってより対称な分布に変換すると当てはまりが改善される場合がよくあります.
これらは, 実際のデータに含まれる特徴量や目的変数の分布を, 使用するモデルが想定し
13