統計的学習の基礎 - 4章 / castella-book-chap4

Slide 1

Slide 1 text

統計的機械学習の基礎 4章分類のための線形手法 Yoshifumi Seki@Gunosy Inc 第三回統計的学習のエレメンツ読み会 2017.05.15

Slide 2

Slide 2 text

4.1 導入 ● 線形手法: 線形な決定境界を持つ手法クラスkを識別する線形モデルクラスlを識別する線形モデル決定境界決定境界は以下の点の集合である

Slide 3

Slide 3 text

事後確率をモデル化する場合 2クラスの場合決定境界はlog1=0になる点の集合

Slide 4

Slide 4 text

境界を線形として明示的にモデル化する場合 ● パーセプトロン ○ 訓練データを分離する超平面が存在すれば、それを求めることができる ● Vapnik(1996)の方法 ○ 分離超平面が存在する場合 ■ 二クラスを分類する最適な超平面が得られる ○ 分離超平面が存在しない場合 ■ 訓練データの重なりの程度を表す尺度を最小にする超平面が得られる本章では分離可能な場合のみを扱い分離不可能な場合については 12章で扱う

Slide 5

Slide 5 text

4.2 指示行列の線形回帰 ● 出力となるカテゴリは指示変数を介して符号化されるとする ○ K個のクラスにわけられる ○ G=kならY_k=1をとり、それ以外は0になる ○ K次元のベクトルYとしてまとめられる ○ N個の訓練データに対して作った Yをまとめると、N✕Kの行列が得られる。これを指示応答行列 Yと呼ぶ。 Yの各列に対して線形モデルを当てはめると、予測値は以下のようになる

Slide 6

Slide 6 text

3.2の復習 P56参照

Slide 7

Slide 7 text

新しい観測値xに対して ● 回帰を条件付き期待値の推定値と考えることができる ○ 条件付き期待値の近似が線形回帰モデルでどの程度良いのか？ ○ 事後確率の妥当な推定値になっているのか？ ○ 実際にこれが問題になるのか？

Slide 8

Slide 8 text

マスキング ● K≧3のときに回帰に基づく方法を用いると、あるクラスが他のクラスによってマスキングされてしまうという問題が生じる

Slide 9

Slide 9 text

多次元回帰モデルによる分類 ● 一般にK個のクラスに分類するためにはK-1次の多項式が必要 ○ 最悪の場合O(p^(K-1))の項が必要になる

Slide 10

Slide 10 text

4.3 線形判別分析 ● クラス事後確率のモデル化 ● 様々な手法でクラス密度が利用されている ○ 線形及び2次の判別分析ではガウス密度 ○ 混合ガウス分布を用いると非線形に決定境界が得られる（ 6.8節) ○ クラス密度に対するノンパラメトリック密度推定は適用性が高い (6.6.2項) ○ ナイーブベイズはノンパラメトリック密度推定の変形であり、クラス密度が周辺密度の積で表されることを仮定する(6.6.3項)

Slide 11

Slide 11 text

多変量ガウス分布によるモデル化 ● 線形判別分析(liner discriminat analysis: LDA) ○ 各クラスが共通の分散行列を持つと仮定する決定境界がxに関して線形である

Slide 12

Slide 12 text

Liner Discriminant Function

Slide 13

Slide 13 text

パラメータの推定 ● 多くの問題ではガウス分布のパラメータがわからないので、訓練データから推定する必要がある

Slide 14

Slide 14 text

2次判別関数(quadratic discriminant function:QDA) ● 共分散行列が等しいと仮定しない場合、2次の項が残る ○ 共分散行列を推定しなくてはならないため、パラメータが増える ● LDAとQDAは大きく、多用な分類タスクでうまく動作する ○ 単にデータが線形や 2次のような単純な決定境界を支持している ○ ガウスモデルを用いた推定値が安定している

Slide 15

Slide 15 text

4.3.1 正規化判断分析 ● フリードマンが提案しているLDAのとQDAの折衷案となる方法 ● 今回は割愛 ○ この後に影響しない ○ 多分それが精度いいなら、めっちゃ使われてるはずだけど聞かないので

Slide 16

Slide 16 text

4.3.2 線形判別分析の計算 ● 共分散行列を固有値分解により、対角化する

Slide 17

Slide 17 text

4.3.3 階数低減型線形判別分析 ● K-1の次元のアフィン部分空間で表すことができる ○ LDAは次元を削減することができる ○ k=3の場合に2次元に可視化しても、必要な情報が捨てられることはない ● クラス数がK>3のときに、L

Slide 18

Slide 18 text

● 母音データ ● 座標軸の数値が小さいほど重要 ● 大きくなるほど、重心がちらばらなくなってくる

Slide 19

Slide 19 text

フィッシャーさんの強い話 ● なんと！！！フィッシャーさんは！！！この分解を！！！ガウス分布を使わないで！！！求めたのです！！！！ ● 「クラス内分散とクラス間分散の比が最大化されるような線形結合Z=α^TXの探索」 ○ クラス間分散はα^T B α ■ クラス重心行列Mの共分散行列: B+W=T ■ TはXの全分散行列 ○ クラス内分散はα^T Q α ● αはW^-1 Bの固有値

Slide 20

Slide 20 text

整理

Slide 21

Slide 21 text

3.4 ロジスティック回帰 ● 値域が[0, 1]で総和が1になるようなxの線形関数を用いて、K個のクラス事後確率をモデル化する

Slide 22

Slide 22 text

4.4.1 ロジスティック回帰モデルのあてはめ ● Xが与えられたもとでのGの条件付き尤度を用い、最尤法によって当てはめる ○ Pr(G|X)は条件付き分布なので、多項分布を用いるのが適当 2クラス分類でp1=p, p2=1-p, β=(β_10, β_1), xには定数項が含まれているとする

Slide 23

Slide 23 text

スコア方程式 ● 式4.20の微分を0としたものをスコア方程式という ○ βに対して非線形なp+1個の方程式

Slide 24

Slide 24 text

ニュートン=ラフソンアルゴリズム ● スコア方程式を解く ○ 2次微分, もしくはヘッセ行列が必要 ● 更新式は以下 ● i番目の要素にpを持つベクトルを\vec{p} ● i番目の対角成分にp(1-p)を持つN✕N対角行列をWとする

Slide 25

Slide 25 text

反復再重み付け最小二乗法 ● ニュートン法の更新ステップはこのようにかける ○ 更新ステップは重み付き最小二乗法として見ることができる ■ この場合の応答を修正済み応答とよばれる ○ 各反復で、重み付き最小二乗問題を解いている ○ 反復再重み付け最小二乗法とよばれる ● 収束は保証されないが、多くの場合に収束する ● K≧3の場合も可能だが、計算量が多く、 θを直接求めるほうがよい

Slide 26

Slide 26 text

4.4.2 例: 南アフリカの心臓疾患データ ● 15~64歳の白人男性 ● 応答変数は心筋梗塞の有無 ○ 有病率5.1% ● 160の症例, 302の対症例 ●

Slide 27

Slide 27 text

● Zスコアの絶対値がおおよそ2より大きいものは5%水準で有意 ● 収縮期血圧(sbp), 肥満(obesity)は有意ではない ○ 予測変数の集合管に相関があるため ○ 単体ではそれぞれ有意である ●

Slide 28

Slide 28 text

● 最も有意でない係数を取り除き、もう一度当てはめることを取り除くものがなくなるまで繰り返す ● よりよい方法は変数を1つ除外してモデルを当てはめるという操作をすべての変数について行い、逸脱度分析によって取り除く変数を決定すること ● Tabaccoについて ○ 喫煙量が1kg増加すると、exp(0.081)=1.084により、8.4%疾患の確率が増加する ○ 標準誤差を考慮すれば、 95%の信頼区間でexp(0.081±0.026)=(1.03, 1.14)が得られる

Slide 29

Slide 29 text

4.4.4 L1正則化付きロジスティック回帰 ● 線形回帰モデルでL1罰則を用いることで、変数選択と縮小が可能であった ● 凹関数であり、非線形計画法を用いて解を求めることができる ○ ニュートン法と同様の 2次近似によって、重み付き Lassoアルゴリズムを繰り返し適用することによっても求めることができる ● 図はL1正則化の軌跡 ● 予測子修正法を用いている

Slide 30

Slide 30 text

4.4.5 ロジスティック回帰か線形判別分析か ● LDAもロジスティック回帰も、両方共線形モデルで表現できる ○ 線形係数の推定方法が異なる ○ ロジスティック回帰モデルはほとんどなにも仮定していないので汎用的

Slide 31

Slide 31 text

同時分布を考える条件付き確率は以下のようにかける ● ロジスティック回帰の場合は、条件付き尤度を最大化して得られる ● 周辺密度が完全にノンパラメトリックでかつ制約なしの方法で推定されていると仮定 ● 各観測値の密度が1/Nとなる経験的な分布関数で Pr(X)を置き換えることができる

Slide 32

Slide 32 text

LDAのパラメータにおける同時分布はこのようになる周辺密度がこのように定義されてしまうこれにもパラメータが存在するため、周辺密度 Pr(X)を無視できないロジスティック回帰は LDAより少ない仮定しか用いないため、より安全でロバストな方策である

Slide 33

Slide 33 text

4.5 分離超平面 ● データをそれぞれのクラスに最大限分離するような線形決定境界を求める手法 ○ サポートベクタマシンの基礎 ● パーセプトロン ○ 入力特徴量の線形結合を計算して、その符号を返す分類器 ○ ニューラルネットワークモデルの基礎

Slide 34

Slide 34 text

アフィン集合 ● f(x)=β_0+β^T xによって定義されるアフィン集合 or 超平面

Slide 35

Slide 35 text

4.5.1 ローゼンブラットのパーセプトロン学習アルゴリズム ● 誤分類した点から決定境界までの距離を最小化する ○ Mは誤分類した点の集合 ● 確率的勾配効果法を用いて、区分線形基準の最小化を行う ○ 観測値ごとに1ステップ進む方法であり、誤分類されるたびにパラメータを更新する

Slide 36

Slide 36 text

ローゼンブラットのアルゴリズムにおける問題 ● 初期値への依存が大きい ○ 追加の制約を加えることで解決可能 ● データが分離可能な場合は分離超平面に収束するが、そのステップ数が多くなる可能性がある ● 分離不可能な場合は収束せず、それを検知するのは難しい ○ 基底関数変換において、超平面を求めれば回避できる ○ 完全な分離が得られるとは限らない ○

Slide 37

Slide 37 text

4.5.2 最適分離超平面 ● あるクラスからもう一方のクラスの最近傍点までの距離を最大化することで2つのクラスを分離する方法である ○ 唯一の解を与える ○ よい分類性能が得られる