Neural Netrorks for Classification : A Survey

Slide 1

Slide 1 text

Neural Networks for Classification:A Survey Taira Kuwahara

Slide 2

Slide 2 text

はじめに ※このスライドはNeural Networks for Classiﬁcation:A Surveyを読み、まとめたものです。 URLは最後のページの参考⽂献にて 2

Slide 3

Slide 3 text

⽬次 I. 序章 II. ニューラルネットワークと従来の分類器 III. 学習と凡化 IV. 特徴変数の選択 V. 誤分類コスト VI. 結論 3

Slide 4

Slide 4 text

I. 序章 4

Slide 5

Slide 5 text

機械学習・教師あり学習・教師なし学習・強化学習 5

Slide 6

Slide 6 text

分類(Classification) ▶ある物体を決められたグループへ分類 ▶ビジネス、科学、産業、医療分野 ▶ニューラルネットワークによる⾼精度な分類が⽬的 6

Slide 7

Slide 7 text

実⽤例1-⽂字認識 7 分類器

Slide 8

Slide 8 text

具体例2-医療診断 8 咳 × 熱〇だるさ〇⾷欲 × 分類器

Slide 9

Slide 9 text

II. ニューラルネットワークと従来の分類器 9

Slide 10

Slide 10 text

II.A ベイズクラス分類理論 10

Slide 11

Slide 11 text

確率と統計の基礎 11 ▶条件付き確率ベン図 U = ( ∩ ) () = ( ∩ ) () ベン図の意味と使い⽅ https://sci- pursuit.com/math/venn- diagram.html

Slide 12

Slide 12 text

ベイズの定理 = ( ∩ ) () = ( ∩ ) () = ( ∩ ) () = ( ∩ ) () 12 = (|)() () ベイズの定理

Slide 13

Slide 13 text

前提条件あるオブジェクトを分類することを考える ①x: データの羅列、特徴ベクトル = [- … . . 0]2 ②4 : グループに分類されたとき ∈ {1,2,3, … } 13

Slide 14

Slide 14 text

Bayes Rule 4 = 4 (4) () … (1) 14 4| : 事後確率 4 : 事前確率 , (|4 ): 確率密度関数 ∈ {1,2,3, … … … , } 4 : グループ名

Slide 15

Slide 15 text

離散と連続 15 https://bellcurve.jp/statistics/course/6602.html https://bellcurve.jp/statistics/course/6598.html

Slide 16

Slide 16 text

確率密度関数 16 ⾼校数学の美しい物語 https://mathtrain.jp/pmitsudo ≤ ≤ = D E F −∞ ≤ ≤ ∞ = D JK LK = 1

Slide 17

Slide 17 text

Error 4 が正しい分類先のとき Error = P QR4 Q = 1 − (4 |) 17 , ∈ {1,2,3, … . . }

Slide 18

Slide 18 text

Errorの最⼩化 Error = 1 − (4 |) エラーを最⼩にするためには… T = max Q … (2) 18 しかし…

Slide 19

Slide 19 text

問題点 1. 現実世界の確率密度関数はわかっていない、また標準正規分布ではない。 2. 分類ミスによるコストしか考慮していない。 19

Slide 20

Slide 20 text

標準正規分布 20 ⾼校物理の備忘録 https://physnotes.jp/stat/ stnormal_d/ = 1 2Z exp(− ( − )Z 2Z ) 計算がしやすく理論で論じやすい関数また近似できる現実の現象も多い

Slide 21

Slide 21 text

コスト Q = P 4_- ` Q4 (4 |) , = 1,2~ … (3) T = min Q () … (4) 21 Q4 : 正解はjであるが間違えてiに分類してしまったときのコスト

Slide 22

Slide 22 text

コスト 4 = 4 (4 ) () … (1) Q = P 4_- ` Q4 (4 |) … (3) Q = P 4_- ` Q4 4 (4 ) () ()はすべてのグループに共通しているから P Q_- ` QT 4 (4 )が最⼩ 22 分類精度⾼

Slide 23

Slide 23 text

⽐較 -Z Z Z < Z- - - - Z > -Z Z Z- - … (5) 確率密度関数によるコストの⾒積もり 23 事前確率でコストの予測が⽴つ

Slide 24

Slide 24 text

II.B ニューラルネットワークを⽤いた事後確率推定 24

Slide 25

Slide 25 text

期待値(expectation) 全ての場合を考えて確率変数を平均化している 25 = D JK K k = P m ( = ) = P m ( = ) = D JK K k 離散型連続型 ℎ , = P p P m ℎ , ( = , = ) ℎ(, ) = D JK K D JK K ℎ , k,r ,

Slide 26

Slide 26 text

分散(variance) 分散は「期待値からの外れ具合」の期待値 ≡ [] 期待値からのズレの⼆乗を考える ≡ [ − Z] Xは変数 ▶標準偏差 = [] 26

Slide 27

Slide 27 text

分散の補⾜説明 ▶なぜズレの⼆乗を考えるのか・| − |だと場合わけが必要になる・微分不可能な領域が⽣まれる 27

Slide 28

Slide 28 text

分散の最⼩値 − Z = は条件つき期待値・yは2進数で正しい分類のとき1 間違った分類のとき0 28

Slide 29

Slide 29 text

写像関数 4 = 4 = 1・ 4 = 1 + 0・ 4 = 0 = 4 = 1 = 4 ・写像関数は事後確率 29

Slide 30

Slide 30 text

平均⼆乗誤差:MSE(mean squared error) MSE = P Q_- ` D {| Q − Q Z + P Q_- ` D {| (Q |)(1 − (Q |)) ・第1項ニューラルネットワークの写像による誤差・第2項近似誤差(データの無作為性) 30

Slide 31

Slide 31 text

II.C ニューラルネットワークと従来の分類器 31

Slide 32

Slide 32 text

2グループ分類における判別式 = - | − (Z |) > 0であればグループ1に分類すべき < 0であればグループ2に分類すべき 32

Slide 33

Slide 33 text

Fitting ⼿持ちの訓練データから、過去のデータにfitした曲線を引き、あらたなデータを予測することが⽬的 33

Slide 34

Slide 34 text

Underfitting(未学習) 曲線の次数が⼩さすぎる場合は、⼿持ちの訓練データが表現できないくらい単純な曲線になってしまうが、あらたなデータが⼊ったときに近似して対応することができるので、 biasは⼤きい Varianceは⼩さい 34

Slide 35

Slide 35 text

Overﬁtting(過学習) 曲線の次数を⼤きくするに従い、訓練データに依存しすぎるfitting 曲線を引いてしまい、未知のテストデータに対する汎化能⼒がない 35 Biasは⼩さい Varianceは⼤きい

Slide 36

Slide 36 text

良いfitting UnderfittingとOverfittingのジレンマ(トレードオフ) 36 ちょうどいいﬁtting曲線を⾒つける

Slide 37

Slide 37 text

III. 学習と凡化 37

Slide 38

Slide 38 text

III.A. 予測エラーにおけるバイアスと分散の混合 38

Slide 39

Slide 39 text

= + ∈ {0, 1} ただしεは平均0で分散σ2の確率分布に従う 39 = = - … (12) ノイズ

Slide 40

Slide 40 text

MSEの計算 = − ; • Z = − Z + ; • − Z = ‰ − ; • Z = − Z + ‰ ; • − Z 40 次のページへ Z … 固有エラー • :N個の訓練データセット

Slide 41

Slide 41 text

MSEの計算の続き ‰ ; • − Z ‰ ; • − Z + ‰ ; • − ‰ ; • Z 41 バイアス項分散項

Slide 42

Slide 42 text

III.B. 予測エラーを減らすための⽅法論 42

Slide 43

Slide 43 text

アンサンブル分類器・個別の分類器を組み合わせることで、全体として優れた分類器のモデルを⽣成する。(組み合わせ⽅が様々) ・個別の分類器同⼠の相関関係が⼩さいほど、分類精度の優れたアンサンブル分類器を⽣成することができる。・分散を極めて⼩さくすることができる。 43

Slide 44

Slide 44 text

アンサンブル分類器のイメージ 44 ⼊⼒データ出⼒データ集約データ1 データ2 データ3 データ4

Slide 45

Slide 45 text

組み合わせ⽅・個別の分類器の出⼒を平均値を経由して組み合わせる。・個別の分類機の多数決(voting)によって採⽤する出⼒を決定 45

Slide 46

Slide 46 text

個別の分類器・個別の分類器同⼠の相関関係はアンサンブルにおいて有害になり得る。 46 異なった特徴ベクトルにより構成された弱分類器でアンサンブルまた異なったデータセットで訓練(Boot strap法)

Slide 47

Slide 47 text

Boot strap法あるN個のデータXがあるとする = - , Z , … … … . • Xからランダムに重複を含んでN個を復元抽出することにより、新たなデータセットを作成 - = {- , Z , Z , … … … , •J- } Z = {- , - , - , … … … , •JZ } Š = {‹ , ‹ , ‹ , … … … , • } 47 …

Slide 48

Slide 48 text

Boot strap法(続き) = ∗, ∗ − ∗, ⺟集団の誤識別率の予測値 = , − 1 P Q_- Š () biasを推定するためにBoot strap法が⽤いられる。 48

Slide 49

Slide 49 text

Bagging Bootstrap aggregating(ブートストラップの集約)の略各分類器に使⽤する⼊⼒データをブートストラッピングによって得て、その分類器の出⼒の多数決をしてアンサンブル分類器にする。 49 ⼊⼒データ Bootstrap データ1 データ2 データ3 多数決集約

Slide 50

Slide 50 text

Arcing 過去の誤分類器全ての誤分類率を考慮することで、ブースティングより安定的に分散を減少させることができると主張。 50 弱い分類器を繰り返し学習させ、強い分類器にするデータデータ1 データ2 データ3 データ4 データ5 データ6 識別規則

Slide 51

Slide 51 text

総括・アンサンブル分類器の作成⼿順は様々な種類があるので、さまざまな⼈がそれぞれの⼿法を主張している。・それぞれの⽅法にメリットとデメリットがある。 51

Slide 52

Slide 52 text

IV. 特徴変数の選択 52

Slide 53

Slide 53 text

特徴変数の選択・満⾜させるような予測パフォーマンスを引き起こす特徴変数の集合を発⾒することが⽬的・次元の呪いより、分類器への⼊⼒変数の数を制限することが必要であり、かつ有効である。・変数全体の集合のうちの⼩さな部分集合のみを⽤いることにより、サンプル外学習のパフォーマンスは向上する。 53

Slide 54

Slide 54 text

次元の呪い・データが⾼次元になりすぎると、分類や回帰がうまく作⽤しなくなる。・この現象を防ぐために、次元を減らしたり、変数を減らしたりする。・次元が三次元を超えると⼈間の直感がきかなくなる。 54

Slide 55

Slide 55 text

統計的な特徴選択・統計的な特徴選択の⼿法は、ニューラルネットワークがノンパラメトリックであるという性質のため直接適⽤することは不可能である。・ノンパラメトリックとは、分布の具体的な関数を決めつけない設定のことである。・近年、ニューラルネットワーク分類器のための特徴変数選択と次元の減少という⽅法が発達している。・統計的にそれぞれ独⽴している特徴変数を⽤いることでクラス分類器の性能が向上する。 55

Slide 56

Slide 56 text

特徴選択の⽅法論(PCA法) ・もともとのデータから本質的なデータを減らすことはしないで、次元を減らす⽅法である。・ニューラルネットワーク訓練の前処理⽅法として使⽤される。・教師なし学習の⼀種で、⽬標出⼒と⼊⼒特徴間の相関を考慮していない。・⾮線形な相関構造をもつ複雑な問題は対処できない。 56

Slide 57

Slide 57 text

発⾒的な⼊⼒変数の評価⽅法(その1) ・出⼒変数に対する⼊⼒変数の相対的な重要性や貢献度を⾒積もる⽅法論の提案・最もシンプルなのは、⼊⼒の重みの絶対値を合計する⽅法論 57 重要な隠れノードの重みの影響を考慮していない。

Slide 58

Slide 58 text

・感度指数 58 発⾒的な⼊⼒変数の評価⽅法(その2) 特定の⼊⼒変数の全体にわたる出⼒変数の変化の平均値しかし、隠れ層の重みを考慮していないので⾮線形的な効果の測定は不可

Slide 59

Slide 59 text

・⼊⼒重みと隠れ重み、出⼒における⼊⼒重みと隠れ重みの相互関係を考慮する。・例えば、⼊⼒層から隠れ層への重みと隠れ層から出⼒層への重みの積の合計値である擬似重みを考える。・他には、隠れ層を関連する個々の⼊⼒ノードの部分に分割し、特定の⼊⼒ノードへ貢献する隠れ層の重みのパーセンテージを指標にする。 59 発⾒的な⼊⼒変数の評価⽅法(その3)

Slide 60

Slide 60 text

前進法と後退法(発⾒的) ・前進法…すべての特徴量をデータから取り除いた状態で、特徴量を⼀つずつ⼊れていき、分類精度の改善が起こらなくなるまで特徴量を⼊れる。・後退法…すべての特徴量をデータに⼊れておき、そこから不要だと予測される特徴量を⼀つずつ取り除いていき、分類精度の変化がなくなるまで続ける。 60

Slide 61

Slide 61 text

重み除去とノード剪定 61 ・不必要なリンクの重みや⼊⼒ノードを除去するために、重み除去やノード剪定がよく⾏われる。・OBD(optimal brain damage)では、簡略化されたヘッセ⾏列に基づいて、顕著性が計算される。

Slide 62

Slide 62 text

総括・特徴選択におけるあらゆる⼿順は⾃⼰発⾒的で特徴の除去や追加を正当化するため、統計的で厳格なテストが不⾜する。特徴選択におけるパフォーマンスは⼀貫性がなく、強固ではない可能性がある。よって⼀般性があり、系統的な特徴選択の⽅法論のさらなる発達が必要である。 62

Slide 63

Slide 63 text

V. 誤分類コスト 63

Slide 64

Slide 64 text

均等な誤分類コストの問題点・研究者達はミス分類のコストを分類先において同⼀であると想定している。・0~1のコスト関数を減らすことだけが唯⼀の⽬的・コスト関数はモデルの発達を容易にしているが、現実世界の問題にはそぐわない。・不均等な誤分類コストが現実世界の問題においては好ましい。 64

Slide 65

Slide 65 text

誤分類コストにおける研究者の提案・重みづけられたエラー関数の使⽤・相対的なクラスの重要性や誤分類コストについての事前知識の組み込み 65

Slide 66

Slide 66 text

VI. 結論 66

Slide 67

Slide 67 text

結論・事後確率推定(ベイズ推定) ・ニューラル分類器と従来の分類器との関係性・ニューラルネットワーク分類における学習と凡化の関係・ニューラルな分類器のperformance向上するにあたっての問題点・2000年までの10年間で理論的な発達と実際の適⽤においての前進 67

Slide 68

Slide 68 text

結論・ニューラルネットワークは、まだ未解決の問題点あり・この論⽂は、さまざまな論⽂の説の引⽤をまとめた論⽂ 68

Slide 69

Slide 69 text

参考⽂献 [1] 「Neural Networks for Classification:A Survey」 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.33 0.284&rep=rep1&type=pdf [2] 「はじめてのパターン認識」 69