自己組織化写像とは / What are Self-Organizing Maps ?

Slide 1

Slide 1 text

自己組織化写像とはデータ解析とSOM 第5回 B3勉強会 2019/2/7 長岡技術科学大学自然言語処理研究室吉澤亜斗武

Slide 2

Slide 2 text

参考文献・資料 [1] 徳高平蔵他：自己組織化マップ応用事例集，海文堂（2002） [2] T.コホネン：自己組織化マップ，Springer-Verlag（2005） [3] 渡辺澄夫：自己組織化写像 http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/joho10.pdf [4] 渡辺澄夫：主成分解析 http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/dataan201804.pdf 2

Slide 3

Slide 3 text

Contents (1) データ解析の全体像 (2) PCAとSOM (3) SOMのアルゴリズム (4) SOMと自然言語処理 3

Slide 4

Slide 4 text

(1) データ解析の全体像情報XがラベルYを持っているか？（教師ありか？）・YES ! → 回帰分析・判別分析・NO ! → いろいろ（真の情報源について何か知りたい） 4 真の情報源データ統計モデル

Slide 5

Slide 5 text

(1) データ解析の全体像データ解析の基本としては 1. データは低次元線形空間の上にある． → 主成分分析 2. データを少ない個数の要因で説明する． → 因子分析 3. データは幾つかのクラスタに分けられる．→ クラスタ分析 5

Slide 6

Slide 6 text

(1) データ解析の全体像データ解析の発展として 1. データは多様体の上にある． → SOM, 砂時計型深層学習 2. データを少数の要因で説明できる.→ 独立成分解析, 非負値行列分解 3. データは幾つかのクラスタに分けられる． → 変分ベイズ法, 階層クラスタ法 4. データを発生した確率文法を推定したい. → 構文解析変分ベイズ法 6

Slide 7

Slide 7 text

(2) PCAとSOM 7 主成分分析（principal component analysis）とは・主成分と呼ばれる変数を合成する多変量解析の一手法・N次元実ユークリッド空間 ℝ に値をとるデータ(確率変数) X が確率密度関数 () に従うとする．データ X がほぼ低次元の線形空間（ ()の情報をできるだけ残せる部分空間）上にあるとき，その線形空間を抽出する手法

Slide 8

Slide 8 text

(2) PCAとSOM 8 Fig.1 PCA (引用：[4])

Slide 9

Slide 9 text

(2) PCAとSOM 9 自己組織化写像（self organizing maps）とは・2層構造の教師なし学習ニューラルネットワーク入力：n次元の数値データ（ノード数＝n）出力：m次元のノード（ノード数は任意）・入力データを任意の次元へ写像する（高次元データの可視化）

Slide 10

Slide 10 text

(2) PCAとSOM 10 Fig.2 SOM (引用：[3])

Slide 11

Slide 11 text

(2) PCAとSOM 11 ・主成分分析（PCA）・非線形に対応できない・結果は一意に決まる・自己組織化写像（SOM）・非線形に対応できる・入力の順序によって結果が異なる（局所解が存在する）ただし，バッチ学習SOMは学習順序に依存しない

Slide 12

Slide 12 text

(2) PCAとSOM 12

Slide 13

Slide 13 text

(2) PCAとSOM 13 注意：データに相応しい次元を知る方法は確立していない

Slide 14

Slide 14 text

(2) PCAとSOM 14 注意：「構造の発見」と「最高の予測」は両立しない予測誤差表現次元精度の良い予測人間が理解できる構造の発見

Slide 15

Slide 15 text

近傍（競合）学習：ニューロンが競い合い，勝者ニューロンを決めるデータ{ | = 1,2, ⋯ } , SOM{ | = 1,2, ⋯ } ,学習回数: (1) ; = 1,2, ⋯ を初期化 (2) 番号をランダムに選び，に一番近いを選ぶ (3) −1 ∶= −1 + ,−1 − −1 : = + , − +1 ∶= +1 + ,+1 − +1 (2),(3)を繰り返す．（ , →0） 15 (3) SOMのアルゴリズム

Slide 16

Slide 16 text

(2) のに一番近いを選び方は主に2通り・内積： = argmax { � } こちらの場合 (3) で規格化が必要・ユークリッド距離： = argmin { − } 今回はユークリッド距離で説明する 16 (3) SOMのアルゴリズム

Slide 17

Slide 17 text

近傍関数：一般にガウス関数を用いる , = () � exp(− − 2 22() ) 学習率 ()，近傍半径() の例（：総学習回数） = 0 − + 1 = 1 + ( − 1) − 17 (3) SOMのアルゴリズム

Slide 18

Slide 18 text

18 (3) SOMのアルゴリズム Fig.3 Learning process (引用：[3])

Slide 19

Slide 19 text

19 (3) SOMのアルゴリズム Fig.4 Learning process (引用：[3])

Slide 20

Slide 20 text

意味マップ，文書マップ，キーワードマップ，トピックマップ，特許マップ，WEBマップなどなど・これらは文書情報などを可視化し，視覚的な情報検索を可能とする．・他にも，特徴分析の結果を可視的に示したいときに有効 20 (4) SOMと自然言語処理

Slide 21

Slide 21 text

21 (4) SOMと自然言語処理 Fig.5 オノマトペ分類 (引用：自己組織化マップ SOM による心情を表すオノマトペの意味分類と可視化)