自己組織化写像とは / What are Self-Organizing Maps ?

自己組織化写像とはデータ解析とSOM 第5回 B3勉強会 2019/2/7 長岡技術科学大学自然言語処理研究室吉澤亜斗武

参考文献・資料 [1] 徳高平蔵他：自己組織化マップ応用事例集，海文堂（2002） [2] T.コホネン：自己組織化マップ，Springer-Verlag（2005） [3] 渡辺澄夫：自己組織化写像 http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/joho10.pdf [4]
渡辺澄夫：主成分解析 http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/dataan201804.pdf 2

Contents (1) データ解析の全体像 (2) PCAとSOM (3) SOMのアルゴリズム (4) SOMと自然言語処理 3

(1) データ解析の全体像情報XがラベルYを持っているか？（教師ありか？）・YES ! → 回帰分析・判別分析・NO ! →
いろいろ（真の情報源について何か知りたい） 4 真の情報源データ統計モデル

(1) データ解析の全体像データ解析の基本としては 1. データは低次元線形空間の上にある． → 主成分分析 2. データを少ない個数の要因で説明する． →
因子分析 3. データは幾つかのクラスタに分けられる．→ クラスタ分析 5

(1) データ解析の全体像データ解析の発展として 1. データは多様体の上にある． → SOM, 砂時計型深層学習 2. データを少数の要因で説明できる.→
独立成分解析, 非負値行列分解 3. データは幾つかのクラスタに分けられる． → 変分ベイズ法, 階層クラスタ法 4. データを発生した確率文法を推定したい. → 構文解析変分ベイズ法 6

(2) PCAとSOM 7 主成分分析（principal component analysis）とは・主成分と呼ばれる変数を合成する多変量解析の一手法・N次元実ユークリッド空間 ℝ に値をとるデータ(確率変数)
X が確率密度関数 () に従うとする．データ X がほぼ低次元の線形空間（ ()の情報をできるだけ残せる部分空間）上にあるとき，その線形空間を抽出する手法

(2) PCAとSOM 8 Fig.1 PCA (引用：[4])

(2) PCAとSOM 9 自己組織化写像（self organizing maps）とは・2層構造の教師なし学習ニューラルネットワーク入力：n次元の数値データ（ノード数＝n）出力：m次元のノード（ノード数は任意）・入力データを任意の次元へ写像する（高次元データの可視化）

(2) PCAとSOM 10 Fig.2 SOM (引用：[3])

(2) PCAとSOM 11 ・主成分分析（PCA）・非線形に対応できない・結果は一意に決まる・自己組織化写像（SOM）・非線形に対応できる・入力の順序によって結果が異なる（局所解が存在する）ただし，バッチ学習SOMは学習順序に依存しない

(2) PCAとSOM 12

(2) PCAとSOM 13 注意：データに相応しい次元を知る方法は確立していない

(2) PCAとSOM 14 注意：「構造の発見」と「最高の予測」は両立しない予測誤差表現次元精度の良い予測
人間が理解できる構造の発見

近傍（競合）学習：ニューロンが競い合い，勝者ニューロンを決めるデータ{ | = 1,2, ⋯ } , SOM{ |
= 1,2, ⋯ } ,学習回数: (1) ; = 1,2, ⋯ を初期化 (2) 番号をランダムに選び，に一番近いを選ぶ (3) −1 ∶= −1 + ,−1 − −1 : = + , − +1 ∶= +1 + ,+1 − +1 (2),(3)を繰り返す．（ , →0） 15 (3) SOMのアルゴリズム

(2) のに一番近いを選び方は主に2通り・内積： = argmax { � }
こちらの場合 (3) で規格化が必要・ユークリッド距離： = argmin { − } 今回はユークリッド距離で説明する 16 (3) SOMのアルゴリズム

近傍関数：一般にガウス関数を用いる , = () � exp(− − 2 22()
) 学習率 ()，近傍半径() の例（：総学習回数） = 0 − + 1 = 1 + ( − 1) − 17 (3) SOMのアルゴリズム

18 (3) SOMのアルゴリズム Fig.3 Learning process (引用：[3])

19 (3) SOMのアルゴリズム Fig.4 Learning process (引用：[3])

意味マップ，文書マップ，キーワードマップ，トピックマップ，特許マップ，WEBマップなどなど・これらは文書情報などを可視化し，視覚的な情報検索を可能とする．・他にも，特徴分析の結果を可視的に示したいときに有効 20 (4) SOMと自然言語処理

21 (4) SOMと自然言語処理 Fig.5 オノマトペ分類 (引用：自己組織化マップ SOM による心情を表すオノマトペの意味分類と可視化)

自己組織化写像とは / What are Self-Organizing Maps ?

自己組織化写像とは / What are Self-Organizing Maps ?

Atom

More Decks by Atom

Featured

Transcript

自己組織化写像とはデータ解析とSOM 第5回 B3勉強会 2019/2/7 長岡技術科学大学自然言語処理研究室吉澤亜斗武

参考文献・資料 [1] 徳高平蔵他：自己組織化マップ応用事例集，海文堂（2002） [2] T.コホネン：自己組織化マップ，Springer-Verlag（2005） [3] 渡辺澄夫：自己組織化写像 http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/joho10.pdf [4]

Contents (1) データ解析の全体像 (2) PCAとSOM (3) SOMのアルゴリズム (4) SOMと自然言語処理 3

(1) データ解析の全体像情報XがラベルYを持っているか？（教師ありか？）・YES ! → 回帰分析・判別分析・NO ! →

(1) データ解析の全体像データ解析の基本としては 1. データは低次元線形空間の上にある． → 主成分分析 2. データを少ない個数の要因で説明する． →

(1) データ解析の全体像データ解析の発展として 1. データは多様体の上にある． → SOM, 砂時計型深層学習 2. データを少数の要因で説明できる.→

(2) PCAとSOM 7 主成分分析（principal component analysis）とは・主成分と呼ばれる変数を合成する多変量解析の一手法・N次元実ユークリッド空間 ℝ に値をとるデータ(確率変数)

(2) PCAとSOM 8 Fig.1 PCA (引用：[4])

(2) PCAとSOM 10 Fig.2 SOM (引用：[3])

(2) PCAとSOM 12

(2) PCAとSOM 13 注意：データに相応しい次元を知る方法は確立していない

(2) PCAとSOM 14 注意：「構造の発見」と「最高の予測」は両立しない予測誤差表現次元精度の良い予測

近傍（競合）学習：ニューロンが競い合い，勝者ニューロンを決めるデータ{ | = 1,2, ⋯ } , SOM{ |

(2) のに一番近いを選び方は主に2通り・内積： = argmax { � }

近傍関数：一般にガウス関数を用いる , = () � exp(− − 2 22()

18 (3) SOMのアルゴリズム Fig.3 Learning process (引用：[3])

19 (3) SOMのアルゴリズム Fig.4 Learning process (引用：[3])

21 (4) SOMと自然言語処理 Fig.5 オノマトペ分類 (引用：自己組織化マップ SOM による心情を表すオノマトペの意味分類と可視化)