(1) Overall image of data analysis (2) PCA and SOM (3) SOM algorithm (4) SOM and natural language processing
自己組織化写像とはデータ解析とSOM第5回 B3勉強会2019/2/7長岡技術科学大学自然言語処理研究室 吉澤 亜斗武
View Slide
参考文献・資料[1] 徳高平蔵 他:自己組織化マップ応用事例集,海文堂(2002)[2] T.コホネン:自己組織化マップ,Springer-Verlag(2005)[3] 渡辺澄夫:自己組織化写像http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/joho10.pdf[4] 渡辺澄夫:主成分解析http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/dataan201804.pdf2
Contents(1) データ解析の全体像(2) PCAとSOM(3) SOMのアルゴリズム(4) SOMと自然言語処理3
(1) データ解析の全体像情報XがラベルYを持っているか?(教師ありか?)・YES ! → 回帰分析・判別分析・NO ! → いろいろ(真の情報源について何か知りたい)4真の情報源データ統計モデル
(1) データ解析の全体像データ解析の基本としては1. データは低次元線形空間の上にある. → 主成分分析2. データを少ない個数の要因で説明する. → 因子分析3. データは幾つかのクラスタに分けられる.→ クラスタ分析5
(1) データ解析の全体像データ解析の発展として1. データは多様体の上にある. → SOM, 砂時計型深層学習2. データを少数の要因で説明できる.→ 独立成分解析, 非負値行列分解3. データは幾つかのクラスタに分けられる.→ 変分ベイズ法, 階層クラスタ法4. データを発生した確率文法を推定したい. → 構文解析変分ベイズ法6
(2) PCAとSOM7主成分分析(principal component analysis)とは・主成分と呼ばれる変数を合成する多変量解析の一手法・N次元実ユークリッド空間 ℝ に値をとるデータ(確率変数)X が確率密度関数 () に従うとする.データ X がほぼ低次元の線形空間( ()の情報をできるだけ残せる部分空間)上にあるとき,その線形空間を抽出する手法
(2) PCAとSOM8Fig.1 PCA (引用:[4])
(2) PCAとSOM9自己組織化写像(self organizing maps)とは・2層構造の教師なし学習ニューラルネットワーク入力:n次元の数値データ(ノード数=n)出力:m次元のノード(ノード数は任意)・入力データを任意の次元へ写像する(高次元データの可視化)
(2) PCAとSOM10Fig.2 SOM (引用:[3])
(2) PCAとSOM11・主成分分析(PCA)・非線形に対応できない・結果は一意に決まる・自己組織化写像(SOM)・非線形に対応できる・入力の順序によって結果が異なる(局所解が存在する)ただし,バッチ学習SOMは学習順序に依存しない
(2) PCAとSOM12
(2) PCAとSOM13注意:データに相応しい次元を知る方法は確立していない
(2) PCAとSOM14注意:「構造の発見」と「最高の予測」は両立しない予測誤差表現次元精度の良い予測人間が理解できる構造の発見
近傍(競合)学習:ニューロンが競い合い,勝者ニューロンを決めるデータ{| = 1,2, ⋯ } , SOM{| = 1,2, ⋯ } ,学習回数: (1) ; = 1,2, ⋯ を初期化(2) 番号 をランダムに選び,に一番近いを選ぶ(3) −1 ∶= −1 + ,−1 − −1 : = + , − +1 ∶= +1 + ,+1 − +1(2),(3)を繰り返す.( , →0)15(3) SOMのアルゴリズム
(2) の に一番近いを選び方は主に2通り・内積: = argmax{� }こちらの場合 (3) で規格化が必要・ユークリッド距離: = argmin{ − }今回はユークリッド距離で説明する16(3) SOMのアルゴリズム
近傍関数: 一般にガウス関数を用いる, = () � exp(−− 222())学習率 (),近傍半径() の例( :総学習回数) = 0 − + 1 = 1 + ( − 1) −17(3) SOMのアルゴリズム
18(3) SOMのアルゴリズムFig.3 Learning process (引用:[3])
19(3) SOMのアルゴリズムFig.4 Learning process (引用:[3])
意味マップ,文書マップ,キーワードマップ,トピックマップ,特許マップ,WEBマップ などなど・これらは文書情報などを可視化し,視覚的な情報検索を可能とする.・他にも,特徴分析の結果を可視的に示したいときに有効20(4) SOMと自然言語処理
21(4) SOMと自然言語処理Fig.5 オノマトペ分類 (引用:自己組織化マップ SOM による心情を表すオノマトペの意味分類と可視化)