×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
自己組織化写像とは データ解析とSOM 第5回 B3勉強会 2019/2/7 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武
Slide 2
Slide 2 text
参考文献・資料 [1] 徳高平蔵 他:自己組織化マップ応用事例集,海文堂(2002) [2] T.コホネン:自己組織化マップ,Springer-Verlag(2005) [3] 渡辺澄夫:自己組織化写像 http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/joho10.pdf [4] 渡辺澄夫:主成分解析 http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/dataan201804.pdf 2
Slide 3
Slide 3 text
Contents (1) データ解析の全体像 (2) PCAとSOM (3) SOMのアルゴリズム (4) SOMと自然言語処理 3
Slide 4
Slide 4 text
(1) データ解析の全体像 情報XがラベルYを持っているか?(教師ありか?) ・YES ! → 回帰分析・判別分析 ・NO ! → いろいろ(真の情報源について何か知りたい) 4 真の 情報源 データ 統計 モデル
Slide 5
Slide 5 text
(1) データ解析の全体像 データ解析の基本としては 1. データは低次元線形空間の上にある. → 主成分分析 2. データを少ない個数の要因で説明する. → 因子分析 3. データは幾つかのクラスタに分けられる.→ クラスタ分析 5
Slide 6
Slide 6 text
(1) データ解析の全体像 データ解析の発展として 1. データは多様体の上にある. → SOM, 砂時計型深層学習 2. データを少数の要因で説明できる.→ 独立成分解析, 非負値行列分解 3. データは幾つかのクラスタに分けられる. → 変分ベイズ法, 階層クラスタ法 4. データを発生した確率文法を推定したい. → 構文解析変分ベイズ法 6
Slide 7
Slide 7 text
(2) PCAとSOM 7 主成分分析(principal component analysis)とは ・主成分と呼ばれる変数を合成する多変量解析の一手法 ・N次元実ユークリッド空間 ℝ に値をとるデータ(確率変数) X が確率密度関数 () に従うとする.データ X が ほぼ低次元の線形空間( ()の情報をできるだけ残せる部分 空間)上にあるとき,その線形空間を抽出する手法
Slide 8
Slide 8 text
(2) PCAとSOM 8 Fig.1 PCA (引用:[4])
Slide 9
Slide 9 text
(2) PCAとSOM 9 自己組織化写像(self organizing maps)とは ・2層構造の教師なし学習ニューラルネットワーク 入力:n次元の数値データ(ノード数=n) 出力:m次元のノード(ノード数は任意) ・入力データを任意の次元へ写像する(高次元データの可視化)
Slide 10
Slide 10 text
(2) PCAとSOM 10 Fig.2 SOM (引用:[3])
Slide 11
Slide 11 text
(2) PCAとSOM 11 ・主成分分析(PCA) ・非線形に対応できない ・結果は一意に決まる ・自己組織化写像(SOM) ・非線形に対応できる ・入力の順序によって結果が異なる(局所解が存在する) ただし,バッチ学習SOMは学習順序に依存しない
Slide 12
Slide 12 text
(2) PCAとSOM 12
Slide 13
Slide 13 text
(2) PCAとSOM 13 注意:データに相応しい次元を知る方法は確立していない
Slide 14
Slide 14 text
(2) PCAとSOM 14 注意:「構造の発見」と「最高の予測」は両立しない 予 測 誤 差 表現次元 精度の良い予測 人間が理解できる 構造の発見
Slide 15
Slide 15 text
近傍(競合)学習:ニューロンが競い合い,勝者ニューロンを決める データ{ | = 1,2, ⋯ } , SOM{ | = 1,2, ⋯ } ,学習回数: (1) ; = 1,2, ⋯ を初期化 (2) 番号 をランダムに選び, に一番近い を選ぶ (3) −1 ∶= −1 + ,−1 − −1 : = + , − +1 ∶= +1 + ,+1 − +1 (2),(3)を繰り返す.( , →0) 15 (3) SOMのアルゴリズム
Slide 16
Slide 16 text
(2) の に一番近い を選び方は主に2通り ・内積: = argmax { � } こちらの場合 (3) で規格化が必要 ・ユークリッド距離: = argmin { − } 今回はユークリッド距離で説明する 16 (3) SOMのアルゴリズム
Slide 17
Slide 17 text
近傍関数: 一般にガウス関数を用いる , = () � exp(− − 2 22() ) 学習率 (),近傍半径() の例( :総学習回数) = 0 − + 1 = 1 + ( − 1) − 17 (3) SOMのアルゴリズム
Slide 18
Slide 18 text
18 (3) SOMのアルゴリズム Fig.3 Learning process (引用:[3])
Slide 19
Slide 19 text
19 (3) SOMのアルゴリズム Fig.4 Learning process (引用:[3])
Slide 20
Slide 20 text
意味マップ,文書マップ,キーワードマップ,トピックマップ, 特許マップ,WEBマップ などなど ・これらは文書情報などを可視化し,視覚的な情報検索を 可能とする. ・他にも,特徴分析の結果を可視的に示したいときに有効 20 (4) SOMと自然言語処理
Slide 21
Slide 21 text
21 (4) SOMと自然言語処理 Fig.5 オノマトペ分類 (引用:自己組織化マップ SOM による心情を表すオノマトペの意味分類と可視化)