Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自己組織化写像とは / What are Self-Organizing Maps ?

Atom
February 07, 2019
130

自己組織化写像とは / What are Self-Organizing Maps ?

(1) Overall image of data analysis
(2) PCA and SOM
(3) SOM algorithm
(4) SOM and natural language processing

Atom

February 07, 2019
Tweet

More Decks by Atom

Transcript

  1. 自己組織化写像とは
    データ解析とSOM
    第5回 B3勉強会
    2019/2/7
    長岡技術科学大学
    自然言語処理研究室 吉澤 亜斗武

    View Slide

  2. 参考文献・資料
    [1] 徳高平蔵 他:自己組織化マップ応用事例集,海文堂(2002)
    [2] T.コホネン:自己組織化マップ,Springer-Verlag(2005)
    [3] 渡辺澄夫:自己組織化写像
    http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/joho10.pdf
    [4] 渡辺澄夫:主成分解析
    http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/dataan201804.pdf
    2

    View Slide

  3. Contents
    (1) データ解析の全体像
    (2) PCAとSOM
    (3) SOMのアルゴリズム
    (4) SOMと自然言語処理
    3

    View Slide

  4. (1) データ解析の全体像
    情報XがラベルYを持っているか?(教師ありか?)
    ・YES ! → 回帰分析・判別分析
    ・NO ! → いろいろ(真の情報源について何か知りたい)
    4
    真の
    情報源
    データ
    統計
    モデル

    View Slide

  5. (1) データ解析の全体像
    データ解析の基本としては
    1. データは低次元線形空間の上にある. → 主成分分析
    2. データを少ない個数の要因で説明する. → 因子分析
    3. データは幾つかのクラスタに分けられる.→ クラスタ分析
    5

    View Slide

  6. (1) データ解析の全体像
    データ解析の発展として
    1. データは多様体の上にある. → SOM, 砂時計型深層学習
    2. データを少数の要因で説明できる.→ 独立成分解析, 非負値行列分解
    3. データは幾つかのクラスタに分けられる.
    → 変分ベイズ法, 階層クラスタ法
    4. データを発生した確率文法を推定したい. → 構文解析変分ベイズ法
    6

    View Slide

  7. (2) PCAとSOM
    7
    主成分分析(principal component analysis)とは
    ・主成分と呼ばれる変数を合成する多変量解析の一手法
    ・N次元実ユークリッド空間 ℝ に値をとるデータ(確率変数)
    X が確率密度関数 () に従うとする.データ X が
    ほぼ低次元の線形空間( ()の情報をできるだけ残せる部分
    空間)上にあるとき,その線形空間を抽出する手法

    View Slide

  8. (2) PCAとSOM
    8
    Fig.1 PCA (引用:[4])

    View Slide

  9. (2) PCAとSOM
    9
    自己組織化写像(self organizing maps)とは
    ・2層構造の教師なし学習ニューラルネットワーク
    入力:n次元の数値データ(ノード数=n)
    出力:m次元のノード(ノード数は任意)
    ・入力データを任意の次元へ写像する(高次元データの可視化)

    View Slide

  10. (2) PCAとSOM
    10
    Fig.2 SOM (引用:[3])

    View Slide

  11. (2) PCAとSOM
    11
    ・主成分分析(PCA)
    ・非線形に対応できない
    ・結果は一意に決まる
    ・自己組織化写像(SOM)
    ・非線形に対応できる
    ・入力の順序によって結果が異なる(局所解が存在する)
    ただし,バッチ学習SOMは学習順序に依存しない

    View Slide

  12. (2) PCAとSOM
    12

    View Slide

  13. (2) PCAとSOM
    13
    注意:データに相応しい次元を知る方法は確立していない

    View Slide

  14. (2) PCAとSOM
    14
    注意:「構造の発見」と「最高の予測」は両立しない




    表現次元
    精度の良い予測
    人間が理解できる
    構造の発見

    View Slide

  15. 近傍(競合)学習:ニューロンが競い合い,勝者ニューロンを決める
    データ{
    | = 1,2, ⋯ } , SOM{
    | = 1,2, ⋯ } ,学習回数:
    (1)
    ; = 1,2, ⋯ を初期化
    (2) 番号 をランダムに選び,
    に一番近い
    を選ぶ
    (3) −1
    ∶= −1
    + ,−1

    − −1


    : =
    + ,



    +1
    ∶= +1
    + ,+1

    − +1

    (2),(3)を繰り返す.( ,
    →0)
    15
    (3) SOMのアルゴリズム

    View Slide

  16. (2) の
    に一番近い
    を選び方は主に2通り
    ・内積:
    = argmax

    {

    }
    こちらの場合 (3) で規格化が必要
    ・ユークリッド距離:
    = argmin

    {

    }
    今回はユークリッド距離で説明する
    16
    (3) SOMのアルゴリズム

    View Slide

  17. 近傍関数: 一般にガウス関数を用いる
    ,
    = () � exp(−


    2
    22()
    )
    学習率 (),近傍半径() の例( :総学習回数)
    = 0 −

    + 1 = 1 + ( − 1) −

    17
    (3) SOMのアルゴリズム

    View Slide

  18. 18
    (3) SOMのアルゴリズム
    Fig.3 Learning process (引用:[3])

    View Slide

  19. 19
    (3) SOMのアルゴリズム
    Fig.4 Learning process (引用:[3])

    View Slide

  20. 意味マップ,文書マップ,キーワードマップ,トピックマップ,
    特許マップ,WEBマップ などなど
    ・これらは文書情報などを可視化し,視覚的な情報検索を
    可能とする.
    ・他にも,特徴分析の結果を可視的に示したいときに有効
    20
    (4) SOMと自然言語処理

    View Slide

  21. 21
    (4) SOMと自然言語処理
    Fig.5 オノマトペ分類 (引用:自己組織化マップ SOM による心情を表すオノマトペの意味分類と可視化)

    View Slide