Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第十章-教師なし学習【数学嫌いと学ぶデータサイエンス・統計的学習入門】

 第十章-教師なし学習【数学嫌いと学ぶデータサイエンス・統計的学習入門】

第十章【数学嫌いと学ぶデータサイエンス・統計的学習入門】

Ringa_hyj

July 22, 2020
Tweet

More Decks by Ringa_hyj

Other Decks in Technology

Transcript

  1. ・主成分分析 どれだけ情報が失われているか 分散の割合 寄与率 によって考える データセット全体の分散の総和 ෍ =1 Var =

    ා =1 1 ෍ =1 2 第m主成分での分散の総和は 1 ෍ =1 2 = 1 ා =1 ෍ =1 2 以上から第m主成分が全体から抽出できた情報量は以下 ෎ =1 ෍ =1 2 ෎ =1 ෍ =1 2
  2. ・クラスタリング ・K平均クラスタリング データはKクラスのいずれかに属する C1 ⋁ C2 ⋁ … Ck =

    (1~n) 一つのデータの所属クラスが重複することはない K≠K’ で Ck ∧ Ck’ = ∅ iがCkのデータであるとき、 i∉Ck と表示する
  3. ・クラスタリング 良いクラスタリングの結果とは・・・クラスタ内変動 W(Ck) が小さくなること minimize Σ W(Ck) (k=1~k) C1~Ck クラスタ内変動は

    クラスタ内のデータが似ているほどいい → 非類似度を最小化 非類似度をユークリッド二乗距離を使うならば以下のように定式化する |Ck|はK番目のクラスタ内のデータ数 非類似度を計算する対象であるiとi’もK番目クラスに属しているものである(jは変数) = 1 ා ,′∈ ෍ =1 − ′ 2
  4. ・クラスタリング 全データを全クラスに割り当てて調べる場合、 n個をK個のクラスに分割するのは Kn通り 局所的最適解に陥るが以下の方法を繰りかえすことが主流 ①Kをいくつにするか決める 各データに1~kのクラスをランダムに割り当てる ②各クラスタの重心を求める ③各データと各重心のユークリッド距離を計算し、最も距離の近いクラスに割り当てなおす ②③を重心が変動しなくなるまで繰り返す。

    この繰り返しは単調減少の性質を持つことを数式で表現する = 2 ා ∈ ෍ =1 − ҧ 2 = 1 ා ,′∈ ෍ =1 − ′ 2 クラス内変動が重心からの距離であると考えれば 重心は各データから最も近くなるまで移動するので、 この繰り返しによりクラスタ内変動は減少する ҧ = 1 ෍ ∈
  5. ・クラスタリング 各データ点で非類似度を計算する n(n-1)/2 組の計算を行う 非類似の小さいデータペアを繋ぐ 繋いだ後、ペアを一つの値に変換する(連結法は後述) 再度非類似度を計算 これを繰り返す 非類似度でペアに指定されたデータを1つの値に変換する 完全連結法・・・データたち(クラスタ)の最大値で置き換える

    単連結法・・・データたちの最小値で置き換える 平均連結法・・・データたちの非類似度の平均で置き換える 重心連結法・・・データの変数の重心で置き換える (デンドログラムが逆転することがあるので非推奨)