第十章-教師なし学習【数学嫌いと学ぶデータサイエンス・統計的学習入門】

@Ringa_hyj 日本一の数学嫌いと学ぶデータサイエンス ~第十章：教師なし学習~

対象視聴者：数式や記号を見ただけで教科書を閉じたくなるレベル , , C , ,

教師なし学習・主成分分析・寄与度・クラスタリング・k平均・階層的

教師なし学習

・教師なし学習教師なし学習とは教師ありと違い精度を確かめる方法がないデータから知見を引き出すために使われるしかし、テストでの性能を測れないので汎化性に期待はできない教師なし学習としては・主成分分析・クラスタリングが有名である

主成分分析

・主成分分析 6章で主成分分析の求め方を含めて紹介したデータにp変数あれば、2変数plotは p(p-1)/2 個の図になる p=10なら45枚の図すべて確認するのは大変なので主成分に要約する第一主成分は以下により得られる max 11~1
1 ා =1 ෍ =1 1 2 ෍ =1 1 2 = 1 ただし制約第二主成分は第一主成分に直交(無相関)するという制約が付く

・主成分分析・主成分が最良のM次元近似である主成分とは、各データから近いように近似していく方法 1~M次元の主成分ベクトルと係数ベクトルは最良のM次元近似である Mを大きくしていけばp次元データに同じようになっていく・標準化主成分分析は事前に中心化する手法である標準化すべきか、という議論については、単位が異なるならば行うことが推奨単位が等しい中で標準化するのは比較できなくなるのでNG ・パッケージによる出力の違い
係数ベクトル、主成分スコアベクトルの符号がパッケージによって異なるが、これは主成分軸の方向を表すものであり、符号以外は一致するこのことを「符号を除いた一意性を持つ」という

寄与度

・主成分分析どれだけ情報が失われているか分散の割合寄与率によって考えるデータセット全体の分散の総和 ෍ =1 Var =
ා =1 1 ෍ =1 2 第m主成分での分散の総和は 1 ෍ =1 2 = 1 ා =1 ෍ =1 2 以上から第m主成分が全体から抽出できた情報量は以下 ෎ =1 ෍ =1 2 ෎ =1 ෍ =1 2

クラスタリング k平均

・クラスタリングクラスタリングには有名なものに・K平均クラスタリング・・・クラスタを指定・階層的クラスタリングがある・・・デンドログラムからクラスタ数を決める

・クラスタリング・K平均クラスタリングデータはKクラスのいずれかに属する C1 ⋁ C2 ⋁ … Ck =
(1~n) 一つのデータの所属クラスが重複することはない K≠K’ で Ck ∧ Ck’ = ∅ iがCkのデータであるとき、 i∉Ck と表示する

・クラスタリング良いクラスタリングの結果とは・・・クラスタ内変動 W(Ck) が小さくなること minimize Σ W(Ck) (k=1~k) C1~Ck クラスタ内変動は
クラスタ内のデータが似ているほどいい → 非類似度を最小化非類似度をユークリッド二乗距離を使うならば以下のように定式化する |Ck|はK番目のクラスタ内のデータ数非類似度を計算する対象であるiとi’もK番目クラスに属しているものである(jは変数) = 1 ා ,′∈ ෍ =1 − ′ 2

・クラスタリング全データを全クラスに割り当てて調べる場合、 n個をK個のクラスに分割するのは Kn通り局所的最適解に陥るが以下の方法を繰りかえすことが主流 ①Kをいくつにするか決める各データに1~kのクラスをランダムに割り当てる ②各クラスタの重心を求める ③各データと各重心のユークリッド距離を計算し、最も距離の近いクラスに割り当てなおす ②③を重心が変動しなくなるまで繰り返す。
この繰り返しは単調減少の性質を持つことを数式で表現する＝ 2 ා ∈ ෍ =1 − ҧ 2 = 1 ා ,′∈ ෍ =1 − ′ 2 クラス内変動が重心からの距離であると考えれば重心は各データから最も近くなるまで移動するので、この繰り返しによりクラスタ内変動は減少する ҧ = 1 ෍ ∈

クラスタリング階層的クラスタリング

・クラスタリング Kを決めることは、何かしら仮説がなくては決めにくいそこでデンドログラムを考える決定木のような樹上図をしており、分岐点からデータ点までの高さが非類似度を表す非類似度ある高さ(非類似度)で切った時、そのデンドログラムの枝の本数がクラス数となる =
高さを決める必要はあるがクラス数は自動的に決まる

・クラスタリング各データ点で非類似度を計算する n(n-1)/2 組の計算を行う非類似の小さいデータペアを繋ぐ繋いだ後、ペアを一つの値に変換する(連結法は後述) 再度非類似度を計算これを繰り返す非類似度でペアに指定されたデータを1つの値に変換する完全連結法・・・データたち(クラスタ)の最大値で置き換える
単連結法・・・データたちの最小値で置き換える平均連結法・・・データたちの非類似度の平均で置き換える重心連結法・・・データの変数の重心で置き換える (デンドログラムが逆転することがあるので非推奨)

・クラスタリング非類似度にどんな計算を使うか？(今回ユークリッド) 目的によっては距離でなく、相関をとらえる計算を行うべきクラスタリングには複数の決定すべき項目がある（正解はない）中心化するか、標準化すべきか、類似度の関数、連結法、切断の高さ、初期クラスタ数その項目によって結果(割り当てられたクラス)の解釈が変化してしまうクラスタにp値を割り当てるクラスタリングや外れ値に強い混合モデルクラスタリングなどもある。

第十章-教師なし学習【数学嫌いと学ぶデータサイエンス・統計的学習入門】

第十章-教師なし学習【数学嫌いと学ぶデータサイエンス・統計的学習入門】

Ringa_hyj

More Decks by Ringa_hyj

Other Decks in Technology

Featured

Transcript

@Ringa_hyj 日本一の数学嫌いと学ぶデータサイエンス ~第十章：教師なし学習~

対象視聴者：数式や記号を見ただけで教科書を閉じたくなるレベル , , C , ,

教師なし学習・主成分分析・寄与度・クラスタリング・k平均・階層的

教師なし学習

主成分分析

・主成分分析 6章で主成分分析の求め方を含めて紹介したデータにp変数あれば、2変数plotは p(p-1)/2 個の図になる p=10なら45枚の図すべて確認するのは大変なので主成分に要約する第一主成分は以下により得られる max 11~1

寄与度

・主成分分析どれだけ情報が失われているか分散の割合寄与率によって考えるデータセット全体の分散の総和 ෍ =1 Var =

クラスタリング k平均

・クラスタリングクラスタリングには有名なものに・K平均クラスタリング・・・クラスタを指定・階層的クラスタリングがある・・・デンドログラムからクラスタ数を決める

・クラスタリング・K平均クラスタリングデータはKクラスのいずれかに属する C1 ⋁ C2 ⋁ … Ck =

・クラスタリング良いクラスタリングの結果とは・・・クラスタ内変動 W(Ck) が小さくなること minimize Σ W(Ck) (k=1~k) C1~Ck クラスタ内変動は

クラスタリング階層的クラスタリング