t-SNE(途中)

Visualizing Data using t -SNE

高次元データをt-senにより二次元空間上で可視化する hintonらの研究 stochastic neighbor embedding(SNE)の派生であるその技術よりも異なるスケールのデータを可視化することに優れている古典的な様々な手法もあるが、これらは2次元以上の空間を持っていたりするそのため高次元データを二次元におとすことが得意とは言えない PCA 1933
MDS 1952 などは線形空間での距離を離そうとする試みであるので、非線形空間での関係性には使えないさらに近年までいくつかのアプローチがあったが、どれも非線形な構造や、2次元に移すことができなかった本論文のt-SNEは高次元のデータを二次元に落とせるだけでなく、クラスタの存在や、非線形な関係を可視化することができる

そもそもSNEって？データ間のユークリッド距離をもとに類似性を計算するあるデータを正規分布の中心と考えた時、その周辺のデータがどれだけの確率で、その正規分布の一員であるか、という確率を考えるつまり、中心xiがあるという条件での、xjがおなじクラスタであるという条件付き確率である近いデータならば確率は高く、離れたデータならば確率は低いなおかつ、点xiとxiの関係は0である

そもそもSNEって？写像される空間上の点yについても同じように考える点同士の距離は二乗距離を使う

そもそもSNEって？高次元空間上で近い距離のデータが、低次元空間内でも、その性質を維持したままであることが望ましいので、距離=条件付き確率の値が近くなるように計算を行う (同じ仲間は低次元でも同じにしたい) 確率なのでKLダイバージェンスを考えるあとはこれをgradient descentで最適化する

そもそもSNEって？ただし、KLダイバージェンスは対称でないので、低次元空間上で十分に特徴を捉えられているとはいえない (iからみたjまでの距離の値と、jから見たiの距離の値がことなってしまう σのせい？) これを非対称と呼ぶゆえにSNEは空間上の局所的なデータ構造を保持することに特化している

そもそもSNEって？距離を測る分散の決め方高次元空間でのデータ点の密度は異なるのでどのデータ点はどれだけ大きな分散(仲間とみなす範囲)をもっていればいいのか、を考えなければならないこれを探索するためには、preplexityを(ユーザーが)一定に定めて、適合するようなσを探す

そもそもSNEって？勾配は以下のような簡単な式でもとまる yiとyjの距離で重みづけしたような式として解釈できる高次元空間から低次元空間へのマッピング(初期はランダムな写像をつくっておく？)の最適化では、慣性項(モーメンタム)をつけ、高速化と局所解に陥ることを避ける工夫をおこなう tはイテレーション数 ηは学習率 a(t)はモーメンタムの重み

そもそもSNEって？ SNEは最適化する際に初期ノイズの設定や、イテレーション数、学習率、など弄るべき項目が多く、何度かパラメタを変えた最適化を試す必要がでてくる最適化が難しい“crowding problem” t-SNEではガウス分布でなくスチューデントのt分布を用いる対称なSNE crowding problemとその解決
t-SNEの最適化方法の順で説明する

高次元空間の確率密度Pと低次元のQのKLダイバージェンスの和を最小化するのがSNEの話だった和の代わりに、一点一点のダイバージェンスを小さくすることを考えてみよう一点一点の類似度の計算は以下のようになる (低次元空間では、高次元では分散を固定、) ※高次元のデータに外れ値があった場合には問題が発生する lってなに？

SNEでは非対称な問題があったので、これを対象にするため、以下の処理を行う勾配は以下の様に簡単になる

crowding problem スイスロールのようなデータを考える高次元データ空間での距離を二次元空間での距離に置き換えようとした場合次元の呪いによって、二次元空間ではかなり離れた値になってしまう UNI-SNEをつかうことでcrowdingに対抗しよう

高次元空間ではガウシアンよりも裾の長いstudent t分布をつかうことで、高次元上の距離をうまくはかってやろう

t-SNE(途中)

t-SNE(途中)

Ringa_hyj

More Decks by Ringa_hyj

Other Decks in Technology

Featured

Transcript

Visualizing Data using t -SNE

そもそもSNEって？写像される空間上の点yについても同じように考える点同士の距離は二乗距離を使う

SNEでは非対称な問題があったので、これを対象にするため、以下の処理を行う勾配は以下の様に簡単になる

高次元空間ではガウシアンよりも裾の長いstudent t分布をつかうことで、高次元上の距離をうまくはかってやろう