Slide 1

Slide 1 text

,ͷษڧνϟϯωϧ

Slide 2

Slide 2 text

今回の内容 •次元の呪いとは •K近傍法と球面集中現象 •次元が大きくなる時にどのような問題が発生するか次元の呪いを避けるためには 『次元の呪い』とは何か説明します

Slide 3

Slide 3 text

次元の呪いとは 高次元のデータを用いて計算・データ分析をする際に発生する問題の総称 The curse of dimensionality refers to various phenomena that arise when analyzing and organizing data in high- dimensional spaces that do not occur in low-dimensional settings … ग़యɿhttps://en.wikipedia.org/wiki/Curse_of_dimensionality 組合せ爆発 データ間の距離を測る上での問題 機械学習や異常検知における、予測に関係しない次元の多さ 計算量の増加

Slide 4

Slide 4 text

K-近傍法 データの周辺のk個の点をもとに、分類や回帰を行う x1 x0 この点は白か黒か? x1 x0 近傍が白なので白

Slide 5

Slide 5 text

K-近傍法 データの周辺のk個の点をもとに、分類や回帰を行う x1 x0 こ の は か か x1 x0 近傍が白なので白 この近傍の点を探索する作業、 どれくらい大変なのでしょうか?

Slide 6

Slide 6 text

データが1次元の場合 ソートして周辺と比較すれば、近傍の点を探索できる [0, 1, 9, 2, 11, 10, 8, 2, 1, 1, 100] 12 12に近いデータはどれ…? [0, 1, 1, 1, 2, 2, 8, 9, 10, 11, 100] ソートしてから二分探索すれば速く見つけられる!

Slide 7

Slide 7 text

データが2次元の場合 空間をいくつかの区画に分けて探索 (4, 5)に近いデータはどれ…? x1 x0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● x1 x0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 区画を分けて、 区画分けを木で表現すれば探索できる kD木と呼びます

Slide 8

Slide 8 text

さらに次元数を増やしたら どうなるか?

Slide 9

Slide 9 text

データが3次元の場合 近傍にあたる領域がどれくらいあるのかを調べます x1 x0 ● x1 x0 ● x2 黒い点の近傍(表面の濃い青色)の体積を求めてみる

Slide 10

Slide 10 text

表面の体積は、2つの球の体積の差で求まる 近傍にあたる領域がどれくらいあるのかを調べます x1 x0 x2 ● = -

Slide 11

Slide 11 text

表面の体積は、2つの球の体積の差で求まる 近傍にあたる領域がどれくらいあるのかを調べます x1 x0 x2 ● = - an rn an (r − b)n = an rn(1 − (1 − d r )n) an = 次元数によって決定する定数 = 次元数 n

Slide 12

Slide 12 text

次元数nが大きくなると球の表面が体積のほとんどを占める つまり、球の表面に黒点の近傍が大量に存在している x1 x0 x2 ● = - an rn an (r − b)n = an rn(1 − (1 − d r )n) nが大きいほど0に近づく と an rn がほぼ同じ体積 つまり ● ● ● ● ● ● ● ● ● ● ● ●

Slide 13

Slide 13 text

この状態でk近傍探索すると、近傍の点が大量に見つかる つまり、球の中心から見て同じ距離の箇所に大量に点がある x1 x0 x2 ● と an rn がほぼ同じ体積 ● ● ● ● ● ● ● ● ● ● ● ● 球の体積のほとんどは   である    は中心の点から見て等しい距離 仮にデータを100個ランダムにばらまい た時、ばらまいたデータのほとんどは球 の表面  に含まれてしまい、 中心から見ると99個のデータがどれも 近傍にあるように見える ※球面集中現象と呼ばれています

Slide 14

Slide 14 text

まとめ 次元の呪いについて説明しました • 高次元のデータを用いて計算・データ分析をする際に発生する問 題の総称 • 一例として、次元の呪いの一種である球面集中現象がk近傍法で どのように影響するかを紹介しました • 高次元なデータを扱う場合、次元を削減できないか検討し、次元 数とデータ数がアルゴリズムの前提に合っているか確認する必要 がある