多次元尺度法MDS : multi dimensional scaling特性値ではなく、個体間の類似性を表現するようなデータに対して行う分析多次元の類似性を持つデータを低次元に落とすなどがMDS類似性といっても、必ず距離データでなくともいい場合(非計量多次元尺度 non metric MDS)距離データである場合 metric MDS (計量多次元尺度、古典的多次元尺度)
View Slide
mtric MDSデータ点ごとの差の二乗の平方根を考える = − = 1 − 12+ ・・・変換後のベクトルから、以下のような式が成り立つyの存在する空間を探す− = = = − ここで、距離の公理を満たすことを前提とするδ=0δ>=0δij=δji※公理を満たすデータは「メトリックである」と呼ばれるD=[δij]
単に二乗を考えてみるⅈ2 = − 2= − − = 2 + 2− 2⊤後項の内積部分を考えると、iとjの積の総和となる= 11+ 22 + ⋯ = 2 + 2− 2よって変形して= ½ ( 2 + 2− ⅈ2 )これは個体間の距離を求めるということは、内積を求めることに等しいということを表現している内積から別座標yへの変換を考えるのが古典的手法であると先ほど説明した。
あ
個体ijの原点は、n個の重心であるとする新しい座標ベクトル y はⅈ2 = − 2= − − よってd^2 ij = -2aij= yi T yi + yj T yj – 2yi T yj=bii + bjj -2bij=aii + ajj – 2aij(距離の公理より)=-2aij
bij = aij – mean(ai+) - mean(a+j) + mean(a++)bij = (yi – y_bar)T(yj-y_bar)B = [bij]このとき、Bは固有値がすべて非負の半正定値行列であることがわかるB=ΓΛΓ ^T = (ΓΛ^1/2)(ΓΛ^1/2) = YY^TΛはBの固有値を対角として持つ行列である Λ = diag(λ1…λp)Γは固有ベクトルを列変形したもの Γi = λi ^(-1/2) xi
より詳細な計算方法データDからA=[-1/2 dij^2]を計算bij = aij – mean(ai+)… から B=[bij]を求めるBのうち、正の固有値 λ だけを削減次元 k個求める(寄与率を計算する場合にはすべて求める)固有ベクトル Y = (y1~yk)を求めるλi = yi T yi となるように固有ベクトルの「長さ」を調整する個体 pi の座標が yi1 ….yip へと変換される
2 4 52 3 64 3 75 6 7行平均mean(ai+)列平均mean(a+i)
2次元に落とすならば固有値λから2つの固有値を選び出す。同時に固有ベクトルも2つ得られるはず。固有ベクトルは長さ1に正規化されて出力されるものなので、固有値の大きさに調整するyk T yk = λk より、 yi = y’i √λi を計算する二次元のデータをplotにつかう。つまり、調整した一つ目の固有ベクトルをx座標調整した二つ目の固有ベクトルをy座標とする
心理学のような、非類似度データに対する分析stress(目的関数) を最小にするような個体の配置を求める = ⅆ− መ2ⅈ212※Σはj※j※d_hat は dijと近くなるような座標値から定められる値※分子は最小二乗法に等しいSが0になればよい推定量で、大きい(0.2)以上だと失敗とされている