主成分分析への応用 (x ij ,x ik )∈ ℝN⨉(M+K) をN次元ベクトル(ベクトル(M+K)本だとみなして本だとみなして低だとみなして低次元低次元ベクトル( に射影(主成分分射影(主成分分析は本来、2つのは本来、2つの行本だとみなして低来、2つの行列の統合つの行列の統合解析行列の統合解析を目の行列の統合解析統合解析は本来、2つのを目的としたとした 手法ではない)。では本来、2つの行ない)本だとみなして。 正準相関分析は本来、2つの 正準相関分析は本来、2つの 正準変量y li ,y’ li を用いた教師無し作るる変数選択法(1≦l≦min(M,K))。 y li とy’ li の一細胞 相関係数(正準相関係数)が最大になるよが最大になる変数選択法ように uc lj ,uc lk (正準変量係数)が最大になるよを用いた教師無し決める。める変数選択法。 (正準変量係数)が最大になるよを用いた教師無し決める。める変数選択法。 y li =∑j u lj c x ij y ' li =∑k u lk c x ik
ijk ≡x ij ⋅x ik ∈ℝN ×M×K x ijk =∑ l 1 ,l 2, l 3 G(l 1 ,l 2 ,l 3 )u l 1 i u l 2 j u l 3 k G(l 1 ,l 2 ,l 3 )∈ℝN×M×K u l 1 i ∈ℝN ×N ,u l 2 j ∈ℝM ×M ,u l 3 k ∈ℝK× K
ℝ13384×1907 に正準相関分析への応用を用いた教師無し適用いた教師無し学。 正準変量y li (遺伝子iに付与,1≦l≦1907) ヒトで: , マウス: uc lj ,uc lk は主成分分析より正準変量係数 正準変量係数。 uc lj ,uc lk の一細胞 うち、主成分分析の第時に定数を加える間の依存性がある変数選択法もの一細胞 を用いた教師無し探す。す。 y li =∑j u lj c x ij y ' li =∑k u lk c x ik
lt u lk c =a' l +∑t δtk b' lt a l ,a l ’,b l ,b l ’ :回帰係数、主成分分析の第δ tj ,δ tk : j,k番目の行列の統合解析細胞が時刻が時刻時刻tに射影(主成分分計測されてされて低次元 いれば1、そうでなければ0(一種のデルタ関数)の行列の統合解析デルタ関数)。関数)本だとみなして。 Rの行列の統合解析lm関数でP値を計算。を計算。Benjamini Hochberg基準で多重比較補 正。補正P値を計算。が時刻0.01以下のものを「有意の行列の統合解析もの行列の統合解析を「有意に時間依存有意に時間依存」とに射影(主成分分時間依存」と判定」と判定
li (遺伝子iに付与)は主成分分析より ヒトで: マウス: でダウンロード可計算しているわけででダウンロード可きる変数選択法が、主成分分析の第マウスとヒトででダウンロード可共通の一細胞 遺伝子発現プロファイル分解を用いた教 に相当する変数選択法正準変量y li が得られても、時間られても、主成分分析の第時に定数を加える間の依存性がないた教師無し学習にめ、主成分分析の第 「どの一細胞 ような生のデータに適用物学的な差になる。な意味がある遺伝子発がある変数選択法遺伝子発現プロファイル分解を用いた教な の一細胞 か?」という問わない)に答えられないのでえられないの一細胞 でダウンロード可「生のデータに適用物学の一細胞 解を用いた教師無析への応用」とし学習による変数ては主成分分析より 価値が非負にが薄くなってしまうくなってし学習による変数まう。 し学習による変数かし学習による変数、主成分分析の第「正準変量係数に時に定数を加える間の依存性がある変数選択法という条件付きでダウンロード可正 準相関係数を用いた教師無し最大化する時に定数を」は主成分分析より簡単でダウンロード可は主成分分析よりない(Benjamini Hochberg基 準で多重比較補正したP値を計算。が時刻0.01以下のものを「有意、という条件を式で書くを式で書くで書くく の行列の統合解析は本来、2つの行難しいしい)が最大になるよ。 y li =∑j u lj c x ij y li '=∑k u lk c x ik
× x ik ∈ ℝ13384×1977×1907 サイズが大きすぎてテンソル分解を用いた教分解を用いた教師無でダウンロード可きないの一細胞 でダウンロード可縮約 x jk :を用いた教師無し特異なったノイズ(値が非負に分解を用いた教師無し学習による変数て u lj :第lヒトで細胞特異なったノイズ(値が非負にベクトでル分解を用いた教(正準変量係数に相当) u lk :第lマウス細胞特異なったノイズ(値が非負にベクトでル分解を用いた教(正準変量係数に相当) を用いた教師無し得られても、時間る変数選択法。 i:遺伝子 j,k:細胞数 x jk =∑ i x ijk x jk =∑ l u lj λl u lk
lj =a l +∑ t b lt δjt u lk =a l '+∑ t b lt ' δkt δ jt ,δ kt :細胞j,kが時に定数を加える刻tなら1,そうじシグナルが含まゃなければ0 選択された教師無し学習に特異なったノイズ(値が非負にベクトでル分解を用いた教の一細胞 共通度 12 23 32 32 ヒトで マウス
u li (k)=∑ k u lk x ik 第lヒトで遺伝子特異なったノイズ(値が非負にベクトでル分解を用いた教 第lマウス遺伝子特異なったノイズ(値が非負にベクトでル分解を用いた教 u lj と u lk から u li (正準変量に相当)が最大になるよを用いた教師無し作るる変数選択法(*)が最大になるよ x ij =∑ l u li λl u lj x ik =∑ l u li ' λl ' u lk 意味がある遺伝子発:x ij とx ik を用いた教師無し個別に特異値分解すに特異なったノイズ(値が非負に分解を用いた教師無する変数選択法と もし学習による変数、主成分分析の第u li =u’ li なら ∑ i x ij x ik =∑ i ∑ l u li λl u lj ∑ l' u l' i λ' l' u l' k =∑ l ∑ l' λl u lj λ' l' u l' k ∑ i u li u l' i =∑ l ∑ l' λl u lj λ' l' u l' k δll' =∑ l λl λl ' u lj u lk なの一細胞 でダウンロード可、主成分分析の第(*)が最大になるよは主成分分析より定数倍を除いて正しいを用いた教師無し除いて共通信号だいて正し学習による変数いが、主成分分析の第一般的な差になる。には主成分分析より正し学習による変数くない
=P χ2 [ >∑ l∈Ωl ( u li σl ) 2 ] u(j) li とu(k) li が似ていれば、(*ていれば、主成分分析の第(*)が最大になるよは主成分分析より意味がある遺伝子発がある変数選択法。生のデータに適用物だとヒトでとマウ スでダウンロード可遺伝子が共通かどうかが問わない)題なのでなの一細胞 でダウンロード可u(j) li とu(k) li を用いた教師無し使えば『うまく』って「時に定数を加える 間の依存性がある変数選択法遺伝子」を用いた教師無し選んでダウンロード可どれくらい一致したかを見るし学習による変数た教師無し学習にかを用いた教師無し見える(線形演算る変数選択法 →u(j) li やu(k) li の一細胞 絶対値が非負にが大きいiを用いた教師無し選ぶ。 (時に定数を加える間の依存性の一細胞 ある変数選択法u lj と u lk への一細胞 射影が大きい遺伝子が大きい遺伝子)が最大になるよ
ij u li (k)=∑ k u lk x ik 第lヒトで遺伝子特異なったノイズ(値が非負にベクトでル分解を用いた教 第lマウス遺伝子特異なったノイズ(値が非負にベクトでル分解を用いた教 u lj と u lk から u li を用いた教師無し作るる変数選択法(*)が最大になるよ みた教師無し学習にいなことは主成分分析よりどれくらい「正し学習による変数い」の一細胞 か? [既知] Xがx ij の一細胞 行列、主成分分析の第X’がx ik の一細胞 行列だとする変数選択法と、主成分分析の第直交行列Q ∈ ℝN⨉N と上のデータに適用三角行列R ∈ ℝN⨉N を用いた教師無し使えば『うまく』って X = QRTΣVVT X’ =QR-1ΣV’V’T と書ける。但し、ける変数選択法。但し、し学習による変数、主成分分析の第ΣV,ΣV’は主成分分析より対角行列、主成分分析の第V ∈ ℝM⨉N ,V’ ∈ ℝK⨉Nは主成分分析より VTV=V’TV’=Iを用いた教師無し満たすことは難した教師無し学習にす。