Upgrade to Pro — share decks privately, control downloads, hide ads and more …

テンソル分解を用いた教師無し学習による変数選択法の一細胞 RNA-seq解析への応用

Y-h. Taguchi
January 09, 2020

テンソル分解を用いた教師無し学習による変数選択法の一細胞 RNA-seq解析への応用

情報論的学習理論と機械学習研究会(IBISML)
2020年 1月 9日(木) 16:45-17:10
於)統計数理研究所
https://www.ieice.org/ken/paper/20200109f1u1/

Y-h. Taguchi

January 09, 2020
Tweet

More Decks by Y-h. Taguchi

Other Decks in Science

Transcript

  1. 3 主成分分析への応用vs正準相関分析への応用 行列x ij ∈ ℝN⨉Mとx ik ∈ ℝN⨉Kがある変数選択法。 主成分分析への応用

    主成分分析への応用 (x ij ,x ik )∈ ℝN⨉(M+K) をN次元ベクトル(ベクトル(M+K)本だとみなして本だとみなして低だとみなして低次元低次元ベクトル( に射影(主成分分射影(主成分分析は本来、2つのは本来、2つの行本だとみなして低来、2つの行列の統合つの行列の統合解析行列の統合解析を目の行列の統合解析統合解析は本来、2つのを目的としたとした 手法ではない)。では本来、2つの行ない)本だとみなして。 正準相関分析は本来、2つの 正準相関分析は本来、2つの 正準変量y li ,y’ li を用いた教師無し作るる変数選択法(1≦l≦min(M,K))。 y li とy’ li の一細胞 相関係数(正準相関係数)が最大になるよが最大になる変数選択法ように uc lj ,uc lk (正準変量係数)が最大になるよを用いた教師無し決める。める変数選択法。 (正準変量係数)が最大になるよを用いた教師無し決める。める変数選択法。 y li =∑j u lj c x ij y ' li =∑k u lk c x ik
  2. 4 正準相関分析への応用は主成分分析より主成分分析への応用より優れている?優れている?れている変数選択法? 赤穂昭太郎, 正準相関分析への応用入門 日の講演内容につ本神経回路学会誌 Vol. 20, No. 2(2013),62–72 「主成分分析への応用

    主成分分析への応用でダウンロード可は主成分分析より『観測信号観測信号=信号(u(t))が最大になるよ+ノイズ(s 1 (t) , s 2 (t))が最大になるよ』と 考ええ, 信号を用いた教師無し取り出すときにり優れている?出しました。すときに, 「信号=パワーの一細胞 大きい成分,ノイズ= パワーの一細胞 小さい成分」といさい成分」という仮説のもとの一細胞 もと,パワーの一細胞 大きい成分を用いた教師無し取り出すときに り優れている?出しました。す.た教師無し学習にだし学習による変数,それを用いた教師無し上のデータに適用の一細胞 データに適用してしまに適用いた教師無し学し学習による変数てし学習による変数まうと, s 1 (t) や s 2 (t) が 抽出しました。され,埋もれている もれている変数選択法 u(t) の一細胞 成分は主成分分析より抽出しました。されない. 一方,正準相関分析への応用 正準相関分析への応用でダウンロード可は主成分分析より『観測信号観測信号=独自信号+共通信号+ノイ ズ』の一細胞 ように考ええ,独自信号を用いた教師無し除いて共通信号だいて共通信号だけを用いた教師無し抽出しました。し学習による変数ようと する変数選択法た教師無し学習にめ,うまく u(t) が抽出しました。された教師無し学習にというわけでダウンロード可ある変数選択法.」 正準相関分析への応用 > 主成分分析への応用?
  3. 8 テンソル分解を用いた教分解を用いた教師無でダウンロード可正準相関分析への応用っぽいことを用いた教師無しする変数選択法には主成分分析より? x ij ∈ℝN ×M ,x ik ∈ℝN×K x

    ijk ≡x ij ⋅x ik ∈ℝN ×M×K x ijk =∑ l 1 ,l 2, l 3 G(l 1 ,l 2 ,l 3 )u l 1 i u l 2 j u l 3 k G(l 1 ,l 2 ,l 3 )∈ℝN×M×K u l 1 i ∈ℝN ×N ,u l 2 j ∈ℝM ×M ,u l 3 k ∈ℝK× K
  4. 9 赤穂先生のデータに適用の一細胞 データに適用してしまに適用いた教師無し学(テンソル分解を用いた教分解を用いた教師無は主成分分析より最低値が非負にが非負にに 最低値が非負にが非負にに なる変数選択法ように底上のデータに適用げ後後 なる変数選択法ように底上のデータに適用げ後後、主成分分析の第HOSVDを用いた教師無し採用いた教師無し学)が最大になるよ。 Gの一細胞 絶対値が非負に最大=G(1,1,1) u 1i

    u 1j =u 1k 同じシグナルが含じシグナルが含まシグナル分解を用いた教が含まれているのでまれている変数選択法の一細胞 でダウンロード可「和」になるので同」になる変数選択法の一細胞 でダウンロード可同じシグナルが含じシグナルが含ま値が非負に 正準相関解を用いた教師無析への応用の一細胞 正準変量係数に相当
  5. 10 なんでダウンロード可「成分の一細胞 積を取ってからテを用いた教師無し取り出すときにってからテンソル分解を用いた教分解を用いた教師無する変数選択法と信号が第一 主成分になる変数選択法の一細胞 か?」 多分、主成分分析の第でダウンロード可すが.....。 「異なったノイズ(なった教師無し学習にノイズ(平均ゼロ)の積(ゼロ)が最大になるよの一細胞 積を取ってからテ(s 1 (t)×s

    2 (t))が最大になるよの一細胞 平均ゼロ)の積(」=ゼロゼロ 「信号(平均ゼロ)の積(ゼロ)が最大になるよの一細胞 積を取ってからテ(u(t)2)が最大になるよの一細胞 平均ゼロ)の積(」≠ゼロゼロ テンソル分解を用いた教分解を用いた教師無(行列の一細胞 場合の特異値分解にの一細胞 特異なったノイズ(値が非負に分解を用いた教師無に相当)が最大になるよは主成分分析より(平均ゼロ)の積(から の一細胞 変位を扱う)相関係を用いた教師無し扱う)相関係数をう)が最大になるよ相関係数を用いた教師無し計算しているわけでし学習による変数ている変数選択法わけでダウンロード可は主成分分析よりなく、主成分分析の第「値が非負にの一細胞 二 乗」で重みが決ま」でダウンロード可重みが決まるのでみが決める。まる変数選択法の一細胞 でダウンロード可、主成分分析の第「二乗」で重みが決まの一細胞 平均ゼロ)の積(がゼロかどうか」は主成分分析より本質 的な差になる。な差になる。になる変数選択法。
  6. 15 現実のデータの解析の一細胞 データに適用してしまの一細胞 解を用いた教師無析への応用 個々の細胞(〜数千の一細胞 細胞(〜数千個)が最大になるよの一細胞 遺伝子(〜数 万個)が最大になるよの一細胞 発現量(実のデータの解析数値が非負に>0)が最大になるよを用いた教師無し胎児のの一細胞 中脳領域で複数の発生段でダウンロード可複数の一細胞

    発生のデータに適用段階(→時に定数を加える刻)が最大になるよ でダウンロード可ヒトでとマウスでダウンロード可計測し学習による変数た教師無し学習にデータに適用してしまがある変数選択法。 変数:遺伝子の一細胞 発現量(実のデータの解析数値が非負に>0)が最大になるよ サンプル分解を用いた教:個々の細胞(〜数千の一細胞 細胞 ラベル分解を用いた教:計測時に定数を加える刻
  7. 16 ヒトで x ij ∈ℝ19531×1977 x ik ∈ℝ24378×1907 マウス データに適用してしまセットで GSE76381

    一細胞RNA-seq ヒトでとマウスの一細胞 中脳の一細胞 発生のデータに適用過程 i:遺伝子 j,k:細胞数 観測の一細胞 タに適用してしまイムポイントでと各々の細胞(〜数千の一細胞 細胞数は主成分分析より ヒトでが、主成分分析の第6週目な例(同じく、:287細胞、主成分分析の第7週目な例(同じく、:131細胞、主成分分析の第8週目な例(同じく、:331細胞、主成分分析の第9週目な例(同じく、: 322細胞、主成分分析の第10週目な例(同じく、:509細胞、主成分分析の第11週目な例(同じく、:397細胞、主成分分析の第の一細胞 計1977細胞、主成分分析の第 マウスが、主成分分析の第E11.5:349細胞、主成分分析の第E12.5:350細胞、主成分分析の第E13.5:345細胞、主成分分析の第E14.5: 308細胞、主成分分析の第E15.5:356細胞、主成分分析の第E18.5:142細胞、主成分分析の第不明:57細胞、主成分分析の第の一細胞 計1907 細胞。
  8. 18 正準相関分析への応用 正準相関分析への応用 共通遺伝子に限定し学習による変数た教師無し学習にx ij ∈ ℝ13384×1977 とx ik ∈

    ℝ13384×1907 に正準相関分析への応用を用いた教師無し適用いた教師無し学。 正準変量y li (遺伝子iに付与,1≦l≦1907) ヒトで: , マウス: uc lj ,uc lk は主成分分析より正準変量係数 正準変量係数。 uc lj ,uc lk の一細胞 うち、主成分分析の第時に定数を加える間の依存性がある変数選択法もの一細胞 を用いた教師無し探す。す。 y li =∑j u lj c x ij y ' li =∑k u lk c x ik
  9. 19 方法:カテゴリカル分解を用いた教回帰(ANOVAと等価)が最大になるよ u lj c =a l +∑t δtj b

    lt u lk c =a' l +∑t δtk b' lt a l ,a l ’,b l ,b l ’ :回帰係数、主成分分析の第δ tj ,δ tk : j,k番目の行列の統合解析細胞が時刻が時刻時刻tに射影(主成分分計測されてされて低次元 いれば1、そうでなければ0(一種のデルタ関数)の行列の統合解析デルタ関数)。関数)本だとみなして。 Rの行列の統合解析lm関数でP値を計算。を計算。Benjamini Hochberg基準で多重比較補 正。補正P値を計算。が時刻0.01以下のものを「有意の行列の統合解析もの行列の統合解析を「有意に時間依存有意に時間依存」とに射影(主成分分時間依存」と判定」と判定
  10. 20 結果: t依存性の一細胞 ある変数選択法正準変量係数uc lj は主成分分析より皆無し学習による変 皆無し学習による変だった教師無し学習に。 → 今回の一細胞 場合の特異値分解に、主成分分析の第正準変量y

    li (遺伝子iに付与)は主成分分析より ヒトで: マウス: でダウンロード可計算しているわけででダウンロード可きる変数選択法が、主成分分析の第マウスとヒトででダウンロード可共通の一細胞 遺伝子発現プロファイル分解を用いた教 に相当する変数選択法正準変量y li が得られても、時間られても、主成分分析の第時に定数を加える間の依存性がないた教師無し学習にめ、主成分分析の第 「どの一細胞 ような生のデータに適用物学的な差になる。な意味がある遺伝子発がある変数選択法遺伝子発現プロファイル分解を用いた教な の一細胞 か?」という問わない)に答えられないのでえられないの一細胞 でダウンロード可「生のデータに適用物学の一細胞 解を用いた教師無析への応用」とし学習による変数ては主成分分析より 価値が非負にが薄くなってしまうくなってし学習による変数まう。 し学習による変数かし学習による変数、主成分分析の第「正準変量係数に時に定数を加える間の依存性がある変数選択法という条件付きでダウンロード可正 準相関係数を用いた教師無し最大化する時に定数を」は主成分分析より簡単でダウンロード可は主成分分析よりない(Benjamini Hochberg基 準で多重比較補正したP値を計算。が時刻0.01以下のものを「有意、という条件を式で書くを式で書くで書くく の行列の統合解析は本来、2つの行難しいしい)が最大になるよ。 y li =∑j u lj c x ij y li '=∑k u lk c x ik
  11. 21 テンソル分解を用いた教分解を用いた教師無を用いた教師無し使えば『うまく』う テンソル分解を用いた教分解を用いた教師無を用いた教師無し使えば『うまく』う 行列の一細胞 要素をを用いた教師無し掛け算するのでけてテンソル分解を用いた教を用いた教師無し作るる変数選択法。 x ijk = x ij

    × x ik ∈ ℝ13384×1977×1907 サイズが大きすぎてテンソル分解を用いた教分解を用いた教師無でダウンロード可きないの一細胞 でダウンロード可縮約 x jk :を用いた教師無し特異なったノイズ(値が非負に分解を用いた教師無し学習による変数て u lj :第lヒトで細胞特異なったノイズ(値が非負にベクトでル分解を用いた教(正準変量係数に相当) u lk :第lマウス細胞特異なったノイズ(値が非負にベクトでル分解を用いた教(正準変量係数に相当) を用いた教師無し得られても、時間る変数選択法。 i:遺伝子 j,k:細胞数 x jk =∑ i x ijk x jk =∑ l u lj λl u lk
  12. 22 何らかの時間依存らかの一細胞 時に定数を加える間の依存性がある変数選択法 u lj と u lk を用いた教師無しカテゴリ回帰(ANOVA)が最大になるよでダウンロード可選択。 u

    lj =a l +∑ t b lt δjt u lk =a l '+∑ t b lt ' δkt δ jt ,δ kt :細胞j,kが時に定数を加える刻tなら1,そうじシグナルが含まゃなければ0 選択された教師無し学習に特異なったノイズ(値が非負にベクトでル分解を用いた教の一細胞 共通度 12 23 32 32 ヒトで マウス
  13. 23 u li ( j)=∑ j u lj x ij

    u li (k)=∑ k u lk x ik 第lヒトで遺伝子特異なったノイズ(値が非負にベクトでル分解を用いた教 第lマウス遺伝子特異なったノイズ(値が非負にベクトでル分解を用いた教 u lj と u lk から u li (正準変量に相当)が最大になるよを用いた教師無し作るる変数選択法(*)が最大になるよ x ij =∑ l u li λl u lj x ik =∑ l u li ' λl ' u lk 意味がある遺伝子発:x ij とx ik を用いた教師無し個別に特異値分解すに特異なったノイズ(値が非負に分解を用いた教師無する変数選択法と もし学習による変数、主成分分析の第u li =u’ li なら ∑ i x ij x ik =∑ i ∑ l u li λl u lj ∑ l' u l' i λ' l' u l' k =∑ l ∑ l' λl u lj λ' l' u l' k ∑ i u li u l' i =∑ l ∑ l' λl u lj λ' l' u l' k δll' =∑ l λl λl ' u lj u lk なの一細胞 でダウンロード可、主成分分析の第(*)が最大になるよは主成分分析より定数倍を除いて正しいを用いた教師無し除いて共通信号だいて正し学習による変数いが、主成分分析の第一般的な差になる。には主成分分析より正し学習による変数くない
  14. 24 u(j) li とu(k) li にχ2分布を仮定を用いた教師無し仮定(帰無し学習による変仮説のもと)し学習による変数て遺伝子にP値が非負にを用いた教師無し付 与、主成分分析の第BH基準でダウンロード可多重みが決まるので比較補正し学習による変数て0.01以下の一細胞 遺伝子を用いた教師無し選択 P i

    =P χ2 [ >∑ l∈Ωl ( u li σl ) 2 ] u(j) li とu(k) li が似ていれば、(*ていれば、主成分分析の第(*)が最大になるよは主成分分析より意味がある遺伝子発がある変数選択法。生のデータに適用物だとヒトでとマウ スでダウンロード可遺伝子が共通かどうかが問わない)題なのでなの一細胞 でダウンロード可u(j) li とu(k) li を用いた教師無し使えば『うまく』って「時に定数を加える 間の依存性がある変数選択法遺伝子」を用いた教師無し選んでダウンロード可どれくらい一致したかを見るし学習による変数た教師無し学習にかを用いた教師無し見える(線形演算る変数選択法 →u(j) li やu(k) li の一細胞 絶対値が非負にが大きいiを用いた教師無し選ぶ。 (時に定数を加える間の依存性の一細胞 ある変数選択法u lj と u lk への一細胞 射影が大きい遺伝子が大きい遺伝子)が最大になるよ
  15. 25 151 200 305 305 ヒトで マウス 選択遺伝子 13384個の一細胞 遺伝子からの一細胞

    選択でダウンロード可あ る変数選択法ことを用いた教師無し考え慮するとよく一致する変数選択法とよく一致したかを見るし学習による変数ていた教師無し学習に 結論: 正準相関分析への応用でダウンロード可は主成分分析より「時に定数を加える間の依存性(正準変量係数に時に定数を加える間の依存 性がある変数選択法)が最大になるよがあり優れている?、主成分分析の第かつ、主成分分析の第共通(正準変量間のに有意の一細胞 相関があ る変数選択法)が最大になるよの一細胞 遺伝子発現プロファイル分解を用いた教を用いた教師無し持ってほしい」みってほし学習による変数い」みた教師無し学習にいな二重みが決まるので の一細胞 要求を満たすことはを用いた教師無し満たすことは難した教師無し学習にすことは主成分分析より難しかったが、こし学習による変数かった教師無し学習にが、主成分分析の第こういうこと(僕はこれはは主成分分析よりこれは主成分分析より テンソル分解を用いた教分解を用いた教師無の一細胞 近の自分の研究を似ていれば、(*だと思っていますが)っていますが)が最大になるよを用いた教師無しする変数選択法と計算しているわけででダウンロード可きる変数選択法。
  16. 26 おまけ u li ( j)=∑ j u lj x

    ij u li (k)=∑ k u lk x ik 第lヒトで遺伝子特異なったノイズ(値が非負にベクトでル分解を用いた教 第lマウス遺伝子特異なったノイズ(値が非負にベクトでル分解を用いた教 u lj と u lk から u li を用いた教師無し作るる変数選択法(*)が最大になるよ みた教師無し学習にいなことは主成分分析よりどれくらい「正し学習による変数い」の一細胞 か? [既知] Xがx ij の一細胞 行列、主成分分析の第X’がx ik の一細胞 行列だとする変数選択法と、主成分分析の第直交行列Q ∈ ℝN⨉N と上のデータに適用三角行列R ∈ ℝN⨉N を用いた教師無し使えば『うまく』って X = QRTΣVVT X’ =QR-1ΣV’V’T と書ける。但し、ける変数選択法。但し、し学習による変数、主成分分析の第ΣV,ΣV’は主成分分析より対角行列、主成分分析の第V ∈ ℝM⨉N ,V’ ∈ ℝK⨉Nは主成分分析より VTV=V’TV’=Iを用いた教師無し満たすことは難した教師無し学習にす。
  17. 27 XTX’= VΣVΣV’ V’T と書ける。但し、ける変数選択法の一細胞 でダウンロード可、主成分分析の第V,V’は主成分分析よりXTX’の一細胞 特異なったノイズ(値が非負に分解を用いた教師無になっている変数選択法。 XV = QRTΣV

    X’ V’=QR-1ΣV’ なの一細胞 でダウンロード可、主成分分析の第(*)が最大になるよは主成分分析よりRが対角行列なら同じシグナルが含じシグナルが含まu li を用いた教師無しあた教師無し学習にえる変数選択法。(*)が最大になるよは主成分分析より「R の一細胞 非対角成分を用いた教師無し無し学習による変視」した近似。」し学習による変数た教師無し学習に近の自分の研究を似ていれば、(*。
  18. 28 疑問わない) XTX’の一細胞 特異なったノイズ(値が非負に分解を用いた教師無と正準相関分析への応用は主成分分析よりそんなに違うので時間のうことを用いた教師無し し学習による変数ている変数選択法わけでダウンロード可は主成分分析よりない(XTX’の一細胞 特異なったノイズ(値が非負に分解を用いた教師無は主成分分析よりV,VT(正準 変量係数に相当)が最大になるよの一細胞 直交性を用いた教師無し要請している一方、し学習による変数ている変数選択法一方、主成分分析の第正準相 関分析への応用は主成分分析よりXV,XVT(正準変量に相当)が最大になるよの一細胞 直交性を用いた教師無し要請している一方、する変数選択法

    と共にX,X’が列規格化する時に定数を(列ベクトでル分解を用いた教が平均ゼロ)の積(0、主成分分析の第分散1に規 格化する時に定数をされている変数選択法)が最大になるよされている変数選択法だけでダウンロード可ほぼ同じ)。同じシグナルが含じシグナルが含ま)が最大になるよ。 なぜ、主成分分析の第ここまでダウンロード可結果が違うので時間のうの一細胞 か?(正準相関分析への応用でダウンロード可求を満たすことはまっ た教師無し学習に正準変量係数には主成分分析より時に定数を加える間の依存性がまった教師無し学習にくなかった教師無し学習にが、主成分分析の第 XTX’の一細胞 特異なったノイズ(値が非負に分解を用いた教師無でダウンロード可求を満たすことはまった教師無し学習に特異なったノイズ(値が非負にベクトでル分解を用いた教には主成分分析より時に定数を加える間の依 存性がある変数選択法もの一細胞 が非常に多数含まれてに多数含まれているのでまれていた教師無し学習に)が最大になるよ。
  19. 29 まとめ 2つの一細胞 行列の一細胞 統合の特異値分解に解を用いた教師無析への応用に使えば『うまく』われる変数選択法正準相関分析への応用は主成分分析より主成分分 析への応用より優れている?高性能という説のもともあった教師無し学習にが、主成分分析の第低位を扱う)相関係の一細胞 主成分までダウンロード可見える(線形演算れば 同じシグナルが含じシグナルが含までダウンロード可ある変数選択法ことを用いた教師無し指摘した。また、正し学習による変数た教師無し学習に。また教師無し学習に、主成分分析の第正準相関分析への応用の一細胞 代わりに行わり優れている?に行 列の一細胞

    成分の一細胞 積を取ってからテの一細胞 テンソル分解を用いた教分解を用いた教師無を用いた教師無し行えば、主成分分析の第低位を扱う)相関係だった教師無し学習に主成分が 第一主成分になる変数選択法ようにでダウンロード可きる変数選択法ことを用いた教師無し示した。し学習による変数た教師無し学習に。 現実のデータの解析の一細胞 データに適用してしまにこの一細胞 方法を用いた教師無し応用いた教師無し学する変数選択法には主成分分析より必要メモリーが大き すぎる変数選択法た教師無し学習にめ、主成分分析の第行列の一細胞 積を取ってからテの一細胞 特異なったノイズ(値が非負に分解を用いた教師無でダウンロード可代わりに行替したところ、目し学習による変数た教師無し学習にところ、主成分分析の第目な例(同じく、的な差になる。を用いた教師無し 満たすことは難した教師無し学習にす解を用いた教師無析への応用(ヒトでとマウスでダウンロード可共通の一細胞 、主成分分析の第時に定数を加える間のに有意に依存し学習による変数た教師無し学習に、主成分分析の第 遺伝子発現プロファイル分解を用いた教を用いた教師無しが欲しい)が可能なし学習による変数い)が最大になるよが可能なことを用いた教師無しし学習による変数めし学習による変数 た教師無し学習に。この一細胞 結果は主成分分析より正準相関分析への応用でダウンロード可は主成分分析より得られても、時間られなかった教師無し学習に。 行列の一細胞 積を取ってからテの一細胞 特異なったノイズ(値が非負に分解を用いた教師無と、主成分分析の第正準相関分析への応用は主成分分析より非常に多数含まれてに似ていれば、(*た教師無し学習にこと を用いた教師無しし学習による変数ている変数選択法の一細胞 にここまでダウンロード可劇的な差になる。に違うので時間のう結果が出しました。る変数選択法理由は不明は主成分分析より不明 だった教師無し学習に。