サンプル間に対応も共通のラベルもない遺伝子発現プロファイルの統合解析

第三回新学術代謝統合オミクス解析オミクス解析セミナー解析セミナーセミナーI 公募研究第２期 A02:トランスオミクス解析セミナー技術開発テンソル分解を用いた教分解を用いた教師無し用いた教師無し学いた教師無し学習に教師無し学習による変し学習による変数学習による変数選択による変数選択法を用変数選択法を用いたトラを用いた教師無し用いた教師無し学いた教師無し学習にトランスオミクス解析セミナー中央大学　理工学部　田口善弘

今日説明したいこと（し学習による変数た教師無し学習にいこと（未発表未発表）：サンプル分解を用いた教間に対応も共通のに対応も共通のラベルも共通のラベルも共通のラベルもないのラベルもない遺ラベル分解を用いた教も共通のラベルもない遺伝子発現プロファイプロファイル分解を用いた教のラベルもない遺統合オミクス解析解析セミナー健常者患者遺伝子(N) M 1
WT KO M 2

用いた教師無し学途：・ある変数選択法を用疾患のラベルもない遺原因遺伝子を用いた教師無しKO（OE）し学習による変数た教師無し学習に時、疾患のラベルもない遺発生によってによって起きる遺伝子発現きる変数選択法を用遺伝子発現プロファイプロファイル分解を用いた教のラベルもない遺変化とどれくらい似とどれくらい似ているか？ている変数選択法を用か？・２つ以上の以上ののラベルもない遺scRNA-seqを用いた教師無し統合オミクス解析解析セミナーし学習による変数た教師無し学習にい（scRNA-seqには細細胞にラベルがついにラベル分解を用いた教がつ以上のいていない）・異なった種の発生なった教師無し学習に種の発生過程を比のラベルもない遺発生によって過程を比較したい（を用いた教師無し比較したい（例えばし学習による変数た教師無し学習にい（例えば、ヒトとマえば、ヒトとマウスだと発生によってのラベルもない遺速度が違うので時間が違うので時間の対うのラベルもない遺で時間の対応が付時間に対応も共通ののラベルもない遺対応も共通のラベルが付けにくい）けにくい）

方法を用いたトラ：特異なった種の発生値分解（SVD）し学習による変数て低次元に落としてからに落としてから束ねとし学習による変数てから束ねてテンソルにねてテンソル分解を用いた教にし学習による変数てテンソル分解を用いた教分解し学習による変数、求まった特異値ベまった教師無し学習に特異なった種の発生値ベクトル分解を用いた教を用いた教師無し元に落としてからのラベルもない遺空間に対応も共通のに射影し直すし学習による変数直すす N(遺伝子） M 1 サンプル分解を用いた教 × N L
N(遺伝子） M 2 サンプル分解を用いた教 × N L N L K x ilk ×× N L L M 1 SVD × × N L L M 2 SVD

x ilk G u l1i u l2l u l3k L1
L2 L3 HOSVD K L N M 1 L2 L M 1 L M 2 M 2 L2 健常者患者 vs WT KO vs L L2 × L L2 u l2l ×

結論遺伝子は細一致しているがサンし学習による変数ている変数選択法を用がサンプル分解を用いた教間に対応も共通のになんのラベルもない遺対応も共通のラベル関係も無い場合、も共通のラベルも無し学習による変い場合オミクス解析、 SVDやHOVSDで時間の対応が付サンプル分解を用いた教のラベルもない遺次元に落としてからを用いた教師無し同じ次元の低次元じ次元の低次元に次元に落としてからのラベルもない遺低次元に落としてからに射影し直すし学習による変数てから束ねてテンソルにねてテンソル分解を用いた教を用いた教師無し作ればうまく行くればうまく行くことが解ったくことが解った教師無し学習に。束ねてテンソルにねた教師無し学習にテンソル分解を用いた教を用いた教師無し分解し学習による変数て得られた特異値ベられた教師無し学習に特異なった種の発生値ベクトル分解を用いた教を用いた教師無し元に落としてからのラベルもない遺サンプル分解を用いた教のラベルもない遺次元に落としてからに射影し直すし学習による変数直すすと、（元に落としてから々無し学習による変かった教師無し学習には細ずのラベルもない遺）サンプル分解を用いた教間に対応も共通ののラベルもない遺対応も共通のラベル関係も無い場合、を用いた教師無し視覚化とどれくらい似出来ることが解ったる変数選択法を用ことが解った教師無し学習に。 scRNA-seqに用いた教師無し学いれば〜104個ののラベルもない遺single cellのラベルもない遺問題をわずか１０次を用いた教師無しわずか１０次次
元に落としてからのラベルもない遺問題をわずか１０次とし学習による変数て扱えるので千分のえる変数選択法を用のラベルもない遺で時間の対応が付千分のラベルもない遺１のラベルもない遺メモリーのラベルもない遺節約になることがになる変数選択法を用ことが解った教師無し学習に（よくVAEなど次元に落としてからを用いた教師無し下げているのをみげている変数選択法を用のラベルもない遺を用いた教師無しみかける変数選択法を用があれは細single cellのラベルもない遺数は細保持して遺伝子の方し学習による変数て遺伝子のラベルもない遺方のラベルもない遺次元に落としてからを用いた教師無し下げているのをみげている変数選択法を用のラベルもない遺で時間の対応が付あり、single cellのラベルもない遺方のラベルもない遺数のラベルもない遺次元に落としてからを用いた教師無し下げているのをみげる変数選択法を用本研究とは細本質的に異なる）に異なった種の発生なる変数選択法を用）

実験データデータ実験データデータ: :Alzheimer Diseases Alzheimer Diseases Data Set 1(GSE160224) 58303
genes vs 9 samples iPSC-derived neurons: 3 Control, 3 APP duplication, 3 gene corr. Classification: 3 Control vs 6 AD (2 classes) Data Set 2(GSE155567) 60617 genes vs 23 samples CD33 KO/WT vs PTPN6 KD/WT: 4 classes 6 WT/WT, 6 WT/KD, 5 KO/WT, 6 KO/KD Data Set 3(GSE162873) 47749 genes vs 8 samples Cell lines: 2 AD1, 2 AD2, 4 Controls (3 classes) Data Set 2のラベルもない遺60617 genesに統一。値のラベルもない遺無し学習による変い所はゼロを埋めるは細ゼロを用いた教師無し埋める。める変数選択法を用。 Sampleごとに平均ゼロ、分散１にゼロ、分散１に規格化とどれくらい似し学習による変数てから統合オミクス解析解析セミナー。L=8 L=8。

Data set 1 Data set 2 Data set 2 Data
set 3 Data set 1 C N T L AD Data set 3 AD1AD2 C N T L Data set 2 WT WT WT KD KO WT KO KD CD33 PTPN6

遺伝子 Data set ∑ l 2 =1 3
G (l 1 l 2 l 3 )2 遺伝子選択

P i =P χ2 [>∑l 1 =1 5 (u l
1 i σl 1 )2] BH多重比較したい（例えば補正 Adjusted P i <0.01 → 565遺伝子 u l 1 i 　　が多重ガウス分布すると仮定（帰する変数選択法を用と仮定（帰無し学習による変仮説）棄却確率はカイ二乗分布は細カイ二乗分布すると仮定（帰で時間の対応が付遺伝子に付けにくい）与

エンリッチメント解析セミナー

Drug repositioning Drug repositioning Data set 1,2,3 + Data set
4 （疾患：AD）　　（投薬） Data set 4: ( GSE164788) 94×4×3 sample, 28044 genes. 80種の発生過程を比類の低分子化合物のラベルもない遺低分子化とどれくらい似合オミクス解析物を２〜４を用いた教師無し２〜４dose densityで時間の対応が付作ればうまく行く用いた教師無し学させた教師無し学習に時のラベルもない遺遺伝子発現プロファイプロファイル分解を用いた教（神経細胞にラベルがついとグリアの混合培養細胞のラベルもない遺混合オミクス解析培養細胞にラベルがつい）。Biological replicateは細３。複数のラベルもない遺化とどれくらい似合オミクス解析物を２〜４のラベルもない遺混合オミクス解析投与も共通のラベルも行くことが解ったった教師無し学習にのラベルもない遺で時間の対応が付94×4×3 sample. 単独でで時間の対応が付HOSVD. 94 化とどれくらい似合オミクス解析物を２〜４：4 4特異なった種の発生値ベクトル分解を用いた教(from 12特異なった種の発生値ベクトル分解を用いた教） 4 dose density：2 2特異なった種の発生値ベクトル分解を用いた教(from 4特異なった種の発生値ベクトル分解を用いた教） 3 biological replicate:1 1特異なった種の発生値ベクトル分解を用いた教解析セミナー（from 3特異なった種の発生値ベクトル分解を用いた教） L L=4×2×1=8 =4×2×1=8

Data set 1 C N T L AD Data set
1 Data set 2 WT WT WT KD KO WT KO KD Data set 2 Data set 2 CD33 PTPN6 Data set 3 AD1AD2 C N T L Data set 3

遺伝子 Data set ∑ l 2 =1 4
G (l 1 l 2 l 3 )2 遺伝子選択

P i =P χ2 [>∑l 1 =1 5 (u l

化とどれくらい似合オミクス解析物を２〜４選択 L=8 8 L 2 4 4 94 化とどれくらい似合オミクス
解析物を２〜４ × 2 2 4 dose × u l2l SVD 94 4 4 4 化とどれくらい似合オミクス解析物を２〜４ dose 3×94×4×L 2 テンソル分解を用いた教 1×94×4×1 行くことが解った列 3 1 1 Biological replicate ×

94 化とどれくらい似合オミクス解析物を２〜４ ~ l

転移学習による変数選択転移学習による変数選択 Data set 1,2,3 + Data set 5 （疾患：AD）
解析セミナー解析セミナー（ABCC1 OE） Data set 5 ( GSE164642)18 samples, 58003 genes 3 CNTL vs 3 RNA1 3 CNTL vs 3 RNA2 → 6 classes. 3 CNTL vs 3 RNA3 3 (RNA) × 2 (CNTL vs RNA) × 3 (biological replicates) テンソル分解を用いた教単独でで時間の対応が付HOSVD. 3 RNA：2 2特異なった種の発生値ベクトル分解を用いた教(from 3特異なった種の発生値ベクトル分解を用いた教） 2 CNTL vs RNA：2 2特異なった種の発生値ベクトル分解を用いた教(from 2特異なった種の発生値ベクトル分解を用いた教） 3 biological replicate:2 2特異なった種の発生値ベクトル分解を用いた教解析セミナー（from 3特異なった種の発生値ベクトル分解を用いた教） L L=2×2×2=8 =2×2×2=8

Data set 1 C N T L AD Data set
1 Data set 3 AD1AD2 C N T L Data set 3 Data set 5 C N T L R N A 1 C N T L R N A 2 R N A 3 C N T L Data set 5 Data set 2 WT WT WT KD KO KD Data set 2 Data set 2 KO WT CD33 PTPN6

遺伝子 Data set ∑l 2 ∈[1,3,4,5] G(l 1
l 2 l 3 )2 遺伝子選択

P i =P χ2 [>∑l 1 =1 5 (u l

既存手法を用いたトラと比較したい（例えば既存手法を用いたトラと比較したい（例えば N×M 1 N×M 2 N×M 3 共通のラベルもない行くことが解った列分解 ①CMF,
GFA ②GFA ③行くことが解った列を用いた教師無し結合オミクス解析し学習による変数て全体ににSVD ＝ × × ＝＝ × N M 1 M 2 M 3 × N×(M 1 +M 2 +M 3 ) N M 1 +M 2 +M 3

① ② ③

P i =P χ2 [> (u 1i σ1 )2] BH多重比較したい（例えば補正
Adjusted P i <0.01 → 147遺伝子 u 1i 　　がガウス分布すると仮定（帰する変数選択法を用と仮定（帰無し学習による変仮説）棄却確率はカイ二乗分布は細カイ二乗分布すると仮定（帰で時間の対応が付遺伝子に付けにくい）与遺伝子選択

scRNA-seq scRNA-seqへのラベルもない遺応も共通のラベル用いた教師無し学へのラベルもない遺応も共通のラベル用いた教師無し学 Data set 6 (GSE163577), 25 profiles, 33538
genes Each profile: ~104 cells, (海馬vs皮質)×（AD vs CNTL)：4 解析セミナーclasses 各プロファイルにプロファイル分解を用いた教にSVDを用いた教師無し作ればうまく行く用いた教師無し学させて（L=）１０次次元に落としてからに射影し直すし学習による変数、 33538遺伝子×１０次特異なった種の発生値ベクトル分解を用いた教のラベルもない遺行くことが解った列に変換。これを用いた教師無し２５個束ねて個の束ねてテンソルにねて 33538遺伝子×１０次特異なった種の発生値ベクトル分解を用いた教×２５個束ねてプロファイル分解を用いた教のラベルもない遺テンソル分解を用いた教に変換し学習による変数てHOSVD。

25個ののラベルもない遺プロファイル分解を用いた教に付けにくい）与された教師無し学習に特異なった種の発生値ベクトル分解を用いた教を用いた教師無し見ると６番目だる変数選択法を用と６番目だ番目だだけが有意に４群に別れてに４群に別れているに別れているれている変数選択法を用 ∑ l 2 =1 10 G (l
1 l 2 6)2 A D 海馬 A D 皮質 C N T L 海馬 C N T L 皮質 u l3k l 3 =6

P i =P χ2 [> (u 6i σ6 )2] BH多重比較したい（例えば補正
Adjusted P i <0.01 → 177遺伝子 u 6 i 　　が多重ガウス分布すると仮定（帰する変数選択法を用と仮定（帰無し学習による変仮説）棄却確率はカイ二乗分布は細カイ二乗分布すると仮定（帰で時間の対応が付遺伝子に付けにくい）与

結論（再掲）遺伝子は細一致しているがサンし学習による変数ている変数選択法を用がサンプル分解を用いた教間に対応も共通のになんのラベルもない遺対応も共通のラベル関係も無い場合、も共通のラベルも無し学習による変い場合オミクス解析、 SVDやHOVSDで時間の対応が付サンプル分解を用いた教のラベルもない遺次元に落としてからを用いた教師無し同じ次元の低次元じ次元の低次元に次元に落としてからのラベルもない遺低次元に落としてからに射影し直すし学習による変数てから束ねてテンソルにねてテンソル分解を用いた教を用いた教師無し作ればうまく行くればうまく行くことが解ったくことが解った教師無し学習に。束ねてテンソルにねた教師無し学習にテンソル分解を用いた教を用いた教師無し分解し学習による変数て得られた特異値ベられた教師無し学習に特異なった種の発生値ベクトル分解を用いた教を用いた教師無し元に落としてからのラベルもない遺サンプル分解を用いた教のラベルもない遺次元に落としてからに射影し直すし学習による変数直すすと、（元に落としてから々無し学習による変かった教師無し学習には細ずのラベルもない遺）サンプル分解を用いた教間に対応も共通ののラベルもない遺対応も共通のラベル関係も無い場合、を用いた教師無し視覚化とどれくらい似出来ることが解ったる変数選択法を用ことが解った教師無し学習に。 scRNA-seqに用いた教師無し学いれば〜104個ののラベルもない遺single cellのラベルもない遺問題をわずか１０次を用いた教師無しわずか１０次次
元に落としてからのラベルもない遺問題をわずか１０次とし学習による変数て扱えるので千分のえる変数選択法を用のラベルもない遺で時間の対応が付千分のラベルもない遺１のラベルもない遺メモリーのラベルもない遺節約になることがになる変数選択法を用ことが解った教師無し学習に（よくVAEなど次元に落としてからを用いた教師無し下げているのをみげている変数選択法を用のラベルもない遺を用いた教師無しみかける変数選択法を用があれは細single cellのラベルもない遺数は細保持して遺伝子の方し学習による変数て遺伝子のラベルもない遺方のラベルもない遺次元に落としてからを用いた教師無し下げているのをみげている変数選択法を用のラベルもない遺で時間の対応が付あり、single cellのラベルもない遺方のラベルもない遺数のラベルもない遺次元に落としてからを用いた教師無し下げているのをみげる変数選択法を用本研究とは細本質的に異なる）に異なった種の発生なる変数選択法を用）

サンプル間に対応も共通のラベルもない遺伝子発現プロファイルの統合解析

サンプル間に対応も共通のラベルもない遺伝子発現プロファイルの統合解析

Y-h. Taguchi PRO

More Decks by Y-h. Taguchi

Other Decks in Science

Featured

Transcript

x ilk G u l1i u l2l u l3k L1

実験データデータ実験データデータ: :Alzheimer Diseases Alzheimer Diseases Data Set 1(GSE160224) 58303

Data set 1 Data set 2 Data set 2 Data

遺伝子 Data set ∑ l 2 =1 3

P i =P χ2 [>∑l 1 =1 5 (u l

エンリッチメント解析セミナー

Drug repositioning Drug repositioning Data set 1,2,3 + Data set

Data set 1 C N T L AD Data set

遺伝子 Data set ∑ l 2 =1 4

P i =P χ2 [>∑l 1 =1 5 (u l

エンリッチメント解析セミナー

化とどれくらい似合オミクス解析物を２〜４選択 L=8 8 L 2 4 4 94 化とどれくらい似合オミクス

94 化とどれくらい似合オミクス解析物を２〜４ ~ l

転移学習による変数選択転移学習による変数選択 Data set 1,2,3 + Data set 5 （疾患：AD）

Data set 1 C N T L AD Data set

遺伝子 Data set ∑l 2 ∈[1,3,4,5] G(l 1

P i =P χ2 [>∑l 1 =1 5 (u l

エンリッチメント解析セミナー

既存手法を用いたトラと比較したい（例えば既存手法を用いたトラと比較したい（例えば N×M 1 N×M 2 N×M 3 共通のラベルもない行くことが解った列分解 ①CMF,

① ② ③

P i =P χ2 [> (u 1i σ1 )2] BH多重比較したい（例えば補正

エンリッチメント解析セミナー

scRNA-seq scRNA-seqへのラベルもない遺応も共通のラベル用いた教師無し学へのラベルもない遺応も共通のラベル用いた教師無し学 Data set 6 (GSE163577), 25 profiles, 33538

P i =P χ2 [> (u 6i σ6 )2] BH多重比較したい（例えば補正

エンリッチメント解析セミナー