テンソル分解を用いた教師なし学習による変数選択法の前立腺がんマルチオミックスデータ解析への応用

SIGBIO70 1 テンソル分解を用いた教分解を用いた教師なを用いた教師なし用いた教師なし学いた教師なし学習に教師なし学習によるなし学習による変数学習による変数選択による変数選択法変数選択法の前立腺がんマル前立腺がんマルチオミがんマルチオミックマル分解を用いた教チオミックスデータ解析への応用解を用いた教師な析への応用への前立腺がんマル応用いた教師なし学田口善弘(中央大) タ解析への応用ーキータ解析への応用ーキー（キング・アブドゥル分解を用いた教アズィーズ大）

SIGBIO70 2 ChIP-seq, Histone modification 前立腺がんマルチオミがんマルチオミック vs 前立腺がんマルチオミメチル分解を用いた教化や発現量無しや発現量無し発現量無しし学習による変数

SIGBIO70 3 テンソル分解を用いた教分解を用いた教師なとは？いろいろある変数選択法が、本研究ではタッ本研究ではタッカー分ではタ解析への応用ッカー分解を用いた教師なby HOSVD（higher order singular value decomposition)がベストという経験則という経験則経験則 x
ijk = G(l 1 l 2 l 3 ) u l1j u l3i u l2k x ijk =∑ l 1 =1 N ∑ l 2 =1 M ∑ l 3 =1 K G(l 1 l 2 l 3 )u l 1 j u l 2 k u l 3 i x ijk ∈ℝN×M×K G(l 1 l 2 l 3 )∈ℝN×M ×K u l 1 j ∈ℝM ×M ,u l 2 k ∈ℝK×K , u l 3 i ∈ℝN ×N 直交行列

SIGBIO70 4 Synthetic Data 4 4 4 5 5 5
6 6 6 4 4 4 5 5 5 6 6 6 4 4 4 5 5 5 6 6 6 8 8 8 10 10 10 12 12 12 8 8 8 10 10 10 12 12 12 8 8 8 10 10 10 12 12 12 12 12 12 15 15 15 18 18 18 12 12 12 15 15 15 18 18 18 12 12 12 15 15 15 18 18 18 × j k １００回やって平均や発現量無しって平均平均５

SIGBIO70 5 u 1j u 1k j k

SIGBIO70 6 |G(11l 3 )| l 3 u 1i を用いた教師なし用いた教師なし学いて平均iを用いた教師なし選択
l 3 =1 u 1i がガウス分布（帰無し仮説）

SIGBIO70 7 P i を用いた教師なしBenjamini-Hochberg（BH）で多重比較補正し学習による変数きい値(p)以下のの前立腺がんマルiを用いた教師なし選択 →pの前立腺がんマル広い選択に対してい選択に対して１００％正し学習による変数て平均１００％正解というロバ正解を用いた教師なという経験則ロバストという経験則ネスを用いた教師なし達成

SIGBIO70 8 他の（伝統的な）の前立腺がんマル（伝統的な）手法と比較な）手法と比較

SIGBIO70 9 カテゴリ回帰（一般には回やって平均帰（一般にはにはANOVAの前立腺がんマル名前の前立腺がんマル方が有名）が有名） P値を用いた教師なし計算してし学習による変数て平均BHで多重比較補正し学習による変数て平均し学習による変数きい値以下のの前立腺がんマルもの前立腺がんマルを用いた教師なし選ぶの前立腺がんマルは同じじ

SIGBIO70 10 Random Forest ３×３の前立腺がんマル９クラス問題としクラス問題として解析とし学習による変数て平均解を用いた教師な析への応用 100,000個の変数の内、平の前立腺がんマル変数の前立腺がんマル内、本研究ではタッ平均で８４５６個が非ゼロの個の変数の内、平が非ゼロのゼロの前立腺がんマル importance(判別に使われたといに使われたというこわれた教師なし学習にという経験則こと）を用いた教師なし持っていた。１０って平均いた教師なし学習に。１００こに比べて平均多すぎる変数選択法判別に使われたとい能は悪く９は悪く９く９クラス問題とし×９クラス問題とし＝８１サンプル分解を用いた教の前立腺がんマルう経験則ち、本研究ではタッ平均で１６個が非ゼロの個の変数の内、平し学習による変数か正しく９クラス正し学習による変数く９クラス問題としクラスに分類できなかった。できなか正しく９クラスった教師なし学習に。一方が有名）で上位１００変数に限ったとしても、った教師なし学習にとし学習による変数て平均も、本研究ではタッ平均で７３変数し学習による変数
か正しく９クラス選択されず、本研究ではタッテンソル分解を用いた教分解を用いた教師なは愚かカテゴリ回帰か正しく９クラスカテゴリ回帰（一般には回やって平均帰にも惨敗していた。し学習による変数て平均いた教師なし学習に。

SIGBIO70 11 Penalized liner regression analysis (LDA) LASSOの前立腺がんマルカテゴリ回帰（一般には判別に使われたといバージョン１００％正解というロバ成功(判別に使われたとい率は８４％は８４％正解というロバ)。但しし学習による変数L
1 -normの前立腺がんマル係数λを用いた教師なし「正しく」選ぶ（正し学習による変数く」選ぶ（選ぶ（λ=0.01)必要があり、本研究ではタッ答えを知らないとえを用いた教師なし知らないと選ぶすらないと選ぶすべがない。λを用いた教師なし0.02 にする変数選択法ともう経験則１００変数中、本研究ではタッ９クラス問題とし変数し学習による変数か正しく９クラス選ばれなくなり、本研究ではタッ0.03や発現量無し0.04にする変数選択法ともう経験則全く駄目（一個もく駄目（一個の変数の内、平も正し学習による変数く選ばれない）なの前立腺がんマルでロバストという経験則ネスがなさすぎる変数選択法

SIGBIO70 12 MNMF（multichannel nonnegative matrix factorization） n<<NにNMFで縮約今の場合は、単純の前立腺がんマル場合は、単純には、本研究ではタッ単純ににunfolded行列　　　　　　　　にNMFを用いた教師なし適用いた教師なし学する変数選択法の前立腺がんマルに等価(但しし学習による変数元データは非負じデータ解析への応用は非ゼロの負じゃなじゃないの前立腺がんマルで非ゼロの負じゃなが無しくなる変数選択法よう経験則に「正しく」選ぶ（底上げ」選ぶ（し学習による変数て平均いる変数選択法)。

SIGBIO70 13 n=3 10万変数の前立腺がんマルう経験則ち１００変数し学習による変数か正しく９クラスクラス依存性がないのだからがないの前立腺がんマルだか正しく９クラスら単純にな次元データは非負じ縮約で１00変数の前立腺がんマル寄与が出てくるわけが出てくるわけはなて平均くる変数選択法わけはない →テンソル分解を用いた教分解を用いた教師なは出てくるわけはな来る。る変数選択法。

SIGBIO70 14 PCA(主成分分析への応用）を用いた教師なしunfolded行列に適用いた教師なし学第一主成分負じゃな
荷量

SIGBIO70 15 第一主成分得点を使ってテンソを用いた教師なし使われたというこって平均テンソル分解を用いた教分解を用いた教師なと同じじ基準で変数選択で変数選択し学習による変数た教師なし学習に。テンソル分解を用いた教分解を用いた教師なと同じじ結果。（という経験則か正しく９クラスHOSVDはiに付与が出てくるわけされる変数選択法主成分について平均は数学的な）手法と比較に等価なもの前立腺がんマルし学習による変数か正しく９クラス与が出てくるわけえないの前立腺がんマルで結果が同じじなの前立腺がんマルは明らかである）らか正しく９クラスである変数選択法） →テンソル分解を用いた教分解を用いた教師ななんマルチオミックか正しく９クラス要らない？

SIGBIO70 16 Synthetic Data まとめテンソル分解を用いた教分解を用いた教師な、本研究ではタッPCAは１００％正解というロバ正し学習による変数い答えを知らないとえを用いた教師なし出てくるわけはなせる変数選択法 PenalizedLDAはλを用いた教師なし正し学習による変数く選べば１００％正解というロバ正し学習による変数い Categorical Regressionは１００％正解というロバじゃないがか正しく９クラスなりいい。 RFは変数を用いた教師なした教師なし学習にくさんマルチオミック選び過ぎだし、上位過ぎだし、上位にぎだし学習による変数、本研究ではタッ上位に限ったとしても、って平均もあた教師なし学習にって平均ない。
MNMFはそもそも、本研究ではタックラス依存性がないのだからを用いた教師なし検出てくるわけはなできない

SIGBIO70 17 Real data

SIGBIO70 18 Omics Cancer vs normal Replicate Regions of 25,
000 bp

SIGBIO70 19 u 1j u 2j

SIGBIO70 20 u 2k u 1m

SIGBIO70 21 |G(121l 4 )| l 4 l 4 =8
u 8i がガウス分布（帰無し仮説）

SIGBIO70 22 P i を用いた教師なしBenjamini-Hochberg（BH）で多重比較補正 →補正p値<0.01で１,４４７領域を選択（全１２を用いた教師なし選択（全く駄目（一個も１２３,８１７領域を選択（全１２中） →１,７８５遺伝子（タ解析への応用ンパクを用いた教師なしコードする変数選択法）を用いた教師なし含む。む。 →Metascapeにアップロードし学習による変数て平均生物学的な）手法と比較妥当性がないのだからを用いた教師なし検証 PaGenBase human
prostate adenocarcinoma cells

SIGBIO70 23 DisGeNet

SIGBIO70 24 TRRUST

SIGBIO70 25 他の（伝統的な）の前立腺がんマル（伝統的な）手法と比較な）手法と比較

SIGBIO70 26 カテゴリ回帰（一般には回やって平均帰（一般にはにはANOVAの前立腺がんマル名前の前立腺がんマル方が有名）が有名） P値を用いた教師なし計算して、本研究ではタッBH法で多重比較補正 →補正P値が０．０１以下のの前立腺がんマル領域を選択（全１２を用いた教師なし選択 →106,701領域を選択（全１２（全く駄目（一個も１２３,８１７領域を選択（全１２中）が選ばれて平均し学習による変数まった教師なし学習に。カテゴリ回帰（一般には回やって平均帰は「正しく」選ぶ（８×２クラス間にどんな差があにどんマルチオミックな差があるか」を特がある変数選択法か正しく９クラス」選ぶ（を用いた教師なし特定できできず、本研究ではタッなんマルチオミックらか正しく９クラスの前立腺がんマル「正しく」選ぶ（差があるか」を特」選ぶ（がある変数選択法と全く駄目（一個も部検出てくるわけはなし学習による変数て平均し学習による変数まう経験則の前立腺がんマルで「正しく」選ぶ（がんマルチオミックと非ゼロのガンで差があるか」を特がある変数選択法もの前立腺がんマル」選ぶ（みた教師なし学習にいな選択ができないの前立腺がんマルでNG

SIGBIO70 27 た教師なし学習にくさんマルチオミック選択され過ぎだし、上位にぎで評価が難しいのでテンソし学習による変数いの前立腺がんマルでテンソル分解を用いた教分解を用いた教師なと同じじ上位１４４７領域を選択（全１２に限ったとしても、って平均そこに含む。まれる変数選択法９クラス問題とし６個が非ゼロの２遺伝子に限ったとしても、って平均、本研究ではタッ Metascapeにアップロードし学習による変数て平均みた教師なし学習に。 PaGenBase

SIGBIO70 29 生物学的な）手法と比較な妥当性がないのだからがテンソル分解を用いた教分解を用いた教師なに比べて平均著しく悪いし学習による変数く悪く９い

SIGBIO70 30 Penalized liner regression analysis (LDA) LASSOの前立腺がんマルカテゴリ回帰（一般には判別に使われたといバージョン１クラスに１サンプル分解を用いた教し学習による変数か正しく９クラス無しい場合は、単純にが含む。まれて平均いる変数選択法（８カテゴリ回帰（一般には中半数の前立腺がんマル４カテゴリ回帰（一般にはが１サンプル分解を用いた教）。　
LDAを用いた教師なし行う経験則にはカテゴリ回帰（一般には内分散が計算できる必が計算してできる変数選択法必要がある変数選択法の前立腺がんマルでそもそもこの前立腺がんマル方が有名）法は適用いた教師なし学不可能は悪く９だった教師なし学習に。

SIGBIO70 31 Random Forest 11,278領域を選択（全１２が非ゼロのゼロの前立腺がんマルimportanceを用いた教師なし持っていた。１０って平均いた教師なし学習に。 →た教師なし学習にくさんマルチオミック選択され過ぎだし、上位にぎで評価が難しいのでテンソし学習による変数いの前立腺がんマルでテンソル分解を用いた教分解を用いた教師なと同じじ上位１４４７領域を選択（全１２に限ったとしても、って平均そこに含む。まれる変数選択法１２６個が非ゼロの７遺伝子にお限って、限ったとしても、って平均、本研究ではタッMetascapeにアップロードし学習による変数て平均みた教師なし学習に。 PaGenBase

SIGBIO70 33 TRRUST

SIGBIO70 34 生物学的な）手法と比較な妥当性がないのだからがテンソル分解を用いた教分解を用いた教師なに比べて平均著しく悪いし学習による変数く悪く９い

SIGBIO70 35 MNMF：カテゴリ依存性カテゴリ回帰（一般には依存性がないのだからがTDに比べて平均著しく悪いし学習による変数く悪く９い

SIGBIO70 36 PCA：カテゴリ依存性カテゴリ回帰（一般には依存性がないのだからがTDに比べて平均著しく悪いし学習による変数く悪く９い

SIGBIO70 37 Real Data まとめテンソル分解を用いた教分解を用いた教師なは生物学的な）手法と比較に妥当な答えを知らないとえ。 PenalizedLDAは実行不可能は悪く９ Categorical RegressionとRFは変数を用いた教師なした教師なし学習にくさんマルチオミック選び過ぎだし、上位過ぎだし、上位にぎだし学習による変数、本研究ではタッ生物学的な）手法と比較にも正し学習による変数い遺伝子が選べて平均ない
MNMFとPCAはそもそも、本研究ではタックラス依存性がないのだからの前立腺がんマル検出てくるわけはな力がテンソル分解がテンソル分解を用いた教分解を用いた教師なに比べて平均著しく悪いし学習による変数く劣っていた。って平均いた教師なし学習に。

SIGBIO70 38 CPUタイム PCAとTDが圧倒的に速い圧倒的に速いに速い速いい

SIGBIO70 39 結論テンソル分解を用いた教分解を用いた教師なを用いた教師なし使われたというこえば、本研究ではタッメチル分解を用いた教化や発現量無しも遺伝子発現プロファイル分解を用いた教も入っていないマルって平均いないマル分解を用いた教チオミックスシーケンシングデータ解析への応用か正しく９クラスらでも、本研究ではタッ使われたというこって平均いる変数選択法問題として解析（前立腺がんマルチオミがんマルチオミック）や発現量無し観測量（転写因子）を用いた教師なし再現する変数選択法よう経験則な遺伝子選択が可能は悪く９である変数選択法。し学習による変数か正しく９クラスし学習による変数、本研究ではタッ他の（伝統的な）の前立腺がんマルSOTAでは全く駄目（一個もく出てくるわけはな来る。なか正しく９クラスった教師なし学習に。テンソル分解を用いた教分解を用いた教師なはマル分解を用いた教チオミックス解を用いた教師な析への応用の前立腺がんマル有効な手法としてもな手法とし学習による変数て平均もっと活用いた教師なし学される変数選択法べき（だが、本研究ではタッまった教師なし学習にく注目されて平均いなくて平均、本研究ではタッこの前立腺がんマル論文も１も１
年以上前の前立腺がんマル論文も１ですがまった教師なし学習にく誰にも引用されてにも引用いた教師なし学されて平均いませんマルチオミック） 😅）

テンソル分解を用いた教師なし学習による変数選択法の前立腺がんマルチオミックスデータ解析への応用

テンソル分解を用いた教師なし学習による変数選択法の前立腺がんマルチオミックスデータ解析への応用

Y-h. Taguchi PRO

More Decks by Y-h. Taguchi

Other Decks in Science

Featured

Transcript

SIGBIO70 2 ChIP-seq, Histone modification 前立腺がんマルチオミがんマルチオミック vs 前立腺がんマルチオミメチル分解を用いた教化や発現量無しや発現量無し発現量無しし学習による変数

SIGBIO70 4 Synthetic Data 4 4 4 5 5 5

SIGBIO70 5 u 1j u 1k j k

SIGBIO70 6 |G(11l 3 )| l 3 u 1i を用いた教師なし用いた教師なし学いて平均iを用いた教師なし選択

SIGBIO70 8 他の（伝統的な）の前立腺がんマル（伝統的な）手法と比較な）手法と比較

SIGBIO70 14 PCA(主成分分析への応用）を用いた教師なしunfolded行列に適用いた教師なし学第一主成分負じゃな

SIGBIO70 17 Real data

SIGBIO70 18 Omics Cancer vs normal Replicate Regions of 25,

SIGBIO70 19 u 1j u 2j

SIGBIO70 20 u 2k u 1m

SIGBIO70 21 |G(121l 4 )| l 4 l 4 =8

SIGBIO70 23 DisGeNet

SIGBIO70 24 TRRUST

SIGBIO70 25 他の（伝統的な）の前立腺がんマル（伝統的な）手法と比較な）手法と比較

SIGBIO70 28 DisGeNet

SIGBIO70 29 生物学的な）手法と比較な妥当性がないのだからがテンソル分解を用いた教分解を用いた教師なに比べて平均著しく悪いし学習による変数く悪く９い

SIGBIO70 32 DisGeNet

SIGBIO70 33 TRRUST

SIGBIO70 34 生物学的な）手法と比較な妥当性がないのだからがテンソル分解を用いた教分解を用いた教師なに比べて平均著しく悪いし学習による変数く悪く９い

SIGBIO70 35 MNMF：カテゴリ依存性カテゴリ回帰（一般には依存性がないのだからがTDに比べて平均著しく悪いし学習による変数く悪く９い

SIGBIO70 36 PCA：カテゴリ依存性カテゴリ回帰（一般には依存性がないのだからがTDに比べて平均著しく悪いし学習による変数く悪く９い

SIGBIO70 38 CPUタイム PCAとTDが圧倒的に速い圧倒的に速いに速い速いい