Upgrade to Pro — share decks privately, control downloads, hide ads and more …

テンソル分解を用いた教師なし学習による変数選択法の前立腺がんマルチオミックスデータ解析への応用

 テンソル分解を用いた教師なし学習による変数選択法の前立腺がんマルチオミックスデータ解析への応用

Presentation at SIGBIO70
http://www.ipsj.or.jp/kenkyukai/event/mps138bio70.html
2022/6/29

948966d9c690e72faba4fd76e1858c56?s=128

Y-h. Taguchi

June 25, 2022
Tweet

More Decks by Y-h. Taguchi

Other Decks in Science

Transcript

  1. SIGBIO70 1 テンソル分解を用いた教分解を用いた教師なを用いた教師なし用いた教師なし学いた教師なし学習に教師なし学習によるなし学習による変数学習による変数選択による変数選択法変数選択法 の前立腺がんマル前立腺がんマルチオミがんマルチオミックマル分解を用いた教チオミックスデータ解析への応用解を用いた教師な析への応用への前立腺がんマル応用いた教師なし学 田口善弘(中央大) タ解析への応用ーキー タ解析への応用ーキー(キング・アブドゥル分解を用いた教アズィーズ大)

  2. SIGBIO70 2 ChIP-seq, Histone modification 前立腺がんマルチオミがんマルチオミック vs 前立腺がんマルチオミ メチル分解を用いた教化や発現量無しや発現量無し発現量無しし学習による変数

  3. SIGBIO70 3 テンソル分解を用いた教分解を用いた教師なとは? いろいろある変数選択法が、本研究ではタッ本研究ではタッカー分ではタ解析への応用ッカー分解を用いた教師なby HOSVD(higher order singular value decomposition)がベストという経験則という経験則経験則 x

    ijk = G(l 1 l 2 l 3 ) u l1j u l3i u l2k x ijk =∑ l 1 =1 N ∑ l 2 =1 M ∑ l 3 =1 K G(l 1 l 2 l 3 )u l 1 j u l 2 k u l 3 i x ijk ∈ℝN×M×K G(l 1 l 2 l 3 )∈ℝN×M ×K u l 1 j ∈ℝM ×M ,u l 2 k ∈ℝK×K , u l 3 i ∈ℝN ×N 直交行列
  4. SIGBIO70 4 Synthetic Data 4 4 4 5 5 5

    6 6 6 4 4 4 5 5 5 6 6 6 4 4 4 5 5 5 6 6 6 8 8 8 10 10 10 12 12 12 8 8 8 10 10 10 12 12 12 8 8 8 10 10 10 12 12 12 12 12 12 15 15 15 18 18 18 12 12 12 15 15 15 18 18 18 12 12 12 15 15 15 18 18 18 × j k 100回やって平均や発現量無しって平均平均 5
  5. SIGBIO70 5 u 1j u 1k j k

  6. SIGBIO70 6 |G(11l 3 )| l 3 u 1i を用いた教師なし用いた教師なし学いて平均iを用いた教師なし選択

    l 3 =1 u 1i がガウス分布 (帰無し仮説)
  7. SIGBIO70 7 P i を用いた教師なしBenjamini-Hochberg(BH)で多重比較補正 し学習による変数きい値(p)以下のの前立腺がんマルiを用いた教師なし選択 →pの前立腺がんマル広い選択に対してい選択に対して100%正し学習による変数て平均100%正解というロバ正解を用いた教師なという経験則ロバストという経験則ネスを用いた教師なし達成

  8. SIGBIO70 8 他の(伝統的な)の前立腺がんマル(伝統的な)手法と比較な)手法と比較

  9. SIGBIO70 9 カテゴリ回帰(一般には回やって平均帰(一般にはにはANOVAの前立腺がんマル名前の前立腺がんマル方が有名)が有名) P値を用いた教師なし計算してし学習による変数て平均BHで多重比較補正し学習による変数て平均し学習による変数きい値以下のの前立腺がんマルもの前立腺がんマルを用いた教師なし選 ぶの前立腺がんマルは同じじ

  10. SIGBIO70 10 Random Forest 3×3の前立腺がんマル9クラス問題としクラス問題として解析とし学習による変数て平均解を用いた教師な析への応用 100,000個の変数の内、平の前立腺がんマル変数の前立腺がんマル内、本研究ではタッ平均で8456個が非ゼロの個の変数の内、平が非ゼロのゼロの前立腺がんマル importance(判別に使われたといに使われたというこわれた教師なし学習にという経験則こと)を用いた教師なし持っていた。10って平均いた教師なし学習に。10 0こに比べて平均多すぎる変数選択法判別に使われたとい能は悪く9は悪く9く9クラス問題とし×9クラス問題とし=81サンプル分解を用いた教の前立腺がんマル う経験則ち、本研究ではタッ平均で16個が非ゼロの個の変数の内、平し学習による変数か正しく9クラス正し学習による変数く9クラス問題としクラスに分類できなかった。できなか正しく9クラスった教師なし学習に。 一方が有名)で上位100変数に限ったとしても、った教師なし学習にとし学習による変数て平均も、本研究ではタッ平均で73変数し学習による変数

    か正しく9クラス選択されず、本研究ではタッテンソル分解を用いた教分解を用いた教師なは愚かカテゴリ回帰か正しく9クラスカテゴリ回帰(一般には回やって平均帰にも惨 敗していた。し学習による変数て平均いた教師なし学習に。
  11. SIGBIO70 11 Penalized liner regression analysis (LDA) LASSOの前立腺がんマルカテゴリ回帰(一般には判別に使われたといバージョン 100%正解というロバ成功(判別に使われたとい率は84%は84%正解というロバ)。 但しし学習による変数L

    1 -normの前立腺がんマル係数λを用いた教師なし「正しく」選ぶ(正し学習による変数く」選ぶ(選ぶ(λ=0.01)必要 があり、本研究ではタッ答えを知らないとえを用いた教師なし知らないと選ぶすらないと選ぶすべがない。λを用いた教師なし0.02 にする変数選択法ともう経験則100変数中、本研究ではタッ9クラス問題とし変数し学習による変数か正しく9クラス選ばれなくな り、本研究ではタッ0.03や発現量無し0.04にする変数選択法ともう経験則全く駄目(一個もく駄目(一個の変数の内、平も正し学習による変数く 選ばれない)なの前立腺がんマルでロバストという経験則ネスがなさすぎる変数選択法
  12. SIGBIO70 12 MNMF(multichannel nonnegative matrix factorization) n<<NにNMFで縮約 今の場合は、単純の前立腺がんマル場合は、単純には、本研究ではタッ単純ににunfolded行列         にNMFを用いた教師なし適用いた教師なし学する変数選択法の前立腺がんマルに等価(但しし学習による変数元データは非負じデータ解析への応用は非ゼロの負じゃなじゃな いの前立腺がんマルで非ゼロの負じゃなが無しくなる変数選択法よう経験則に「正しく」選ぶ(底上げ」選ぶ(し学習による変数て平均いる変数選択法)。

  13. SIGBIO70 13 n=3 10万変数の前立腺がんマルう経験則ち100変数し学習による変数か正しく9クラスクラス依存性がないのだからがないの前立腺がんマルだか正しく9クラスら単純に な次元データは非負じ縮約で100変数の前立腺がんマル寄与が出てくるわけが出てくるわけはなて平均くる変数選択法わけはない →テンソル分解を用いた教分解を用いた教師なは出てくるわけはな来る。る変数選択法。

  14. SIGBIO70 14 PCA(主成分分析への応用)を用いた教師なしunfolded行列 に適用いた教師なし学 第 一 主 成 分 負じゃな

    荷 量
  15. SIGBIO70 15 第一主成分得点を使ってテンソを用いた教師なし使われたというこって平均テンソル分解を用いた教分解を用いた教師なと同じじ基準で変数選択で変数選択 し学習による変数た教師なし学習に。テンソル分解を用いた教分解を用いた教師なと同じじ結果。 (という経験則か正しく9クラスHOSVDはiに付与が出てくるわけされる変数選択法主成分について平均は数学的な)手法と比較に 等価なもの前立腺がんマルし学習による変数か正しく9クラス与が出てくるわけえないの前立腺がんマルで結果が同じじなの前立腺がんマルは明らかである)らか正しく9クラスである変数選択法) →テンソル分解を用いた教分解を用いた教師ななんマルチオミックか正しく9クラス要らない?

  16. SIGBIO70 16 Synthetic Data まとめ テンソル分解を用いた教分解を用いた教師な、本研究ではタッPCAは100%正解というロバ正し学習による変数い答えを知らないとえを用いた教師なし出てくるわけはなせる変数選択法 PenalizedLDAはλを用いた教師なし正し学習による変数く選べば100%正解というロバ正し学習による変数い Categorical Regressionは100%正解というロバじゃないがか正しく9クラスなりいい。 RFは変数を用いた教師なした教師なし学習にくさんマルチオミック選び過ぎだし、上位過ぎだし、上位にぎだし学習による変数、本研究ではタッ上位に限ったとしても、って平均もあた教師なし学習にって平均ない。

    MNMFはそもそも、本研究ではタックラス依存性がないのだからを用いた教師なし検出てくるわけはなできない
  17. SIGBIO70 17 Real data

  18. SIGBIO70 18 Omics Cancer vs normal Replicate Regions of 25,

    000 bp
  19. SIGBIO70 19 u 1j u 2j

  20. SIGBIO70 20 u 2k u 1m

  21. SIGBIO70 21 |G(121l 4 )| l 4 l 4 =8

    u 8i がガウス分布 (帰無し仮説)
  22. SIGBIO70 22 P i を用いた教師なしBenjamini-Hochberg(BH)で多重比較補正 →補正p値<0.01で1,447領域を選択(全12を用いた教師なし選択(全く駄目(一個も123,817領域を選択(全12中) →1,785遺伝子(タ解析への応用ンパクを用いた教師なしコードする変数選択法)を用いた教師なし含む。む。 →Metascapeにアップロードし学習による変数て平均生物学的な)手法と比較妥当性がないのだからを用いた教師なし検証 PaGenBase human

    prostate adenocarcinoma cells
  23. SIGBIO70 23 DisGeNet

  24. SIGBIO70 24 TRRUST

  25. SIGBIO70 25 他の(伝統的な)の前立腺がんマル(伝統的な)手法と比較な)手法と比較

  26. SIGBIO70 26 カテゴリ回帰(一般には回やって平均帰(一般にはにはANOVAの前立腺がんマル名前の前立腺がんマル方が有名)が有名) P値を用いた教師なし計算して、本研究ではタッBH法で多重比較補正 →補正P値が0.01以下のの前立腺がんマル領域を選択(全12を用いた教師なし選択 →106,701領域を選択(全12(全く駄目(一個も123,817領域を選択(全12中)が選ばれて平均し学習による変数まった教師なし学習に。 カテゴリ回帰(一般には回やって平均帰は「正しく」選ぶ(8×2クラス間にどんな差があにどんマルチオミックな差があるか」を特がある変数選択法か正しく9クラス」選ぶ(を用いた教師なし特定できでき ず、本研究ではタッなんマルチオミックらか正しく9クラスの前立腺がんマル「正しく」選ぶ(差があるか」を特」選ぶ(がある変数選択法と全く駄目(一個も部検出てくるわけはなし学習による変数て平均し学習による変数まう経験則の前立腺がんマルで「正しく」選ぶ(がんマルチオミックと非ゼロの ガンで差があるか」を特がある変数選択法もの前立腺がんマル」選ぶ(みた教師なし学習にいな選択ができないの前立腺がんマルでNG

  27. SIGBIO70 27 た教師なし学習にくさんマルチオミック選択され過ぎだし、上位にぎで評価が難しいのでテンソし学習による変数いの前立腺がんマルでテンソル分解を用いた教分解を用いた教師なと同じじ 上位1447領域を選択(全12に限ったとしても、って平均そこに含む。まれる変数選択法9クラス問題とし6個が非ゼロの2遺伝子に限ったとしても、って平均、本研究ではタッ Metascapeにアップロードし学習による変数て平均みた教師なし学習に。 PaGenBase

  28. SIGBIO70 28 DisGeNet

  29. SIGBIO70 29 生物学的な)手法と比較な妥当性がないのだからがテンソル分解を用いた教分解を用いた教師なに比べて平均著しく悪いし学習による変数く悪く9い

  30. SIGBIO70 30 Penalized liner regression analysis (LDA) LASSOの前立腺がんマルカテゴリ回帰(一般には判別に使われたといバージョン 1クラスに1サンプル分解を用いた教し学習による変数か正しく9クラス無しい場合は、単純にが含む。まれて平均いる変数選択法 (8カテゴリ回帰(一般には中半数の前立腺がんマル4カテゴリ回帰(一般にはが1サンプル分解を用いた教)。 

    LDAを用いた教師なし行う経験則にはカテゴリ回帰(一般には内分散が計算できる必が計算してできる変数選択法必要 がある変数選択法の前立腺がんマルでそもそもこの前立腺がんマル方が有名)法は適用いた教師なし学不可能は悪く9だった教師なし学習に。
  31. SIGBIO70 31 Random Forest 11,278領域を選択(全12が非ゼロのゼロの前立腺がんマルimportanceを用いた教師なし持っていた。10って平均いた教師なし学習に。 →た教師なし学習にくさんマルチオミック選択され過ぎだし、上位にぎで評価が難しいのでテンソし学習による変数いの前立腺がんマルでテンソル分解を用いた教分解を用いた教師なと 同じじ上位1447領域を選択(全12に限ったとしても、って平均そこに含む。まれる変数選択法126個が非ゼロの7遺伝子に お限って、限ったとしても、って平均、本研究ではタッMetascapeにアップロードし学習による変数て平均みた教師なし学習に。 PaGenBase

  32. SIGBIO70 32 DisGeNet

  33. SIGBIO70 33 TRRUST

  34. SIGBIO70 34 生物学的な)手法と比較な妥当性がないのだからがテンソル分解を用いた教分解を用いた教師なに比べて平均著しく悪いし学習による変数く悪く9い

  35. SIGBIO70 35 MNMF:カテゴリ依存性カテゴリ回帰(一般には依存性がないのだからがTDに比べて平均著しく悪いし学習による変数く悪く9い

  36. SIGBIO70 36 PCA:カテゴリ依存性カテゴリ回帰(一般には依存性がないのだからがTDに比べて平均著しく悪いし学習による変数く悪く9い

  37. SIGBIO70 37 Real Data まとめ テンソル分解を用いた教分解を用いた教師なは生物学的な)手法と比較に妥当な答えを知らないとえ。 PenalizedLDAは実行不可能は悪く9 Categorical RegressionとRFは変数を用いた教師なした教師なし学習にくさんマルチオミック選び過ぎだし、上位過ぎだし、上位にぎだし学習による変数、本研究ではタッ生 物学的な)手法と比較にも正し学習による変数い遺伝子が選べて平均ない

    MNMFとPCAはそもそも、本研究ではタックラス依存性がないのだからの前立腺がんマル検出てくるわけはな力がテンソル分解がテンソル分解を用いた教分解を用いた教師な に比べて平均著しく悪いし学習による変数く劣っていた。 って平均いた教師なし学習に。
  38. SIGBIO70 38 CPUタイム PCAとTDが圧倒的に速い圧倒的に速いに速い速いい

  39. SIGBIO70 39 結論 テンソル分解を用いた教分解を用いた教師なを用いた教師なし使われたというこえば、本研究ではタッメチル分解を用いた教化や発現量無しも遺伝子発現プロファイル分解を用いた教も 入っていないマルって平均いないマル分解を用いた教チオミックスシーケンシングデータ解析への応用か正しく9クラスらでも、本研究ではタッ 使われたというこって平均いる変数選択法問題として解析(前立腺がんマルチオミがんマルチオミック)や発現量無し観測量(転写因子)を用いた教師なし再現する変数選択法 よう経験則な遺伝子選択が可能は悪く9である変数選択法。 し学習による変数か正しく9クラスし学習による変数、本研究ではタッ他の(伝統的な)の前立腺がんマルSOTAでは全く駄目(一個もく出てくるわけはな来る。なか正しく9クラスった教師なし学習に。 テンソル分解を用いた教分解を用いた教師なはマル分解を用いた教チオミックス解を用いた教師な析への応用の前立腺がんマル有効な手法としてもな手法とし学習による変数て平均もっと 活用いた教師なし学される変数選択法べき(だが、本研究ではタッまった教師なし学習にく注目されて平均いなくて平均、本研究ではタッこの前立腺がんマル論文も1も1

    年以上前の前立腺がんマル論文も1ですがまった教師なし学習にく誰にも引用されてにも引用いた教師なし学されて平均いませんマルチオミック ) 😅)