Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テンソル分解を用いた教師なし学習による変数選択法の前立腺がんマルチオミックスデータ解析への応用
Search
Y-h. Taguchi
June 25, 2022
Science
0
170
テンソル分解を用いた教師なし学習による変数選択法の前立腺がんマルチオミックスデータ解析への応用
Presentation at SIGBIO70
http://www.ipsj.or.jp/kenkyukai/event/mps138bio70.html
2022/6/29
Y-h. Taguchi
June 25, 2022
Tweet
Share
More Decks by Y-h. Taguchi
See All by Y-h. Taguchi
マウス肝炎ウイルス感染の遺伝子発現へのテンソル分解の適用によるSARS-CoV-2感染関連重要ヒト遺伝子と有効な薬剤の同定
tagtag
0
58
大学のアウトリーチ活動(中央大学学員(OB)会主催学術講演で講演して)
tagtag
1
24
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
0
61
マルチオミクスデータ解析のためのカーネルテンソル分解による新しい特徴選択法
tagtag
1
57
学術講演会中央大学学員会大分支部
tagtag
0
100
学術講演会中央大学学員会いわき支部
tagtag
0
110
テンソル分解を用いた教師なし学習による変数選択法のシングルセルマルチオミックスデータ解析への応用
tagtag
1
110
学術講演会中央大学学員会八王子支部
tagtag
0
250
教師なしテンソル分解に基づく、有糸分裂後の転写再活性化におけるヒストン修飾ブックマークとしての転写因子候補の抽出法
tagtag
0
140
Other Decks in Science
See All in Science
はじめてのバックドア基準:あるいは、重回帰分析の偏回帰係数を因果効果の推定値として解釈してよいのか問題
takehikoihayashi
2
1k
ウェーブレットおきもち講座
aikiriao
1
810
All-in-One Bioinformatics Platform Realized with Snowflake ~ From In Silico Drug Discovery, Disease Variant Analysis, to Single-Cell RNA-seq
ktatsuya
PRO
0
270
ベイズのはなし
techmathproject
0
370
LIMEを用いた判断根拠の可視化
kentaitakura
0
390
Factorized Diffusion: Perceptual Illusions by Noise Decomposition
tomoaki0705
0
280
構造設計のための3D生成AI-最新の取り組みと今後の展開-
kojinishiguchi
0
680
20240420 Global Azure 2024 | Azure Migrate でデータセンターのサーバーを評価&移行してみる
olivia_0707
2
950
化学におけるAI・シミュレーション活用のトレンドと 汎用原子レベルシミュレーター: Matlantisを使った素材開発
matlantis
0
360
インフラだけではない MLOps の話 @事例でわかるMLOps 機械学習の成果をスケールさせる処方箋 発売記念
icoxfog417
PRO
2
640
Introduction to Graph Neural Networks
joisino
PRO
4
4.3k
第61回コンピュータビジョン勉強会「BioCLIP: A Vision Foundation Model for the Tree of Life」
x_ttyszk
1
1.6k
Featured
See All Featured
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.5k
How STYLIGHT went responsive
nonsquared
96
5.3k
GraphQLの誤解/rethinking-graphql
sonatard
68
10k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Designing for Performance
lara
604
68k
Music & Morning Musume
bryan
46
6.3k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
3
230
A better future with KSS
kneath
238
17k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.8k
Six Lessons from altMBA
skipperchong
27
3.5k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Transcript
SIGBIO70 1 テンソル分解を用いた教分解を用いた教師なを用いた教師なし用いた教師なし学いた教師なし学習に教師なし学習によるなし学習による変数学習による変数選択による変数選択法変数選択法 の前立腺がんマル前立腺がんマルチオミがんマルチオミックマル分解を用いた教チオミックスデータ解析への応用解を用いた教師な析への応用への前立腺がんマル応用いた教師なし学 田口善弘(中央大) タ解析への応用ーキー タ解析への応用ーキー(キング・アブドゥル分解を用いた教アズィーズ大)
SIGBIO70 2 ChIP-seq, Histone modification 前立腺がんマルチオミがんマルチオミック vs 前立腺がんマルチオミ メチル分解を用いた教化や発現量無しや発現量無し発現量無しし学習による変数
SIGBIO70 3 テンソル分解を用いた教分解を用いた教師なとは? いろいろある変数選択法が、本研究ではタッ本研究ではタッカー分ではタ解析への応用ッカー分解を用いた教師なby HOSVD(higher order singular value decomposition)がベストという経験則という経験則経験則 x
ijk = G(l 1 l 2 l 3 ) u l1j u l3i u l2k x ijk =∑ l 1 =1 N ∑ l 2 =1 M ∑ l 3 =1 K G(l 1 l 2 l 3 )u l 1 j u l 2 k u l 3 i x ijk ∈ℝN×M×K G(l 1 l 2 l 3 )∈ℝN×M ×K u l 1 j ∈ℝM ×M ,u l 2 k ∈ℝK×K , u l 3 i ∈ℝN ×N 直交行列
SIGBIO70 4 Synthetic Data 4 4 4 5 5 5
6 6 6 4 4 4 5 5 5 6 6 6 4 4 4 5 5 5 6 6 6 8 8 8 10 10 10 12 12 12 8 8 8 10 10 10 12 12 12 8 8 8 10 10 10 12 12 12 12 12 12 15 15 15 18 18 18 12 12 12 15 15 15 18 18 18 12 12 12 15 15 15 18 18 18 × j k 100回やって平均や発現量無しって平均平均 5
SIGBIO70 5 u 1j u 1k j k
SIGBIO70 6 |G(11l 3 )| l 3 u 1i を用いた教師なし用いた教師なし学いて平均iを用いた教師なし選択
l 3 =1 u 1i がガウス分布 (帰無し仮説)
SIGBIO70 7 P i を用いた教師なしBenjamini-Hochberg(BH)で多重比較補正 し学習による変数きい値(p)以下のの前立腺がんマルiを用いた教師なし選択 →pの前立腺がんマル広い選択に対してい選択に対して100%正し学習による変数て平均100%正解というロバ正解を用いた教師なという経験則ロバストという経験則ネスを用いた教師なし達成
SIGBIO70 8 他の(伝統的な)の前立腺がんマル(伝統的な)手法と比較な)手法と比較
SIGBIO70 9 カテゴリ回帰(一般には回やって平均帰(一般にはにはANOVAの前立腺がんマル名前の前立腺がんマル方が有名)が有名) P値を用いた教師なし計算してし学習による変数て平均BHで多重比較補正し学習による変数て平均し学習による変数きい値以下のの前立腺がんマルもの前立腺がんマルを用いた教師なし選 ぶの前立腺がんマルは同じじ
SIGBIO70 10 Random Forest 3×3の前立腺がんマル9クラス問題としクラス問題として解析とし学習による変数て平均解を用いた教師な析への応用 100,000個の変数の内、平の前立腺がんマル変数の前立腺がんマル内、本研究ではタッ平均で8456個が非ゼロの個の変数の内、平が非ゼロのゼロの前立腺がんマル importance(判別に使われたといに使われたというこわれた教師なし学習にという経験則こと)を用いた教師なし持っていた。10って平均いた教師なし学習に。10 0こに比べて平均多すぎる変数選択法判別に使われたとい能は悪く9は悪く9く9クラス問題とし×9クラス問題とし=81サンプル分解を用いた教の前立腺がんマル う経験則ち、本研究ではタッ平均で16個が非ゼロの個の変数の内、平し学習による変数か正しく9クラス正し学習による変数く9クラス問題としクラスに分類できなかった。できなか正しく9クラスった教師なし学習に。 一方が有名)で上位100変数に限ったとしても、った教師なし学習にとし学習による変数て平均も、本研究ではタッ平均で73変数し学習による変数
か正しく9クラス選択されず、本研究ではタッテンソル分解を用いた教分解を用いた教師なは愚かカテゴリ回帰か正しく9クラスカテゴリ回帰(一般には回やって平均帰にも惨 敗していた。し学習による変数て平均いた教師なし学習に。
SIGBIO70 11 Penalized liner regression analysis (LDA) LASSOの前立腺がんマルカテゴリ回帰(一般には判別に使われたといバージョン 100%正解というロバ成功(判別に使われたとい率は84%は84%正解というロバ)。 但しし学習による変数L
1 -normの前立腺がんマル係数λを用いた教師なし「正しく」選ぶ(正し学習による変数く」選ぶ(選ぶ(λ=0.01)必要 があり、本研究ではタッ答えを知らないとえを用いた教師なし知らないと選ぶすらないと選ぶすべがない。λを用いた教師なし0.02 にする変数選択法ともう経験則100変数中、本研究ではタッ9クラス問題とし変数し学習による変数か正しく9クラス選ばれなくな り、本研究ではタッ0.03や発現量無し0.04にする変数選択法ともう経験則全く駄目(一個もく駄目(一個の変数の内、平も正し学習による変数く 選ばれない)なの前立腺がんマルでロバストという経験則ネスがなさすぎる変数選択法
SIGBIO70 12 MNMF(multichannel nonnegative matrix factorization) n<<NにNMFで縮約 今の場合は、単純の前立腺がんマル場合は、単純には、本研究ではタッ単純ににunfolded行列 にNMFを用いた教師なし適用いた教師なし学する変数選択法の前立腺がんマルに等価(但しし学習による変数元データは非負じデータ解析への応用は非ゼロの負じゃなじゃな いの前立腺がんマルで非ゼロの負じゃなが無しくなる変数選択法よう経験則に「正しく」選ぶ(底上げ」選ぶ(し学習による変数て平均いる変数選択法)。
SIGBIO70 13 n=3 10万変数の前立腺がんマルう経験則ち100変数し学習による変数か正しく9クラスクラス依存性がないのだからがないの前立腺がんマルだか正しく9クラスら単純に な次元データは非負じ縮約で100変数の前立腺がんマル寄与が出てくるわけが出てくるわけはなて平均くる変数選択法わけはない →テンソル分解を用いた教分解を用いた教師なは出てくるわけはな来る。る変数選択法。
SIGBIO70 14 PCA(主成分分析への応用)を用いた教師なしunfolded行列 に適用いた教師なし学 第 一 主 成 分 負じゃな
荷 量
SIGBIO70 15 第一主成分得点を使ってテンソを用いた教師なし使われたというこって平均テンソル分解を用いた教分解を用いた教師なと同じじ基準で変数選択で変数選択 し学習による変数た教師なし学習に。テンソル分解を用いた教分解を用いた教師なと同じじ結果。 (という経験則か正しく9クラスHOSVDはiに付与が出てくるわけされる変数選択法主成分について平均は数学的な)手法と比較に 等価なもの前立腺がんマルし学習による変数か正しく9クラス与が出てくるわけえないの前立腺がんマルで結果が同じじなの前立腺がんマルは明らかである)らか正しく9クラスである変数選択法) →テンソル分解を用いた教分解を用いた教師ななんマルチオミックか正しく9クラス要らない?
SIGBIO70 16 Synthetic Data まとめ テンソル分解を用いた教分解を用いた教師な、本研究ではタッPCAは100%正解というロバ正し学習による変数い答えを知らないとえを用いた教師なし出てくるわけはなせる変数選択法 PenalizedLDAはλを用いた教師なし正し学習による変数く選べば100%正解というロバ正し学習による変数い Categorical Regressionは100%正解というロバじゃないがか正しく9クラスなりいい。 RFは変数を用いた教師なした教師なし学習にくさんマルチオミック選び過ぎだし、上位過ぎだし、上位にぎだし学習による変数、本研究ではタッ上位に限ったとしても、って平均もあた教師なし学習にって平均ない。
MNMFはそもそも、本研究ではタックラス依存性がないのだからを用いた教師なし検出てくるわけはなできない
SIGBIO70 17 Real data
SIGBIO70 18 Omics Cancer vs normal Replicate Regions of 25,
000 bp
SIGBIO70 19 u 1j u 2j
SIGBIO70 20 u 2k u 1m
SIGBIO70 21 |G(121l 4 )| l 4 l 4 =8
u 8i がガウス分布 (帰無し仮説)
SIGBIO70 22 P i を用いた教師なしBenjamini-Hochberg(BH)で多重比較補正 →補正p値<0.01で1,447領域を選択(全12を用いた教師なし選択(全く駄目(一個も123,817領域を選択(全12中) →1,785遺伝子(タ解析への応用ンパクを用いた教師なしコードする変数選択法)を用いた教師なし含む。む。 →Metascapeにアップロードし学習による変数て平均生物学的な)手法と比較妥当性がないのだからを用いた教師なし検証 PaGenBase human
prostate adenocarcinoma cells
SIGBIO70 23 DisGeNet
SIGBIO70 24 TRRUST
SIGBIO70 25 他の(伝統的な)の前立腺がんマル(伝統的な)手法と比較な)手法と比較
SIGBIO70 26 カテゴリ回帰(一般には回やって平均帰(一般にはにはANOVAの前立腺がんマル名前の前立腺がんマル方が有名)が有名) P値を用いた教師なし計算して、本研究ではタッBH法で多重比較補正 →補正P値が0.01以下のの前立腺がんマル領域を選択(全12を用いた教師なし選択 →106,701領域を選択(全12(全く駄目(一個も123,817領域を選択(全12中)が選ばれて平均し学習による変数まった教師なし学習に。 カテゴリ回帰(一般には回やって平均帰は「正しく」選ぶ(8×2クラス間にどんな差があにどんマルチオミックな差があるか」を特がある変数選択法か正しく9クラス」選ぶ(を用いた教師なし特定できでき ず、本研究ではタッなんマルチオミックらか正しく9クラスの前立腺がんマル「正しく」選ぶ(差があるか」を特」選ぶ(がある変数選択法と全く駄目(一個も部検出てくるわけはなし学習による変数て平均し学習による変数まう経験則の前立腺がんマルで「正しく」選ぶ(がんマルチオミックと非ゼロの ガンで差があるか」を特がある変数選択法もの前立腺がんマル」選ぶ(みた教師なし学習にいな選択ができないの前立腺がんマルでNG
SIGBIO70 27 た教師なし学習にくさんマルチオミック選択され過ぎだし、上位にぎで評価が難しいのでテンソし学習による変数いの前立腺がんマルでテンソル分解を用いた教分解を用いた教師なと同じじ 上位1447領域を選択(全12に限ったとしても、って平均そこに含む。まれる変数選択法9クラス問題とし6個が非ゼロの2遺伝子に限ったとしても、って平均、本研究ではタッ Metascapeにアップロードし学習による変数て平均みた教師なし学習に。 PaGenBase
SIGBIO70 28 DisGeNet
SIGBIO70 29 生物学的な)手法と比較な妥当性がないのだからがテンソル分解を用いた教分解を用いた教師なに比べて平均著しく悪いし学習による変数く悪く9い
SIGBIO70 30 Penalized liner regression analysis (LDA) LASSOの前立腺がんマルカテゴリ回帰(一般には判別に使われたといバージョン 1クラスに1サンプル分解を用いた教し学習による変数か正しく9クラス無しい場合は、単純にが含む。まれて平均いる変数選択法 (8カテゴリ回帰(一般には中半数の前立腺がんマル4カテゴリ回帰(一般にはが1サンプル分解を用いた教)。
LDAを用いた教師なし行う経験則にはカテゴリ回帰(一般には内分散が計算できる必が計算してできる変数選択法必要 がある変数選択法の前立腺がんマルでそもそもこの前立腺がんマル方が有名)法は適用いた教師なし学不可能は悪く9だった教師なし学習に。
SIGBIO70 31 Random Forest 11,278領域を選択(全12が非ゼロのゼロの前立腺がんマルimportanceを用いた教師なし持っていた。10って平均いた教師なし学習に。 →た教師なし学習にくさんマルチオミック選択され過ぎだし、上位にぎで評価が難しいのでテンソし学習による変数いの前立腺がんマルでテンソル分解を用いた教分解を用いた教師なと 同じじ上位1447領域を選択(全12に限ったとしても、って平均そこに含む。まれる変数選択法126個が非ゼロの7遺伝子に お限って、限ったとしても、って平均、本研究ではタッMetascapeにアップロードし学習による変数て平均みた教師なし学習に。 PaGenBase
SIGBIO70 32 DisGeNet
SIGBIO70 33 TRRUST
SIGBIO70 34 生物学的な)手法と比較な妥当性がないのだからがテンソル分解を用いた教分解を用いた教師なに比べて平均著しく悪いし学習による変数く悪く9い
SIGBIO70 35 MNMF:カテゴリ依存性カテゴリ回帰(一般には依存性がないのだからがTDに比べて平均著しく悪いし学習による変数く悪く9い
SIGBIO70 36 PCA:カテゴリ依存性カテゴリ回帰(一般には依存性がないのだからがTDに比べて平均著しく悪いし学習による変数く悪く9い
SIGBIO70 37 Real Data まとめ テンソル分解を用いた教分解を用いた教師なは生物学的な)手法と比較に妥当な答えを知らないとえ。 PenalizedLDAは実行不可能は悪く9 Categorical RegressionとRFは変数を用いた教師なした教師なし学習にくさんマルチオミック選び過ぎだし、上位過ぎだし、上位にぎだし学習による変数、本研究ではタッ生 物学的な)手法と比較にも正し学習による変数い遺伝子が選べて平均ない
MNMFとPCAはそもそも、本研究ではタックラス依存性がないのだからの前立腺がんマル検出てくるわけはな力がテンソル分解がテンソル分解を用いた教分解を用いた教師な に比べて平均著しく悪いし学習による変数く劣っていた。 って平均いた教師なし学習に。
SIGBIO70 38 CPUタイム PCAとTDが圧倒的に速い圧倒的に速いに速い速いい
SIGBIO70 39 結論 テンソル分解を用いた教分解を用いた教師なを用いた教師なし使われたというこえば、本研究ではタッメチル分解を用いた教化や発現量無しも遺伝子発現プロファイル分解を用いた教も 入っていないマルって平均いないマル分解を用いた教チオミックスシーケンシングデータ解析への応用か正しく9クラスらでも、本研究ではタッ 使われたというこって平均いる変数選択法問題として解析(前立腺がんマルチオミがんマルチオミック)や発現量無し観測量(転写因子)を用いた教師なし再現する変数選択法 よう経験則な遺伝子選択が可能は悪く9である変数選択法。 し学習による変数か正しく9クラスし学習による変数、本研究ではタッ他の(伝統的な)の前立腺がんマルSOTAでは全く駄目(一個もく出てくるわけはな来る。なか正しく9クラスった教師なし学習に。 テンソル分解を用いた教分解を用いた教師なはマル分解を用いた教チオミックス解を用いた教師な析への応用の前立腺がんマル有効な手法としてもな手法とし学習による変数て平均もっと 活用いた教師なし学される変数選択法べき(だが、本研究ではタッまった教師なし学習にく注目されて平均いなくて平均、本研究ではタッこの前立腺がんマル論文も1も1
年以上前の前立腺がんマル論文も1ですがまった教師なし学習にく誰にも引用されてにも引用いた教師なし学されて平均いませんマルチオミック ) 😅)