Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テンソル分解を用いた教師なし学習による変数選択法のシングルセルマルチオミックスデータ解析への応用
Search
Y-h. Taguchi
June 21, 2024
Science
1
39
テンソル分解を用いた教師なし学習による変数選択法のシングルセルマルチオミックスデータ解析への応用
presentation at SIGBIO78
https://www.ipsj.or.jp/kenkyukai/event/mps148bio78.html
2024/6/21
Y-h. Taguchi
June 21, 2024
Tweet
Share
More Decks by Y-h. Taguchi
See All by Y-h. Taguchi
学術講演会中央大学学員会八王子支部
tagtag
0
170
教師なしテンソル分解に基づく、有糸分裂後の転写再活性化におけるヒストン修飾ブックマークとしての転写因子候補の抽出法
tagtag
0
87
遺伝子発現プロファイルに基づく新しい薬物間相互作用予測法
tagtag
0
120
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
0
250
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
0
130
TDbasedUFE and TDbasedUFEadv: bioconductor packages to perform tensor decomposition based unsupervised feature extraction
tagtag
0
58
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
1
220
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
0
290
Bioconductorパッケージ,TDbasedUFETDbasedUFEadvの紹介
tagtag
0
93
Other Decks in Science
See All in Science
BigQueryで参加するレコメンドコンペ / bq-recommend-competition-kaggle-meetup-tokyo-2023
shimacos
1
1.5k
20231211ベクトル解析の計算
kamakiri1225
0
120
Machine Learning for Materials (Lecture 3)
aronwalsh
0
880
名古屋市立大学データサイエンス学部 秋のオープンキャンパス模擬授業20231111
trycycle
0
3k
大規模画像テキストデータのフィルタリング手法の紹介
lyakaap
6
1.2k
Machine Learning for Materials (Lecture 6)
aronwalsh
0
450
History towards Universal Neural Network Potential for Material Discovery
matlantis
0
200
FIBA W杯の日本代表って組み合わせ次第で2次ラウンド行けたんじゃね?をデータで検証
saltcooky12
0
210
Non-Gaussian methods for causal discovery
sshimizu2006
0
210
20240127_OpenRadiossエアバッグ解析
kamakiri1225
0
180
2024-06-16-pydata_london
sofievl
0
270
SIGDIAL論文読み会: PGTask: Introducing the Task of Profile Generation from Dialogues
kaiyo3
0
120
Featured
See All Featured
Building Your Own Lightsaber
phodgson
101
5.8k
Rails Girls Zürich Keynote
gr2m
91
13k
Web development in the modern age
philhawksworth
203
10k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
34
6.2k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
24
1.7k
Large-scale JavaScript Application Architecture
addyosmani
505
110k
The Illustrated Children's Guide to Kubernetes
chrisshort
35
47k
What's in a price? How to price your products and services
michaelherold
238
11k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
228
16k
Creatively Recalculating Your Daily Design Routine
revolveconf
213
11k
What’s in a name? Adding method to the madness
productmarketing
PRO
18
2.8k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
15
1.6k
Transcript
SIGBIO78 1 テンソル分解を用いた教師なし学習による変数選択法 のシングルセルマルチオミックスデータ解析への応用 田口善弘(中央大学)・ターキー ターキー(キング・アブ ドゥルアズィーズ大学)
SIGBIO78 2 この研究は2021年9月に原著論文として刊行済みです
SIGBIO78 3 宣伝:テンソル分解を用いた教師なし学 習による変数選択法の教科書の第2版 第2版 が2024年8月31日に発売です。大巾に 内容を増強して500頁超の大著(?)に なりました。ぜひ、お買い上げください。 ←お買い上げ はこちらから
SIGBIO78 4 本講演の内容は原著論文ではなく、 第2版の当該部分に準拠しています。
SIGBIO78 5 Single cell data sets: GSE154762: Dataset 1 GSE121708:
Dataset 2
SIGBIO78 6 Type of Measurements • scRNA-seq • scMethyl-seq •
scATAC-seq Sample (〜103 single cells) vs 〜104 genes (scRNA-seq) 〜107 sites (scMethyl-seq, scATAC-seq) Large p small n problem
SIGBIO78 7 研究の目的 • 遺伝子発現プロファイル、DNAメチル化、ATAC-seq をいい具合に統合解析してラベルに整合的な2次 元埋め込みをUMAP等で作れるようになりたい。 • 遺伝子選択を行って現象に重要な遺伝子を選択し たい。
SIGBIO78 8 統合解析手法:テンソル分解を用いた教師なし学習 による変数選択法 M N1 N2 N3 特異値分解 テンソル
テンソル分解 x i k jk =∑ l=1 L u li k k λ l k v l jk x ljk =∑ i k =1 N k u li k x i k jk =∑ l 1 =1 L 1 ∑ l 2 =1 L 2 ∑ l 3 =1 L 3 G(l1 l2 l3 )ul 1 l ul 2 j ul 3 k M M
SIGBIO78 9 データの前処理 メチル化プロファイル: メチル化:+1 非メチル化:−1 非検出:0 ATAC-seq: 200塩基長(ヒストン+リンカー)で平均
SIGBIO78 10 j(single cell)に付与された特異値ベクト ルvlj ,ul2j とラベルの整合性チェック →カテゴリ回帰 v ljk
=a lks δ js +b lk u l 2 j =a l 2 s δ js +b l 2 δjs :single cell j がラベルsの時1,それ以外は0
SIGBIO78 11 j(single cell)に 付与された特 異値ベクトル vlj ,ul2j とラベル の整合性は全
3プロファイル を使った時が 最良
SIGBIO78 12 u l 2 j ∈ℝL×M→ UMAP 個別プロファイル→ (L=10)
2プロファイル統合→ (L=10×2) 全3プロファイル統合→ (L=10×3) Data set 1
SIGBIO78 13 個別プロファイル→ (L=10) 2プロファイル統合→ (L=10×2) 全3プロファイル統合→ (L=10×3) Data set
2 u l 2 j ∈ℝL×M→ UMAP
SIGBIO78 14 図が小さくてわからないかもしれません が、全3プロファイルを使った場合が一番 ラベルとの整合性がいいです。
SIGBIO78 15 遺伝子選択 ラベルと有意に相関しているul2j だけを用いて、以下 の量を計算。 最大の値をとるのはdata set 1,2ともl1 =1だったの
でl1 =1であるul1l(つまりu1l)を採用。 ∑ l 2 ∑ l 3 =1 3 G(l 1 l 2 l 3 )2
SIGBIO78 16 u 1i 1 =∑ l=1 L u 1
l u li 1 1 Pi 1 =Pχ2 [> (u1i 1 σ l 2 )2 ] Benjamini-Hochberg基準で多重比較補正して 0.01以下の遺伝子のみ選択。 (k=1: RNA-seq) 累積χ2分布 (ガウス分布が帰無仮説)
SIGBIO78 17 Data set 1 :47遺伝子、Data set 2:175遺伝子 エンリッチメント解析サイトEnrichrで解析したと ころ、生物学的に意味がある多数のアノテーショ
ンと相関していたので、遺伝子選択にも有効であ ることが分かった。
SIGBIO78 18 この方法は大部分が欠損している場合にもOK
SIGBIO78 19 利点 • 一千万次元×細胞数の行列を扱える(疎行列な のでRのSparse Matrix Formatを使う)。 • 特異値分解も疎行列用の関数使用
• 殆どが欠損値であってもそのまま扱える • 次元数が異なっている複数の行列を簡単に統 合解析可能。
SIGBIO78 20 Bioconductorパッケージをリリース