Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テンソル分解を用いた教師なし学習による変数選択法のシングルセルマルチオミックスデータ解析への応用
Search
Y-h. Taguchi
PRO
June 21, 2024
Science
1
190
テンソル分解を用いた教師なし学習による変数選択法のシングルセルマルチオミックスデータ解析への応用
presentation at SIGBIO78
https://www.ipsj.or.jp/kenkyukai/event/mps148bio78.html
2024/6/21
Y-h. Taguchi
PRO
June 21, 2024
Tweet
Share
More Decks by Y-h. Taguchi
See All by Y-h. Taguchi
Genomic Differentiation of Sleep and Anesthesia: The Role of RHO GTPase and Cortical Neurons
tagtag
PRO
0
11
睡眠と麻酔による無意識状態のゲノム的差異:RHO GTPaseと皮質ニューロンの役割
tagtag
PRO
0
42
Somatostatin-Expressing Neurons Regulate Sleep Deprivation and Recovery: A Data-Driven Transcriptomic Analysis
tagtag
PRO
0
9
Sstニューロンによる睡眠不足と回復の制御:データ駆動型トランスクリプトーム解析
tagtag
PRO
0
29
テンソル分解を用いたVisiumデータの高精度・高速デコンボリューション手法
tagtag
PRO
0
36
Novel Tensor Decomposition-Based Approach for Cell-Type Deconvolution in Visium Datasets
tagtag
PRO
0
8
presen_同仁倶楽部.pdf
tagtag
PRO
0
26
知能とはなにか -ヒトとAIのあいだ-
tagtag
PRO
1
53
生成AIの現状と展望
tagtag
PRO
0
75
Other Decks in Science
See All in Science
デジタルアーカイブの教育利用促進を目指したメタデータLOD基盤に関する研究 / Research on a Metadata LOD Platform for Promoting Educational Uses of Digital Archives
masao
0
130
論文紹介 音源分離:SCNET SPARSE COMPRESSION NETWORK FOR MUSIC SOURCE SEPARATION
kenmatsu4
0
470
機械学習 - SVM
trycycle
PRO
1
960
俺たちは本当に分かり合えるのか? ~ PdMとスクラムチームの “ずれ” を科学する
bonotake
2
770
Celebrate UTIG: Staff and Student Awards 2025
utig
0
410
SpatialRDDパッケージによる空間回帰不連続デザイン
saltcooky12
0
120
データベース10: 拡張実体関連モデル
trycycle
PRO
0
1k
データベース15: ビッグデータ時代のデータベース
trycycle
PRO
0
420
ド文系だった私が、 KaggleのNCAAコンペでソロ金取れるまで
wakamatsu_takumu
2
1.8k
機械学習 - 決定木からはじめる機械学習
trycycle
PRO
0
1.2k
防災デジタル分野での官民共創の取り組み (1)防災DX官民共創をどう進めるか
ditccsugii
0
460
会社でMLモデルを作るとは @電気通信大学 データアントレプレナーフェロープログラム
yuto16
1
480
Featured
See All Featured
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
29
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
71k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
59
Facilitating Awesome Meetings
lara
57
6.7k
Why Our Code Smells
bkeepers
PRO
340
58k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
78
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
115
100k
Scaling GitHub
holman
464
140k
Abbi's Birthday
coloredviolet
0
4.2k
A better future with KSS
kneath
240
18k
Optimising Largest Contentful Paint
csswizardry
37
3.6k
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
130
Transcript
SIGBIO78 1 テンソル分解を用いた教師なし学習による変数選択法 のシングルセルマルチオミックスデータ解析への応用 田口善弘(中央大学)・ターキー ターキー(キング・アブ ドゥルアズィーズ大学)
SIGBIO78 2 この研究は2021年9月に原著論文として刊行済みです
SIGBIO78 3 宣伝:テンソル分解を用いた教師なし学 習による変数選択法の教科書の第2版 第2版 が2024年8月31日に発売です。大巾に 内容を増強して500頁超の大著(?)に なりました。ぜひ、お買い上げください。 ←お買い上げ はこちらから
SIGBIO78 4 本講演の内容は原著論文ではなく、 第2版の当該部分に準拠しています。
SIGBIO78 5 Single cell data sets: GSE154762: Dataset 1 GSE121708:
Dataset 2
SIGBIO78 6 Type of Measurements • scRNA-seq • scMethyl-seq •
scATAC-seq Sample (〜103 single cells) vs 〜104 genes (scRNA-seq) 〜107 sites (scMethyl-seq, scATAC-seq) Large p small n problem
SIGBIO78 7 研究の目的 • 遺伝子発現プロファイル、DNAメチル化、ATAC-seq をいい具合に統合解析してラベルに整合的な2次 元埋め込みをUMAP等で作れるようになりたい。 • 遺伝子選択を行って現象に重要な遺伝子を選択し たい。
SIGBIO78 8 統合解析手法:テンソル分解を用いた教師なし学習 による変数選択法 M N1 N2 N3 特異値分解 テンソル
テンソル分解 x i k jk =∑ l=1 L u li k k λ l k v l jk x ljk =∑ i k =1 N k u li k x i k jk =∑ l 1 =1 L 1 ∑ l 2 =1 L 2 ∑ l 3 =1 L 3 G(l1 l2 l3 )ul 1 l ul 2 j ul 3 k M M
SIGBIO78 9 データの前処理 メチル化プロファイル: メチル化:+1 非メチル化:−1 非検出:0 ATAC-seq: 200塩基長(ヒストン+リンカー)で平均
SIGBIO78 10 j(single cell)に付与された特異値ベクト ルvlj ,ul2j とラベルの整合性チェック →カテゴリ回帰 v ljk
=a lks δ js +b lk u l 2 j =a l 2 s δ js +b l 2 δjs :single cell j がラベルsの時1,それ以外は0
SIGBIO78 11 j(single cell)に 付与された特 異値ベクトル vlj ,ul2j とラベル の整合性は全
3プロファイル を使った時が 最良
SIGBIO78 12 u l 2 j ∈ℝL×M→ UMAP 個別プロファイル→ (L=10)
2プロファイル統合→ (L=10×2) 全3プロファイル統合→ (L=10×3) Data set 1
SIGBIO78 13 個別プロファイル→ (L=10) 2プロファイル統合→ (L=10×2) 全3プロファイル統合→ (L=10×3) Data set
2 u l 2 j ∈ℝL×M→ UMAP
SIGBIO78 14 図が小さくてわからないかもしれません が、全3プロファイルを使った場合が一番 ラベルとの整合性がいいです。
SIGBIO78 15 遺伝子選択 ラベルと有意に相関しているul2j だけを用いて、以下 の量を計算。 最大の値をとるのはdata set 1,2ともl1 =1だったの
でl1 =1であるul1l(つまりu1l)を採用。 ∑ l 2 ∑ l 3 =1 3 G(l 1 l 2 l 3 )2
SIGBIO78 16 u 1i 1 =∑ l=1 L u 1
l u li 1 1 Pi 1 =Pχ2 [> (u1i 1 σ l 2 )2 ] Benjamini-Hochberg基準で多重比較補正して 0.01以下の遺伝子のみ選択。 (k=1: RNA-seq) 累積χ2分布 (ガウス分布が帰無仮説)
SIGBIO78 17 Data set 1 :47遺伝子、Data set 2:175遺伝子 エンリッチメント解析サイトEnrichrで解析したと ころ、生物学的に意味がある多数のアノテーショ
ンと相関していたので、遺伝子選択にも有効であ ることが分かった。
SIGBIO78 18 この方法は大部分が欠損している場合にもOK
SIGBIO78 19 利点 • 一千万次元×細胞数の行列を扱える(疎行列な のでRのSparse Matrix Formatを使う)。 • 特異値分解も疎行列用の関数使用
• 殆どが欠損値であってもそのまま扱える • 次元数が異なっている複数の行列を簡単に統 合解析可能。
SIGBIO78 20 Bioconductorパッケージをリリース