Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テンソル分解を用いた教師なし学習による変数選択法のシングルセルマルチオミックスデータ解析への応用
Search
Y-h. Taguchi
June 21, 2024
Science
1
190
テンソル分解を用いた教師なし学習による変数選択法のシングルセルマルチオミックスデータ解析への応用
presentation at SIGBIO78
https://www.ipsj.or.jp/kenkyukai/event/mps148bio78.html
2024/6/21
Y-h. Taguchi
June 21, 2024
Tweet
Share
More Decks by Y-h. Taguchi
See All by Y-h. Taguchi
主成分分析に基づく教師なし特徴抽出法を用いたコラーゲン-グリコサミノグリカンメッシュの遺伝子発現への影響
tagtag
0
61
中央大学AI・データサイエンスセンター 2025年第6回イブニングセミナー 『知能とはなにか ヒトとAIのあいだ』
tagtag
0
82
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
0
37
知能とはなにかーヒトとAIのあいだー
tagtag
0
140
タンパク質間相互作⽤を利⽤した⼈⼯知能による新しい薬剤遺伝⼦-疾患相互作⽤の同定
tagtag
0
98
PPIのみを用いたAIによる薬剤–遺伝子–疾患 相互作用の同定
tagtag
0
82
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
0
110
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
1
150
ゲノム解析における射影: 特徴選択ツールとしてのテンソル分解と主成分分析を合理化する理論的根拠
tagtag
0
50
Other Decks in Science
See All in Science
機械学習 - SVM
trycycle
PRO
1
900
Cross-Media Technologies, Information Science and Human-Information Interaction
signer
PRO
3
31k
06_浅井雄一郎_株式会社浅井農園代表取締役社長_紹介資料.pdf
sip3ristex
0
670
データベース14: B+木 & ハッシュ索引
trycycle
PRO
0
490
データベース01: データベースを使わない世界
trycycle
PRO
1
820
Symfony Console Facelift
chalasr
2
480
地質研究者が苦労しながら運用する情報公開システムの実例
naito2000
0
290
【RSJ2025】PAMIQ Core: リアルタイム継続学習のための⾮同期推論・学習フレームワーク
gesonanko
0
190
CV_3_Keypoints
hachama
0
210
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text
rudorudo11
0
120
Agent開発フレームワークのOverviewとW&B Weaveとのインテグレーション
siyoo
0
360
機械学習 - K近傍法 & 機械学習のお作法
trycycle
PRO
0
1.2k
Featured
See All Featured
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
920
Art, The Web, and Tiny UX
lynnandtonic
303
21k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
31
2.7k
The World Runs on Bad Software
bkeepers
PRO
72
11k
Fireside Chat
paigeccino
40
3.7k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
10
880
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
140
34k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.5k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
Transcript
SIGBIO78 1 テンソル分解を用いた教師なし学習による変数選択法 のシングルセルマルチオミックスデータ解析への応用 田口善弘(中央大学)・ターキー ターキー(キング・アブ ドゥルアズィーズ大学)
SIGBIO78 2 この研究は2021年9月に原著論文として刊行済みです
SIGBIO78 3 宣伝:テンソル分解を用いた教師なし学 習による変数選択法の教科書の第2版 第2版 が2024年8月31日に発売です。大巾に 内容を増強して500頁超の大著(?)に なりました。ぜひ、お買い上げください。 ←お買い上げ はこちらから
SIGBIO78 4 本講演の内容は原著論文ではなく、 第2版の当該部分に準拠しています。
SIGBIO78 5 Single cell data sets: GSE154762: Dataset 1 GSE121708:
Dataset 2
SIGBIO78 6 Type of Measurements • scRNA-seq • scMethyl-seq •
scATAC-seq Sample (〜103 single cells) vs 〜104 genes (scRNA-seq) 〜107 sites (scMethyl-seq, scATAC-seq) Large p small n problem
SIGBIO78 7 研究の目的 • 遺伝子発現プロファイル、DNAメチル化、ATAC-seq をいい具合に統合解析してラベルに整合的な2次 元埋め込みをUMAP等で作れるようになりたい。 • 遺伝子選択を行って現象に重要な遺伝子を選択し たい。
SIGBIO78 8 統合解析手法:テンソル分解を用いた教師なし学習 による変数選択法 M N1 N2 N3 特異値分解 テンソル
テンソル分解 x i k jk =∑ l=1 L u li k k λ l k v l jk x ljk =∑ i k =1 N k u li k x i k jk =∑ l 1 =1 L 1 ∑ l 2 =1 L 2 ∑ l 3 =1 L 3 G(l1 l2 l3 )ul 1 l ul 2 j ul 3 k M M
SIGBIO78 9 データの前処理 メチル化プロファイル: メチル化:+1 非メチル化:−1 非検出:0 ATAC-seq: 200塩基長(ヒストン+リンカー)で平均
SIGBIO78 10 j(single cell)に付与された特異値ベクト ルvlj ,ul2j とラベルの整合性チェック →カテゴリ回帰 v ljk
=a lks δ js +b lk u l 2 j =a l 2 s δ js +b l 2 δjs :single cell j がラベルsの時1,それ以外は0
SIGBIO78 11 j(single cell)に 付与された特 異値ベクトル vlj ,ul2j とラベル の整合性は全
3プロファイル を使った時が 最良
SIGBIO78 12 u l 2 j ∈ℝL×M→ UMAP 個別プロファイル→ (L=10)
2プロファイル統合→ (L=10×2) 全3プロファイル統合→ (L=10×3) Data set 1
SIGBIO78 13 個別プロファイル→ (L=10) 2プロファイル統合→ (L=10×2) 全3プロファイル統合→ (L=10×3) Data set
2 u l 2 j ∈ℝL×M→ UMAP
SIGBIO78 14 図が小さくてわからないかもしれません が、全3プロファイルを使った場合が一番 ラベルとの整合性がいいです。
SIGBIO78 15 遺伝子選択 ラベルと有意に相関しているul2j だけを用いて、以下 の量を計算。 最大の値をとるのはdata set 1,2ともl1 =1だったの
でl1 =1であるul1l(つまりu1l)を採用。 ∑ l 2 ∑ l 3 =1 3 G(l 1 l 2 l 3 )2
SIGBIO78 16 u 1i 1 =∑ l=1 L u 1
l u li 1 1 Pi 1 =Pχ2 [> (u1i 1 σ l 2 )2 ] Benjamini-Hochberg基準で多重比較補正して 0.01以下の遺伝子のみ選択。 (k=1: RNA-seq) 累積χ2分布 (ガウス分布が帰無仮説)
SIGBIO78 17 Data set 1 :47遺伝子、Data set 2:175遺伝子 エンリッチメント解析サイトEnrichrで解析したと ころ、生物学的に意味がある多数のアノテーショ
ンと相関していたので、遺伝子選択にも有効であ ることが分かった。
SIGBIO78 18 この方法は大部分が欠損している場合にもOK
SIGBIO78 19 利点 • 一千万次元×細胞数の行列を扱える(疎行列な のでRのSparse Matrix Formatを使う)。 • 特異値分解も疎行列用の関数使用
• 殆どが欠損値であってもそのまま扱える • 次元数が異なっている複数の行列を簡単に統 合解析可能。
SIGBIO78 20 Bioconductorパッケージをリリース