Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テンソル分解を用いた教師なし学習による変数選択法のシングルセルマルチオミックスデータ解析への応用
Search
Y-h. Taguchi
June 21, 2024
Science
1
190
テンソル分解を用いた教師なし学習による変数選択法のシングルセルマルチオミックスデータ解析への応用
presentation at SIGBIO78
https://www.ipsj.or.jp/kenkyukai/event/mps148bio78.html
2024/6/21
Y-h. Taguchi
June 21, 2024
Tweet
Share
More Decks by Y-h. Taguchi
See All by Y-h. Taguchi
presen_同仁倶楽部.pdf
tagtag
0
12
知能とはなにか -ヒトとAIのあいだ-
tagtag
1
35
生成AIの現状と展望
tagtag
0
56
主成分分析に基づく教師なし特徴抽出法を用いたコラーゲン-グリコサミノグリカンメッシュの遺伝子発現への影響
tagtag
0
110
中央大学AI・データサイエンスセンター 2025年第6回イブニングセミナー 『知能とはなにか ヒトとAIのあいだ』
tagtag
0
90
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
0
53
知能とはなにかーヒトとAIのあいだー
tagtag
0
150
タンパク質間相互作⽤を利⽤した⼈⼯知能による新しい薬剤遺伝⼦-疾患相互作⽤の同定
tagtag
0
110
PPIのみを用いたAIによる薬剤–遺伝子–疾患 相互作用の同定
tagtag
0
97
Other Decks in Science
See All in Science
NASの容量不足のお悩み解決!災害対策も兼ねた「Wasabi Cloud NAS」はここがスゴイ
climbteam
1
220
実力評価性能を考慮した弓道高校生全国大会の大会制度設計の提案 / (konakalab presentation at MSS 2025.03)
konakalab
2
220
データマイニング - グラフ構造の諸指標
trycycle
PRO
0
200
データベース10: 拡張実体関連モデル
trycycle
PRO
0
1k
防災デジタル分野での官民共創の取り組み (1)防災DX官民共創をどう進めるか
ditccsugii
0
360
白金鉱業Meetup_Vol.20 効果検証ことはじめ / Introduction to Impact Evaluation
brainpadpr
2
1.3k
蔵本モデルが解き明かす同期と相転移の秘密 〜拍手のリズムはなぜ揃うのか?〜
syotasasaki593876
1
130
【RSJ2025】PAMIQ Core: リアルタイム継続学習のための⾮同期推論・学習フレームワーク
gesonanko
0
270
データベース03: 関係データモデル
trycycle
PRO
1
290
高校生就活へのDA導入の提案
shunyanoda
0
6.1k
Accelerated Computing for Climate forecast
inureyes
PRO
0
130
DMMにおけるABテスト検証設計の工夫
xc6da
1
1.3k
Featured
See All Featured
It's Worth the Effort
3n
187
28k
Writing Fast Ruby
sferik
630
62k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.6k
Git: the NoSQL Database
bkeepers
PRO
432
66k
Side Projects
sachag
455
43k
How to Think Like a Performance Engineer
csswizardry
28
2.3k
Testing 201, or: Great Expectations
jmmastey
46
7.8k
[RailsConf 2023] Rails as a piece of cake
palkan
57
6.1k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Build The Right Thing And Hit Your Dates
maggiecrowley
38
2.9k
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
Transcript
SIGBIO78 1 テンソル分解を用いた教師なし学習による変数選択法 のシングルセルマルチオミックスデータ解析への応用 田口善弘(中央大学)・ターキー ターキー(キング・アブ ドゥルアズィーズ大学)
SIGBIO78 2 この研究は2021年9月に原著論文として刊行済みです
SIGBIO78 3 宣伝:テンソル分解を用いた教師なし学 習による変数選択法の教科書の第2版 第2版 が2024年8月31日に発売です。大巾に 内容を増強して500頁超の大著(?)に なりました。ぜひ、お買い上げください。 ←お買い上げ はこちらから
SIGBIO78 4 本講演の内容は原著論文ではなく、 第2版の当該部分に準拠しています。
SIGBIO78 5 Single cell data sets: GSE154762: Dataset 1 GSE121708:
Dataset 2
SIGBIO78 6 Type of Measurements • scRNA-seq • scMethyl-seq •
scATAC-seq Sample (〜103 single cells) vs 〜104 genes (scRNA-seq) 〜107 sites (scMethyl-seq, scATAC-seq) Large p small n problem
SIGBIO78 7 研究の目的 • 遺伝子発現プロファイル、DNAメチル化、ATAC-seq をいい具合に統合解析してラベルに整合的な2次 元埋め込みをUMAP等で作れるようになりたい。 • 遺伝子選択を行って現象に重要な遺伝子を選択し たい。
SIGBIO78 8 統合解析手法:テンソル分解を用いた教師なし学習 による変数選択法 M N1 N2 N3 特異値分解 テンソル
テンソル分解 x i k jk =∑ l=1 L u li k k λ l k v l jk x ljk =∑ i k =1 N k u li k x i k jk =∑ l 1 =1 L 1 ∑ l 2 =1 L 2 ∑ l 3 =1 L 3 G(l1 l2 l3 )ul 1 l ul 2 j ul 3 k M M
SIGBIO78 9 データの前処理 メチル化プロファイル: メチル化:+1 非メチル化:−1 非検出:0 ATAC-seq: 200塩基長(ヒストン+リンカー)で平均
SIGBIO78 10 j(single cell)に付与された特異値ベクト ルvlj ,ul2j とラベルの整合性チェック →カテゴリ回帰 v ljk
=a lks δ js +b lk u l 2 j =a l 2 s δ js +b l 2 δjs :single cell j がラベルsの時1,それ以外は0
SIGBIO78 11 j(single cell)に 付与された特 異値ベクトル vlj ,ul2j とラベル の整合性は全
3プロファイル を使った時が 最良
SIGBIO78 12 u l 2 j ∈ℝL×M→ UMAP 個別プロファイル→ (L=10)
2プロファイル統合→ (L=10×2) 全3プロファイル統合→ (L=10×3) Data set 1
SIGBIO78 13 個別プロファイル→ (L=10) 2プロファイル統合→ (L=10×2) 全3プロファイル統合→ (L=10×3) Data set
2 u l 2 j ∈ℝL×M→ UMAP
SIGBIO78 14 図が小さくてわからないかもしれません が、全3プロファイルを使った場合が一番 ラベルとの整合性がいいです。
SIGBIO78 15 遺伝子選択 ラベルと有意に相関しているul2j だけを用いて、以下 の量を計算。 最大の値をとるのはdata set 1,2ともl1 =1だったの
でl1 =1であるul1l(つまりu1l)を採用。 ∑ l 2 ∑ l 3 =1 3 G(l 1 l 2 l 3 )2
SIGBIO78 16 u 1i 1 =∑ l=1 L u 1
l u li 1 1 Pi 1 =Pχ2 [> (u1i 1 σ l 2 )2 ] Benjamini-Hochberg基準で多重比較補正して 0.01以下の遺伝子のみ選択。 (k=1: RNA-seq) 累積χ2分布 (ガウス分布が帰無仮説)
SIGBIO78 17 Data set 1 :47遺伝子、Data set 2:175遺伝子 エンリッチメント解析サイトEnrichrで解析したと ころ、生物学的に意味がある多数のアノテーショ
ンと相関していたので、遺伝子選択にも有効であ ることが分かった。
SIGBIO78 18 この方法は大部分が欠損している場合にもOK
SIGBIO78 19 利点 • 一千万次元×細胞数の行列を扱える(疎行列な のでRのSparse Matrix Formatを使う)。 • 特異値分解も疎行列用の関数使用
• 殆どが欠損値であってもそのまま扱える • 次元数が異なっている複数の行列を簡単に統 合解析可能。
SIGBIO78 20 Bioconductorパッケージをリリース