SIGBIO78 5
Single cell data sets:
GSE154762: Dataset 1
GSE121708: Dataset 2
Slide 6
Slide 6 text
SIGBIO78 6
Type of Measurements
● scRNA-seq
● scMethyl-seq
● scATAC-seq
Sample (〜103 single cells)
vs
〜104 genes (scRNA-seq)
〜107 sites (scMethyl-seq, scATAC-seq)
Large p small n problem
SIGBIO78 8
統合解析手法:テンソル分解を用いた教師なし学習
による変数選択法
M
N1
N2
N3
特異値分解 テンソル テンソル分解
x
i
k
jk
=∑
l=1
L
u
li
k
k
λ
l
k v
l jk
x
ljk
=∑
i
k
=1
N
k u
li
k
x
i
k
jk
=∑
l
1
=1
L
1
∑
l
2
=1
L
2
∑
l
3
=1
L
3
G(l1
l2
l3
)ul
1
l
ul
2
j
ul
3
k
M
M
SIGBIO78 15
遺伝子選択
ラベルと有意に相関しているul2j
だけを用いて、以下
の量を計算。
最大の値をとるのはdata set 1,2ともl1
=1だったの
でl1
=1であるul1l(つまりu1l)を採用。
∑
l
2
∑
l
3
=1
3
G(l
1
l
2
l
3
)2
Slide 16
Slide 16 text
SIGBIO78 16
u
1i
1
=∑
l=1
L
u
1 l
u
li
1
1
Pi
1
=Pχ2
[>
(u1i
1
σ
l
2
)2
]
Benjamini-Hochberg基準で多重比較補正して
0.01以下の遺伝子のみ選択。
(k=1: RNA-seq)
累積χ2分布
(ガウス分布が帰無仮説)
Slide 17
Slide 17 text
SIGBIO78 17
Data set 1 :47遺伝子、Data set 2:175遺伝子
エンリッチメント解析サイトEnrichrで解析したと
ころ、生物学的に意味がある多数のアノテーショ
ンと相関していたので、遺伝子選択にも有効であ
ることが分かった。