Slide 1

Slide 1 text

SIGBIO79 1 マルチオミクスデータ解析のためのカーネルテンソル分解に よる新しい特徴選択法 中央大学 田口善弘 キング・アブドゥルアズィーズ大学 ターキー・ターキー

Slide 2

Slide 2 text

SIGBIO79 2 宣伝 「テンソル分解を用いた教師なし学習 による変数選択法」の教科書(第2版) でました(8/31刊行) 500頁超! 買ってください。

Slide 3

Slide 3 text

SIGBIO79 3 この内容は以下のように2年半前に刊行済みです

Slide 4

Slide 4 text

SIGBIO79 4 解析の流れ

Slide 5

Slide 5 text

SIGBIO79 5 使用データ HBVワクチン接種、0,1,3,7,14日後の血液(15人) テンソルデータ 変数の個数 Nk ● メチル化(アレイ) 657,582 ● RNA-seq     35,829 ● 全血プロテオーム  1,588 ● 血清プロテオーム  1,588             ×5×15 x i k j 1 j 2 ∈ℝN k ×5×15

Slide 6

Slide 6 text

SIGBIO79 6 各プロファイルを線形カーネル化 テンソル分解 x kj 1 j 2 j 1 'j 2 ' =∑ l 1 =1 5 ∑ l 2 =1 15 ∑ l 3 =1 5 ∑ l 4 =1 15 ∑ l 5 =1 4 G(l 1 l 2 l 3 l 4 l 5 )u l 1 j 1 u l 2 j 2 u l 3 j 1 ' u l 4 j 2 ' u l 5 k x k j 1 j 2 j 1 ' j 2 ' =∑ i k =1 N k x i k j 1 j 2 x i k j 1 ' j 2 ' ∈ℝ4×5×15×5×15

Slide 7

Slide 7 text

SIGBIO79 7 u2j1 u1j2 u1k

Slide 8

Slide 8 text

SIGBIO79 8 u 21i k =∑ j 1 =1 15 ∑ j 2 =1 5 x i k j 1 j 2 u 2 j 1 u 1 j 2 Pi k =Pχ2 [> (u21 i k σ 21 )2 ] ik に付与された特異値ベクトルを計算 特異値ベクトルがガウス分布しているという帰無仮説でP値を計算 Benjamini-Hochberg法で多重比較補正して0.01以下のik を選択

Slide 9

Slide 9 text

SIGBIO79 9 メチル化 メチル化 2077プローブ→1335遺伝子 遺伝子セット自体のエンリッチメント解析は× →1335遺伝子を有意に標的とする転写因子(TF)→22TF ZNF217, TCF4, STAT3, SMARCD1, WT1, FOXA2, PAX3-FKHR, SMAD4, SMAD3, SOX9, TFAP2C, YAP1, AR, SOX2, CTNNB1, VDR, PIAS1, TEAD4, MITF, HNF4A, SUZ12 →22TFのエンリッチメント解析

Slide 10

Slide 10 text

SIGBIO79 10 KEGG

Slide 11

Slide 11 text

SIGBIO79 11 RNA-seq RNA-seq → 11 gene → 8 gene symbol S100A9, CD74, hba1, ACTB, HBB, HBA2,MALAT1, COX1 →エンリッチメント解析

Slide 12

Slide 12 text

SIGBIO79 12 Disease Perturbations from GEO down Disease Perturbations from GEO down

Slide 13

Slide 13 text

SIGBIO79 13 Disease Perturbations from GEO up Disease Perturbations from GEO up

Slide 14

Slide 14 text

SIGBIO79 14 全血プロテオーム 全血プロテオーム→24タンパク HIST1H2BJ, HIST2H2BF, HIST1H2BG, HIST1H2BB, HIST1H2BD, ACTG1, HIST1H2BL, HIST1H2BN, PFN1, HIST1H2BK, HIST3H2BB,ACTB, HBB, HBA2, HIST1H2BA, HIST1H2BI, HIST1H2BC, HIST1H2BO, HIST2H2BE, HIST1H2BM, HBA1, HIST1H2BF, HIST1H2BE, HIST1H2BH → エンリッチメント解析

Slide 15

Slide 15 text

SIGBIO79 15 Disease Perturbations from GEO down Disease Perturbations from GEO down

Slide 16

Slide 16 text

SIGBIO79 16 Disease Perturbations from GEO up Disease Perturbations from GEO up

Slide 17

Slide 17 text

SIGBIO79 17 血清プロテオーム 血清プロテオーム→22タンパク FGA, HP, GSN, ALB, FGG, IGLL5, APOA1, SER- PINA1, ORM1, TF, GC, CP, C4A, CSF3R, A2M, HPX, HRG, A1BG, CFH, APOB, C3, CLEC14A → エンリッチメント解析

Slide 18

Slide 18 text

SIGBIO79 18 Disease Perturbations from GEO down Disease Perturbations from GEO down

Slide 19

Slide 19 text

SIGBIO79 19 Disease Perturbations from GEO up Disease Perturbations from GEO up

Slide 20

Slide 20 text

SIGBIO79 20 本手法の利点 ● 変数の数が異なるマルチおミックスでも、サンプ ル数が同じなら統合解析可能 ● 計算量が(サンプル数)2×オミックス数に抑えら れる → 界隈での評価は残念ながらゼロに等しい

Slide 21

Slide 21 text

SIGBIO79 21 上手く行く理由: xikj1j2 同士の相関係数(除くメチル化) (遺伝子そのものはだめだった)メチル化以外はそれな りに相関している。いつもうまく行くとは限らないが簡単 なのでやって見る価値はある。

Slide 22

Slide 22 text

SIGBIO79 22 まとめ 線形カーネル化することで、 ● 変数の数が異なっている場合も統合解析可能 ● 計算量を抑えられる 線形カーネル化することでオミックス間の関係(相関) が定量化できるのが上手くできる理由(らしい)