Upgrade to Pro — share decks privately, control downloads, hide ads and more …

サンプル間に対応も共通のラベルもない遺伝子発現プロファイルの統合解析

Y-h. Taguchi
August 03, 2021

 サンプル間に対応も共通のラベルもない遺伝子発現プロファイルの統合解析

第三回新学術代謝統合オミクス 解析セミナーI
2021年7月26日(オンライン)
詳しくはプレプリント↓参照
https://doi.org/10.21203/rs.3.rs-766884/v1

Y-h. Taguchi

August 03, 2021
Tweet

More Decks by Y-h. Taguchi

Other Decks in Science

Transcript

  1. 第三回新学術代謝統合オミクス 解析オミクス 解析セミナー解析セミナーセミナーI
    公募研究第2期
    A02:トランスオミクス解析セミナー技術開発
    テンソル分解を用いた教分解を用いた教師無し用いた教師無し学いた教師無し学習に教師無し学習による変し学習による変数学習による変数選択による変数選択法を用変数選択法を用いたトラを用いた教師無し用いた教師無し学いた教師無し学習にトラ
    ンスオミクス解析セミナー
    中央大学 理工学部 田口善弘

    View full-size slide

  2. 今日説明したいこと(し学習による変数た教師無し学習にいこと(未発表
    未発表):
    サンプル分解を用いた教間に対応も共通のに対応も共通のラベルも共通のラベルも共通のラベルもないのラベルもない遺ラベル分解を用いた教も共通のラベルもない遺伝子発現プロファイプロファイ
    ル分解を用いた教のラベルもない遺統合オミクス 解析解析セミナー
    健常者
    患者
    遺伝子(N)
    M
    1
    WT
    KO
    M
    2

    View full-size slide

  3. 用いた教師無し学途:
    ・ある変数選択法を用疾患のラベルもない遺原因遺伝子を用いた教師無しKO(OE)し学習による変数た教師無し学習に時、疾患のラベルもない遺発生によってによって
    起きる遺伝子発現きる変数選択法を用遺伝子発現プロファイプロファイル分解を用いた教のラベルもない遺変化とどれくらい似とどれくらい似ているか?ている変数選択法を用か?
    ・2つ以上の以上ののラベルもない遺scRNA-seqを用いた教師無し統合オミクス 解析解析セミナーし学習による変数た教師無し学習にい(scRNA-seqには細細
    胞にラベルがついにラベル分解を用いた教がつ以上のいていない)
    ・異なった種の発生なった教師無し学習に種の発生過程を比のラベルもない遺発生によって過程を比較したい(を用いた教師無し比較したい(例えばし学習による変数た教師無し学習にい(例えば、ヒトとマえば、ヒトとマウスだと
    発生によってのラベルもない遺速度が違うので時間が違うので時間の対うのラベルもない遺で時間の対応が付時間に対応も共通ののラベルもない遺対応も共通のラベルが付けにくい)けにくい)

    View full-size slide

  4. 方法を用いたトラ:
    特異なった種の発生値分解(SVD)し学習による変数て低次元に落としてからに落としてから束ねとし学習による変数てから束ねてテンソルにねてテンソル分解を用いた教にし学習による変数て
    テンソル分解を用いた教分解し学習による変数、求まった特異値ベまった教師無し学習に特異なった種の発生値ベクトル分解を用いた教を用いた教師無し元に落としてからのラベルもない遺空間に対応も共通のに射影し直すし学習による変数直すす
    N(遺伝子)
    M
    1
    サンプル分解を用いた教
    ×
    N
    L
    N(遺伝子)
    M
    2
    サンプル分解を用いた教
    ×
    N
    L
    N
    L K
    x
    ilk
    ××
    N L
    L
    M
    1
    SVD
    ×
    ×
    N L
    L
    M
    2
    SVD

    View full-size slide

  5. x
    ilk
    G
    u
    l1i
    u
    l2l
    u
    l3k
    L1
    L2
    L3
    HOSVD
    K
    L
    N
    M
    1
    L2
    L
    M
    1
    L
    M
    2
    M
    2
    L2
    健常者
    患者
    vs
    WT
    KO
    vs
    L
    L2
    ×
    L
    L2
    u
    l2l
    ×

    View full-size slide

  6. 結論
    遺伝子は細一致しているがサンし学習による変数ている変数選択法を用がサンプル分解を用いた教間に対応も共通のになんのラベルもない遺対応も共通のラベル関係も無い場合、も共通のラベルも無し学習による変い場合オミクス 解析、
    SVDやHOVSDで時間の対応が付サンプル分解を用いた教のラベルもない遺次元に落としてからを用いた教師無し同じ次元の低次元じ次元の低次元に次元に落としてからのラベルもない遺低次元に落としてからに射影し直すし学習による変数て
    から束ねてテンソルにねてテンソル分解を用いた教を用いた教師無し作ればうまく行くればうまく行くことが解ったくことが解った教師無し学習に。
    束ねてテンソルにねた教師無し学習にテンソル分解を用いた教を用いた教師無し分解し学習による変数て得られた特異値ベられた教師無し学習に特異なった種の発生値ベクトル分解を用いた教を用いた教師無し元に落としてからのラベルもない遺サンプル分解を用いた教
    のラベルもない遺次元に落としてからに射影し直すし学習による変数直すすと、(元に落としてから々無し学習による変かった教師無し学習には細ずのラベルもない遺)サンプル分解を用いた教間に対応も共通ののラベルもない遺対応も共通のラベル関
    係も無い場合、を用いた教師無し視覚化とどれくらい似出来ることが解ったる変数選択法を用ことが解った教師無し学習に。
    scRNA-seqに用いた教師無し学いれば〜104個ののラベルもない遺single cellのラベルもない遺問題をわずか10次を用いた教師無しわずか10次次
    元に落としてからのラベルもない遺問題をわずか10次とし学習による変数て扱えるので千分のえる変数選択法を用のラベルもない遺で時間の対応が付千分のラベルもない遺1のラベルもない遺メモリーのラベルもない遺節約になることがになる変数選択法を用ことが
    解った教師無し学習に(よくVAEなど次元に落としてからを用いた教師無し下げているのをみげている変数選択法を用のラベルもない遺を用いた教師無しみかける変数選択法を用があれは細single
    cellのラベルもない遺数は細保持して遺伝子の方し学習による変数て遺伝子のラベルもない遺方のラベルもない遺次元に落としてからを用いた教師無し下げているのをみげている変数選択法を用のラベルもない遺で時間の対応が付あり、single
    cellのラベルもない遺方のラベルもない遺数のラベルもない遺次元に落としてからを用いた教師無し下げているのをみげる変数選択法を用本研究とは細本質的に異なる)に異なった種の発生なる変数選択法を用)

    View full-size slide

  7. 実験データデータ
    実験データデータ:
    :Alzheimer Diseases
    Alzheimer Diseases
    Data Set 1(GSE160224) 58303 genes vs 9 samples
    iPSC-derived neurons: 3 Control, 3 APP duplication, 3 gene corr.
    Classification: 3 Control vs 6 AD (2 classes)
    Data Set 2(GSE155567) 60617 genes vs 23 samples
    CD33 KO/WT vs PTPN6 KD/WT: 4 classes
    6 WT/WT, 6 WT/KD, 5 KO/WT, 6 KO/KD
    Data Set 3(GSE162873) 47749 genes vs 8 samples
    Cell lines: 2 AD1, 2 AD2, 4 Controls (3 classes)
    Data Set 2のラベルもない遺60617 genesに統一。値のラベルもない遺無し学習による変い所はゼロを埋めるは細ゼロを用いた教師無し埋める。める変数選択法を用。
    Sampleごとに平均ゼロ、分散1にゼロ、分散1に規格化とどれくらい似し学習による変数てから統合オミクス 解析解析セミナー。L=8
    L=8。

    View full-size slide

  8. Data set 1 Data set 2
    Data set 2 Data set 3
    Data set 1
    C
    N
    T
    L
    AD
    Data set 3
    AD1AD2
    C
    N
    T
    L
    Data set 2
    WT
    WT
    WT
    KD
    KO
    WT
    KO
    KD
    CD33
    PTPN6

    View full-size slide




  9. Data set

    l
    2
    =1
    3
    G (l
    1
    l
    2
    l
    3
    )2
    遺伝子選択

    View full-size slide

  10. P
    i
    =P
    χ2
    [>∑l
    1
    =1
    5 (u
    l
    1
    i
    σl
    1
    )2]
    BH多重比較したい(例えば補正
    Adjusted P
    i
    <0.01 → 565遺伝子
    u
    l
    1
    i
      が多重ガウス分布すると仮定(帰する変数選択法を用と仮定(帰無し学習による変仮説)
    棄却確率はカイ二乗分布は細カイ二乗分布すると仮定(帰で時間の対応が付遺伝子に付けにくい)与

    View full-size slide

  11. エンリッチメント解析セミナー

    View full-size slide

  12. Drug repositioning
    Drug repositioning
    Data set 1,2,3 + Data set 4
    (疾患:AD)  (投薬)
    Data set 4: ( GSE164788) 94×4×3 sample, 28044 genes.
    80種の発生過程を比類の低分子化合物のラベルもない遺低分子化とどれくらい似合オミクス 解析物を2〜4を用いた教師無し2〜4dose densityで時間の対応が付作ればうまく行く用いた教師無し学させた教師無し学習に時のラベルもない遺遺伝
    子発現プロファイプロファイル分解を用いた教(神経細胞にラベルがついとグリアの混合培養細胞のラベルもない遺混合オミクス 解析培養細胞にラベルがつい)。Biological
    replicateは細3。
    複数のラベルもない遺化とどれくらい似合オミクス 解析物を2〜4のラベルもない遺混合オミクス 解析投与も共通のラベルも行くことが解ったった教師無し学習にのラベルもない遺で時間の対応が付94×4×3 sample.
    単独でで時間の対応が付HOSVD.
    94 化とどれくらい似合オミクス 解析物を2〜4:4
    4特異なった種の発生値ベクトル分解を用いた教(from 12特異なった種の発生値ベクトル分解を用いた教)
    4 dose density:2
    2特異なった種の発生値ベクトル分解を用いた教(from 4特異なった種の発生値ベクトル分解を用いた教)
    3 biological replicate:1
    1特異なった種の発生値ベクトル分解を用いた教 解析セミナー(from 3特異なった種の発生値ベクトル分解を用いた教)
    L
    L=4×2×1=8
    =4×2×1=8

    View full-size slide

  13. Data set 1
    C
    N
    T
    L
    AD
    Data set 1
    Data set 2
    WT
    WT
    WT
    KD
    KO
    WT
    KO
    KD
    Data set 2
    Data set 2
    CD33
    PTPN6
    Data set 3
    AD1AD2
    C
    N
    T
    L
    Data set 3

    View full-size slide




  14. Data set

    l
    2
    =1
    4
    G (l
    1
    l
    2
    l
    3
    )2
    遺伝子選択

    View full-size slide

  15. P
    i
    =P
    χ2
    [>∑l
    1
    =1
    5 (u
    l
    1
    i
    σl
    1
    )2]
    BH多重比較したい(例えば補正
    Adjusted P
    i
    <0.01 → 544遺伝子
    u
    l
    1
    i
      が多重ガウス分布すると仮定(帰する変数選択法を用と仮定(帰無し学習による変仮説)
    棄却確率はカイ二乗分布は細カイ二乗分布すると仮定(帰で時間の対応が付遺伝子に付けにくい)与

    View full-size slide

  16. エンリッチメント解析セミナー

    View full-size slide

  17. 化とどれくらい似合オミクス 解析物を2〜4選択
    L=8
    8
    L
    2
    4
    4
    94
    化とどれくらい似合オミクス 解析物を2〜4
    × 2
    2
    4
    dose
    ×
    u
    l2l
    SVD
    94
    4
    4
    4
    化とどれくらい似合オミクス 解析物を2〜4
    dose
    3×94×4×L
    2
    テンソル分解を用いた教
    1×94×4×1
    行くことが解った列
    3
    1
    1
    Biological
    replicate
    ×

    View full-size slide

  18. 94
    化とどれくらい似合オミクス 解析物を2〜4
    ~
    l

    View full-size slide

  19. 転移学習による変数選択
    転移学習による変数選択
    Data set 1,2,3 + Data set 5
    (疾患:AD) 解析セミナー 解析セミナー(ABCC1 OE)
    Data set 5 ( GSE164642)18 samples, 58003 genes
    3 CNTL vs 3 RNA1
    3 CNTL vs 3 RNA2 → 6 classes.
    3 CNTL vs 3 RNA3
    3 (RNA) × 2 (CNTL vs RNA) × 3 (biological replicates) テンソル分解を用いた教
    単独でで時間の対応が付HOSVD.
    3 RNA:2
    2特異なった種の発生値ベクトル分解を用いた教(from 3特異なった種の発生値ベクトル分解を用いた教)
    2 CNTL vs RNA:2
    2特異なった種の発生値ベクトル分解を用いた教(from 2特異なった種の発生値ベクトル分解を用いた教)
    3 biological replicate:2
    2特異なった種の発生値ベクトル分解を用いた教 解析セミナー(from 3特異なった種の発生値ベクトル分解を用いた教)
    L
    L=2×2×2=8
    =2×2×2=8

    View full-size slide

  20. Data set 1
    C
    N
    T
    L
    AD
    Data set 1
    Data set 3
    AD1AD2
    C
    N
    T
    L
    Data set 3
    Data set 5
    C
    N
    T
    L
    R
    N
    A
    1
    C
    N
    T
    L
    R
    N
    A
    2
    R
    N
    A
    3
    C
    N
    T
    L
    Data set 5
    Data set 2
    WT
    WT
    WT
    KD
    KO
    KD
    Data set 2
    Data set 2
    KO
    WT
    CD33
    PTPN6

    View full-size slide




  21. Data set
    ∑l
    2
    ∈[1,3,4,5]
    G(l
    1
    l
    2
    l
    3
    )2
    遺伝子選択

    View full-size slide

  22. P
    i
    =P
    χ2
    [>∑l
    1
    =1
    5 (u
    l
    1
    i
    σl
    1
    )2]
    BH多重比較したい(例えば補正
    Adjusted P
    i
    <0.01 → 660遺伝子
    u
    l
    1
    i
      が多重ガウス分布すると仮定(帰する変数選択法を用と仮定(帰無し学習による変仮説)
    棄却確率はカイ二乗分布は細カイ二乗分布すると仮定(帰で時間の対応が付遺伝子に付けにくい)与

    View full-size slide

  23. エンリッチメント解析セミナー

    View full-size slide

  24. 既存手法を用いたトラと比較したい(例えば
    既存手法を用いたトラと比較したい(例えば
    N×M
    1
    N×M
    2
    N×M
    3
    共通のラベルもない行くことが解った列分解
    ①CMF, GFA
    ②GFA
    ③行くことが解った列を用いた教師無し結合オミクス 解析し学習による変数て
    全体ににSVD

    ×
    ×


    ×
    N
    M
    1
    M
    2
    M
    3
    ×
    N×(M
    1
    +M
    2
    +M
    3
    ) N
    M
    1
    +M
    2
    +M
    3

    View full-size slide

  25. P
    i
    =P
    χ2
    [>
    (u
    1i
    σ1
    )2]
    BH多重比較したい(例えば補正
    Adjusted P
    i
    <0.01 → 147遺伝子
    u
    1i
      がガウス分布すると仮定(帰する変数選択法を用と仮定(帰無し学習による変仮説)
    棄却確率はカイ二乗分布は細カイ二乗分布すると仮定(帰で時間の対応が付遺伝子に付けにくい)与
    遺伝子選択

    View full-size slide

  26. エンリッチメント解析セミナー

    View full-size slide

  27. scRNA-seq
    scRNA-seqへのラベルもない遺応も共通のラベル用いた教師無し学
    へのラベルもない遺応も共通のラベル用いた教師無し学
    Data set 6 (GSE163577), 25 profiles, 33538 genes
    Each profile: ~104 cells, (海馬vs皮質)×(AD vs CNTL):4 解析セミナーclasses
    各プロファイルにプロファイル分解を用いた教にSVDを用いた教師無し作ればうまく行く用いた教師無し学させて(L=)10次次元に落としてからに射影し直すし学習による変数、
    33538遺伝子×10次特異なった種の発生値ベクトル分解を用いた教のラベルもない遺行くことが解った列
    に変換。これを用いた教師無し25個束ねて個の束ねてテンソルにねて
    33538遺伝子×10次特異なった種の発生値ベクトル分解を用いた教×25個束ねてプロファイル分解を用いた教のラベルもない遺テンソル分解を用いた教
    に変換し学習による変数てHOSVD。

    View full-size slide

  28. 25個ののラベルもない遺プロファイル分解を用いた教に付けにくい)与された教師無し学習に
    特異なった種の発生値ベクトル分解を用いた教を用いた教師無し見ると6番目だる変数選択法を用と6番目だ番目だだ
    けが有意に4群に別れてに4群に別れているに別れているれている変数選択法を用

    l
    2
    =1
    10
    G (l
    1
    l
    2
    6)2
    A
    D


    A
    D


    C
    N
    T
    L


    C
    N
    T
    L


    u
    l3k
    l
    3
    =6

    View full-size slide

  29. P
    i
    =P
    χ2
    [>
    (u
    6i
    σ6
    )2]
    BH多重比較したい(例えば補正
    Adjusted P
    i
    <0.01 → 177遺伝子
    u
    6 i
      が多重ガウス分布すると仮定(帰する変数選択法を用と仮定(帰無し学習による変仮説)
    棄却確率はカイ二乗分布は細カイ二乗分布すると仮定(帰で時間の対応が付遺伝子に付けにくい)与

    View full-size slide

  30. エンリッチメント解析セミナー

    View full-size slide

  31. 結論(再掲)
    遺伝子は細一致しているがサンし学習による変数ている変数選択法を用がサンプル分解を用いた教間に対応も共通のになんのラベルもない遺対応も共通のラベル関係も無い場合、も共通のラベルも無し学習による変い場合オミクス 解析、
    SVDやHOVSDで時間の対応が付サンプル分解を用いた教のラベルもない遺次元に落としてからを用いた教師無し同じ次元の低次元じ次元の低次元に次元に落としてからのラベルもない遺低次元に落としてからに射影し直すし学習による変数て
    から束ねてテンソルにねてテンソル分解を用いた教を用いた教師無し作ればうまく行くればうまく行くことが解ったくことが解った教師無し学習に。
    束ねてテンソルにねた教師無し学習にテンソル分解を用いた教を用いた教師無し分解し学習による変数て得られた特異値ベられた教師無し学習に特異なった種の発生値ベクトル分解を用いた教を用いた教師無し元に落としてからのラベルもない遺サンプル分解を用いた教
    のラベルもない遺次元に落としてからに射影し直すし学習による変数直すすと、(元に落としてから々無し学習による変かった教師無し学習には細ずのラベルもない遺)サンプル分解を用いた教間に対応も共通ののラベルもない遺対応も共通のラベル関
    係も無い場合、を用いた教師無し視覚化とどれくらい似出来ることが解ったる変数選択法を用ことが解った教師無し学習に。
    scRNA-seqに用いた教師無し学いれば〜104個ののラベルもない遺single cellのラベルもない遺問題をわずか10次を用いた教師無しわずか10次次
    元に落としてからのラベルもない遺問題をわずか10次とし学習による変数て扱えるので千分のえる変数選択法を用のラベルもない遺で時間の対応が付千分のラベルもない遺1のラベルもない遺メモリーのラベルもない遺節約になることがになる変数選択法を用ことが
    解った教師無し学習に(よくVAEなど次元に落としてからを用いた教師無し下げているのをみげている変数選択法を用のラベルもない遺を用いた教師無しみかける変数選択法を用があれは細single
    cellのラベルもない遺数は細保持して遺伝子の方し学習による変数て遺伝子のラベルもない遺方のラベルもない遺次元に落としてからを用いた教師無し下げているのをみげている変数選択法を用のラベルもない遺で時間の対応が付あり、single
    cellのラベルもない遺方のラベルもない遺数のラベルもない遺次元に落としてからを用いた教師無し下げているのをみげる変数選択法を用本研究とは細本質的に異なる)に異なった種の発生なる変数選択法を用)

    View full-size slide