Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MOLI: multi-omics late integration with deep neural networks for drug response prediction

takatoh
August 21, 2019

MOLI: multi-omics late integration with deep neural networks for drug response prediction

takatoh

August 21, 2019
Tweet

More Decks by takatoh

Other Decks in Science

Transcript

  1. MOLI: multi-omics late integration
    with deep neural networks
    for drug response prediction
    Hossein Sharifi-Noghabi, Olga Zolotareva, Colin C Collins, Martin Ester
    Bioinformatics, Volume 35, Issue 14, July 2019, Pages i501‒i509,
    https://doi.org/10.1093/bioinformatics/btz318
    紹介者
    たかとー @takatoh1
    2019/08/21
    ISMB/ECCB 2019読み会
    1

    View Slide

  2. 背景
    • 現在、ガンの個別医療を⾏われているのは全体の11%で、その
    恩恵を得られているのは5%と⾔われている。
    • in vitroでの患者由来のがんの異種移植マウスモデル(PDX:
    patient-derived xenograft)やin vivoでの実際の患者由来のデー
    タセット(TCGA: The Cancer Genome Atlas)は研究者に薬剤応
    答の予測を⼤規模に⾏うのに⼀役買っている。
    • 2018年にマルチオミクスデータを統合する際のearly
    integrationとlate integrationの⼆種類が提唱された。
    2

    View Slide

  3. マルチオミクスデータを統合する際には、
    ⼤きく分けてEarly integrationとlate integrationの
    ⼆種類がある
    • Early integration:全てのオミクスデータを最初に連結する
    • Early integrationの⽋点
    • 各オミクスデータの特異的な分布を無視してしまう
    • より多くの次元を持つオミクスデータに⼤きな重み付けを与えないような
    適切な正規化を要求する
    • ⼊⼒データの次元性をより増加させる
    • Late integration:オミクスデータごとに別々に学習してから統合
    • Late integrationの利点
    • 各オミクスデータの特異的な分布を考慮できる
    • 各々のオミクスデータを適切に正規化できる
    • ⼊⼒データの次元を増加させることがない
    3

    View Slide

  4. 概要
    • MOLI(multi-omics late integration with deep neural
    networks)がearly integrationのDNNやシングルオミクスデータ
    より良い性能を持っていることを⽰した。
    • コスト関数としてclassification lossだけでなく、triplet lossを
    組み合わせることの有⽤性を⽰した。
    • MOLIの転移学習の有⽤性を⽰した。
    4

    View Slide

  5. MOLIの概要は以下のようになっている
    5

    View Slide

  6. Input dataは体細胞変異、コピー数変化、
    遺伝⼦発現データから構成される
    6

    View Slide

  7. 各サブネットワークをNNにより
    特徴量抽出している
    7

    View Slide

  8. Total costはclassification lossとtriplet loss
    から求める
    Multi-omics representation
    X_M:mutation, X_C: copy number, X_E: gene expression
    Cross-entropy classification loss
    Triplet loss
    Anchor, Positive: 抗がん剤に対して応答する細胞種 Negative: 抗がん剤に対して応答しない細胞種
    8

    View Slide

  9. In vitroとin vitroのMOLIでの予測作成と
    転移学習による標的薬剤への応答予測
    9

    View Slide

  10. ⽤いるデータセット
    • GDSC cell lines dataset (cell lineでの265種の薬剤応答を⾒て
    いる)
    • PDX Encyclopedia dataset(miceでの300以上のガン種の薬剤
    応答を⾒ている)
    • TCGA patients with the drug response available in their
    records(10000以上のがん患者の薬剤応答)
    • TCGA patients without the drug response(乳がん、膀胱がん、
    膵臓がん、肺がん、腎臓がん、前⽴腺がん患者のデータ)
    10

    View Slide

  11. この論⽂で⽤いる薬剤のサンプルと
    遺伝⼦数はこのようになっている。
    11

    View Slide

  12. 実験デザイン
    • in vitroとin vivoのデータに関して、MOLIがシングルオミクス
    データやearly integrationより優れているかをAUC曲線から確
    かめる。
    • 転移学習がMOLIの精度向上に寄与するかを確かめる。全薬物
    データの転移学習を⾏ったMOLIは、単⼀薬剤データの訓練を
    受けたMOLIを上回るかを確かめる。
    • MOLIによる薬剤応答の予測と実際の薬剤応答が関連している
    かを確かめる。
    12

    View Slide

  13. MOLIはearly integrationやシングル
    オミクスデータより良いAUCを得た。(>0.7)
    13

    View Slide

  14. MOLIをTCGAデータセットに適⽤・予測し、薬剤
    応答の予測と実際の薬剤応答が関連しているかを
    確かめた。(有意差ないものは⽰していない)
    • 乳がん
    • AP2A1 (P=0.007), CALM2 (P=0.01), CLTA (P=0.0002),
    EGFR (P=1*10-5), PIK3CA (P=0.007), UBA52 (P=3*10-6)
    • 前⽴腺がん
    • AKT1 (P=0.02), CDK1 (P=0.01), RICTOR (P=0.0002)
    CREB1 (P=0.02), CSK (P=0.01)
    • 腎臓がん
    • EGFR (P=0.04)
    • 肺がん
    • CDC42 (P=0.04), EGFR (P=3*10-5), PRKAR2A (P=0.01)
    • 膀胱がん、膵臓がんでは有意差あるものはなかった
    14

    View Slide

  15. まとめ
    • MOLIがearly integrationのDNNやシングルオミクスデータより良い性能
    を持っていることを⽰した。
    • コスト関数としてclassification lossだけでなく、triplet lossを組み合わ
    せることの有⽤性を⽰した。
    • MOLIの転移学習の有⽤性を⽰した。
    • MOLIによる予測と実際の薬剤応答が相関しているものもあった。
    • 2018年に提唱されたmulti-omicsにおけるearly integrationとlate
    integrationの抜け⽳を⾒つけてすぐに論⽂として発表したところがすご
    い。
    • 転移学習の結果がなかったり、実際の薬剤応答との有意差がないところ
    のデータを出さなかったりとデータに⽳が多い。
    感想
    15

    View Slide