Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MOLI: multi-omics late integration with deep neural networks for drug response prediction

takatoh
August 21, 2019

MOLI: multi-omics late integration with deep neural networks for drug response prediction

takatoh

August 21, 2019
Tweet

More Decks by takatoh

Other Decks in Science

Transcript

  1. MOLI: multi-omics late integration with deep neural networks for drug

    response prediction Hossein Sharifi-Noghabi, Olga Zolotareva, Colin C Collins, Martin Ester Bioinformatics, Volume 35, Issue 14, July 2019, Pages i501‒i509, https://doi.org/10.1093/bioinformatics/btz318 紹介者 たかとー @takatoh1 2019/08/21 ISMB/ECCB 2019読み会 1
  2. 背景 • 現在、ガンの個別医療を⾏われているのは全体の11%で、その 恩恵を得られているのは5%と⾔われている。 • in vitroでの患者由来のがんの異種移植マウスモデル(PDX: patient-derived xenograft)やin vivoでの実際の患者由来のデー

    タセット(TCGA: The Cancer Genome Atlas)は研究者に薬剤応 答の予測を⼤規模に⾏うのに⼀役買っている。 • 2018年にマルチオミクスデータを統合する際のearly integrationとlate integrationの⼆種類が提唱された。 2
  3. マルチオミクスデータを統合する際には、 ⼤きく分けてEarly integrationとlate integrationの ⼆種類がある • Early integration:全てのオミクスデータを最初に連結する • Early

    integrationの⽋点 • 各オミクスデータの特異的な分布を無視してしまう • より多くの次元を持つオミクスデータに⼤きな重み付けを与えないような 適切な正規化を要求する • ⼊⼒データの次元性をより増加させる • Late integration:オミクスデータごとに別々に学習してから統合 • Late integrationの利点 • 各オミクスデータの特異的な分布を考慮できる • 各々のオミクスデータを適切に正規化できる • ⼊⼒データの次元を増加させることがない 3
  4. 概要 • MOLI(multi-omics late integration with deep neural networks)がearly integrationのDNNやシングルオミクスデータ

    より良い性能を持っていることを⽰した。 • コスト関数としてclassification lossだけでなく、triplet lossを 組み合わせることの有⽤性を⽰した。 • MOLIの転移学習の有⽤性を⽰した。 4
  5. Total costはclassification lossとtriplet loss から求める Multi-omics representation X_M:mutation, X_C: copy

    number, X_E: gene expression Cross-entropy classification loss Triplet loss Anchor, Positive: 抗がん剤に対して応答する細胞種 Negative: 抗がん剤に対して応答しない細胞種 8
  6. ⽤いるデータセット • GDSC cell lines dataset (cell lineでの265種の薬剤応答を⾒て いる) •

    PDX Encyclopedia dataset(miceでの300以上のガン種の薬剤 応答を⾒ている) • TCGA patients with the drug response available in their records(10000以上のがん患者の薬剤応答) • TCGA patients without the drug response(乳がん、膀胱がん、 膵臓がん、肺がん、腎臓がん、前⽴腺がん患者のデータ) 10
  7. 実験デザイン • in vitroとin vivoのデータに関して、MOLIがシングルオミクス データやearly integrationより優れているかをAUC曲線から確 かめる。 • 転移学習がMOLIの精度向上に寄与するかを確かめる。全薬物

    データの転移学習を⾏ったMOLIは、単⼀薬剤データの訓練を 受けたMOLIを上回るかを確かめる。 • MOLIによる薬剤応答の予測と実際の薬剤応答が関連している かを確かめる。 12
  8. MOLIをTCGAデータセットに適⽤・予測し、薬剤 応答の予測と実際の薬剤応答が関連しているかを 確かめた。(有意差ないものは⽰していない) • 乳がん • AP2A1 (P=0.007), CALM2 (P=0.01),

    CLTA (P=0.0002), EGFR (P=1*10-5), PIK3CA (P=0.007), UBA52 (P=3*10-6) • 前⽴腺がん • AKT1 (P=0.02), CDK1 (P=0.01), RICTOR (P=0.0002) CREB1 (P=0.02), CSK (P=0.01) • 腎臓がん • EGFR (P=0.04) • 肺がん • CDC42 (P=0.04), EGFR (P=3*10-5), PRKAR2A (P=0.01) • 膀胱がん、膵臓がんでは有意差あるものはなかった 14
  9. まとめ • MOLIがearly integrationのDNNやシングルオミクスデータより良い性能 を持っていることを⽰した。 • コスト関数としてclassification lossだけでなく、triplet lossを組み合わ せることの有⽤性を⽰した。

    • MOLIの転移学習の有⽤性を⽰した。 • MOLIによる予測と実際の薬剤応答が相関しているものもあった。 • 2018年に提唱されたmulti-omicsにおけるearly integrationとlate integrationの抜け⽳を⾒つけてすぐに論⽂として発表したところがすご い。 • 転移学習の結果がなかったり、実際の薬剤応答との有意差がないところ のデータを出さなかったりとデータに⽳が多い。 感想 15