MOLI: multi-omics late integration with deep neural networks for drug response prediction

MOLI: multi-omics late integration with deep neural networks for drug
response prediction Hossein Sharifi-Noghabi, Olga Zolotareva, Colin C Collins, Martin Ester Bioinformatics, Volume 35, Issue 14, July 2019, Pages i501‒i509, https://doi.org/10.1093/bioinformatics/btz318 紹介者たかとー @takatoh1 2019/08/21 ISMB/ECCB 2019読み会 1

背景 • 現在、ガンの個別医療を⾏われているのは全体の11％で、その恩恵を得られているのは5％と⾔われている。 • in vitroでの患者由来のがんの異種移植マウスモデル(PDX: patient-derived xenograft)やin vivoでの実際の患者由来のデー
タセット(TCGA: The Cancer Genome Atlas)は研究者に薬剤応答の予測を⼤規模に⾏うのに⼀役買っている。 • 2018年にマルチオミクスデータを統合する際のearly integrationとlate integrationの⼆種類が提唱された。 2

マルチオミクスデータを統合する際には、⼤きく分けてEarly integrationとlate integrationの⼆種類がある • Early integration:全てのオミクスデータを最初に連結する • Early
integrationの⽋点 • 各オミクスデータの特異的な分布を無視してしまう • より多くの次元を持つオミクスデータに⼤きな重み付けを与えないような適切な正規化を要求する • ⼊⼒データの次元性をより増加させる • Late integration:オミクスデータごとに別々に学習してから統合 • Late integrationの利点 • 各オミクスデータの特異的な分布を考慮できる • 各々のオミクスデータを適切に正規化できる • ⼊⼒データの次元を増加させることがない 3

概要 • MOLI(multi-omics late integration with deep neural networks)がearly integrationのDNNやシングルオミクスデータ
より良い性能を持っていることを⽰した。 • コスト関数としてclassification lossだけでなく、triplet lossを組み合わせることの有⽤性を⽰した。 • MOLIの転移学習の有⽤性を⽰した。 4

MOLIの概要は以下のようになっている 5

Input dataは体細胞変異、コピー数変化、遺伝⼦発現データから構成される 6

各サブネットワークをNNにより特徴量抽出している 7

Total costはclassification lossとtriplet loss から求める Multi-omics representation X_M:mutation, X_C: copy
number, X_E: gene expression Cross-entropy classification loss Triplet loss Anchor, Positive: 抗がん剤に対して応答する細胞種 Negative: 抗がん剤に対して応答しない細胞種 8

In vitroとin vitroのMOLIでの予測作成と転移学習による標的薬剤への応答予測 9

⽤いるデータセット • GDSC cell lines dataset (cell lineでの265種の薬剤応答を⾒ている) •
PDX Encyclopedia dataset(miceでの300以上のガン種の薬剤応答を⾒ている) • TCGA patients with the drug response available in their records(10000以上のがん患者の薬剤応答) • TCGA patients without the drug response(乳がん、膀胱がん、膵臓がん、肺がん、腎臓がん、前⽴腺がん患者のデータ) 10

この論⽂で⽤いる薬剤のサンプルと遺伝⼦数はこのようになっている。 11

実験デザイン • in vitroとin vivoのデータに関して、MOLIがシングルオミクスデータやearly integrationより優れているかをAUC曲線から確かめる。 • 転移学習がMOLIの精度向上に寄与するかを確かめる。全薬物
データの転移学習を⾏ったMOLIは、単⼀薬剤データの訓練を受けたMOLIを上回るかを確かめる。 • MOLIによる薬剤応答の予測と実際の薬剤応答が関連しているかを確かめる。 12

MOLIはearly integrationやシングルオミクスデータより良いAUCを得た。(>0.7) 13

MOLIをTCGAデータセットに適⽤・予測し、薬剤応答の予測と実際の薬剤応答が関連しているかを確かめた。（有意差ないものは⽰していない） • 乳がん • AP2A1 (P=0.007), CALM2 (P=0.01),
CLTA (P=0.0002), EGFR (P=1*10-5), PIK3CA (P=0.007), UBA52 (P=3*10-6) • 前⽴腺がん • AKT1 (P=0.02), CDK1 (P=0.01), RICTOR (P=0.0002) CREB1 (P=0.02), CSK (P=0.01) • 腎臓がん • EGFR (P=0.04) • 肺がん • CDC42 (P=0.04), EGFR (P=3*10-5), PRKAR2A (P=0.01) • 膀胱がん、膵臓がんでは有意差あるものはなかった 14

まとめ • MOLIがearly integrationのDNNやシングルオミクスデータより良い性能を持っていることを⽰した。 • コスト関数としてclassification lossだけでなく、triplet lossを組み合わせることの有⽤性を⽰した。
• MOLIの転移学習の有⽤性を⽰した。 • MOLIによる予測と実際の薬剤応答が相関しているものもあった。 • 2018年に提唱されたmulti-omicsにおけるearly integrationとlate integrationの抜け⽳を⾒つけてすぐに論⽂として発表したところがすごい。 • 転移学習の結果がなかったり、実際の薬剤応答との有意差がないところのデータを出さなかったりとデータに⽳が多い。感想 15

MOLI: multi-omics late integration with deep ne...

MOLI: multi-omics late integration with deep neural networks for drug response prediction

takatoh

More Decks by takatoh

Other Decks in Science

Featured

Transcript