Slide 1

Slide 1 text

MOLI: multi-omics late integration with deep neural networks for drug response prediction Hossein Sharifi-Noghabi, Olga Zolotareva, Colin C Collins, Martin Ester Bioinformatics, Volume 35, Issue 14, July 2019, Pages i501‒i509, https://doi.org/10.1093/bioinformatics/btz318 紹介者 たかとー @takatoh1 2019/08/21 ISMB/ECCB 2019読み会 1

Slide 2

Slide 2 text

背景 • 現在、ガンの個別医療を⾏われているのは全体の11%で、その 恩恵を得られているのは5%と⾔われている。 • in vitroでの患者由来のがんの異種移植マウスモデル(PDX: patient-derived xenograft)やin vivoでの実際の患者由来のデー タセット(TCGA: The Cancer Genome Atlas)は研究者に薬剤応 答の予測を⼤規模に⾏うのに⼀役買っている。 • 2018年にマルチオミクスデータを統合する際のearly integrationとlate integrationの⼆種類が提唱された。 2

Slide 3

Slide 3 text

マルチオミクスデータを統合する際には、 ⼤きく分けてEarly integrationとlate integrationの ⼆種類がある • Early integration:全てのオミクスデータを最初に連結する • Early integrationの⽋点 • 各オミクスデータの特異的な分布を無視してしまう • より多くの次元を持つオミクスデータに⼤きな重み付けを与えないような 適切な正規化を要求する • ⼊⼒データの次元性をより増加させる • Late integration:オミクスデータごとに別々に学習してから統合 • Late integrationの利点 • 各オミクスデータの特異的な分布を考慮できる • 各々のオミクスデータを適切に正規化できる • ⼊⼒データの次元を増加させることがない 3

Slide 4

Slide 4 text

概要 • MOLI(multi-omics late integration with deep neural networks)がearly integrationのDNNやシングルオミクスデータ より良い性能を持っていることを⽰した。 • コスト関数としてclassification lossだけでなく、triplet lossを 組み合わせることの有⽤性を⽰した。 • MOLIの転移学習の有⽤性を⽰した。 4

Slide 5

Slide 5 text

MOLIの概要は以下のようになっている 5

Slide 6

Slide 6 text

Input dataは体細胞変異、コピー数変化、 遺伝⼦発現データから構成される 6

Slide 7

Slide 7 text

各サブネットワークをNNにより 特徴量抽出している 7

Slide 8

Slide 8 text

Total costはclassification lossとtriplet loss から求める Multi-omics representation X_M:mutation, X_C: copy number, X_E: gene expression Cross-entropy classification loss Triplet loss Anchor, Positive: 抗がん剤に対して応答する細胞種 Negative: 抗がん剤に対して応答しない細胞種 8

Slide 9

Slide 9 text

In vitroとin vitroのMOLIでの予測作成と 転移学習による標的薬剤への応答予測 9

Slide 10

Slide 10 text

⽤いるデータセット • GDSC cell lines dataset (cell lineでの265種の薬剤応答を⾒て いる) • PDX Encyclopedia dataset(miceでの300以上のガン種の薬剤 応答を⾒ている) • TCGA patients with the drug response available in their records(10000以上のがん患者の薬剤応答) • TCGA patients without the drug response(乳がん、膀胱がん、 膵臓がん、肺がん、腎臓がん、前⽴腺がん患者のデータ) 10

Slide 11

Slide 11 text

この論⽂で⽤いる薬剤のサンプルと 遺伝⼦数はこのようになっている。 11

Slide 12

Slide 12 text

実験デザイン • in vitroとin vivoのデータに関して、MOLIがシングルオミクス データやearly integrationより優れているかをAUC曲線から確 かめる。 • 転移学習がMOLIの精度向上に寄与するかを確かめる。全薬物 データの転移学習を⾏ったMOLIは、単⼀薬剤データの訓練を 受けたMOLIを上回るかを確かめる。 • MOLIによる薬剤応答の予測と実際の薬剤応答が関連している かを確かめる。 12

Slide 13

Slide 13 text

MOLIはearly integrationやシングル オミクスデータより良いAUCを得た。(>0.7) 13

Slide 14

Slide 14 text

MOLIをTCGAデータセットに適⽤・予測し、薬剤 応答の予測と実際の薬剤応答が関連しているかを 確かめた。(有意差ないものは⽰していない) • 乳がん • AP2A1 (P=0.007), CALM2 (P=0.01), CLTA (P=0.0002), EGFR (P=1*10-5), PIK3CA (P=0.007), UBA52 (P=3*10-6) • 前⽴腺がん • AKT1 (P=0.02), CDK1 (P=0.01), RICTOR (P=0.0002) CREB1 (P=0.02), CSK (P=0.01) • 腎臓がん • EGFR (P=0.04) • 肺がん • CDC42 (P=0.04), EGFR (P=3*10-5), PRKAR2A (P=0.01) • 膀胱がん、膵臓がんでは有意差あるものはなかった 14

Slide 15

Slide 15 text

まとめ • MOLIがearly integrationのDNNやシングルオミクスデータより良い性能 を持っていることを⽰した。 • コスト関数としてclassification lossだけでなく、triplet lossを組み合わ せることの有⽤性を⽰した。 • MOLIの転移学習の有⽤性を⽰した。 • MOLIによる予測と実際の薬剤応答が相関しているものもあった。 • 2018年に提唱されたmulti-omicsにおけるearly integrationとlate integrationの抜け⽳を⾒つけてすぐに論⽂として発表したところがすご い。 • 転移学習の結果がなかったり、実際の薬剤応答との有意差がないところ のデータを出さなかったりとデータに⽳が多い。 感想 15