SmilesFormer: Language Model for Molecular Design, Elix, CBI 2022

Slide 1

Slide 1 text

SmilesFormer: Language Model for Molecular Design Elix, Inc. Chem-Bio Informatics Society (CBI) Annual Meeting 2022, Tokyo Japan | October 26, 2022 Joshua Owoyemi, Ph.D & Nazim Medzhidov, Ph.D

Slide 9

Slide 9 text

9 Results: Distribution Benchmarks AAE Graph MCTS Random Sampler SMILES LSTM VAE ORGAN SmilesFormer Validity 0.822 1 1 0.959 0.87 0.379 1 Uniqueness 1 1 0.997 1 0.999 0.841 1 Novelty 0.998 0.994 0 0.912 0.974 0.686 0.9958 KL divergence 0.886 0.522 0.998 0.991 0.982 0.267 0.8722 Frechet ChemNet Distance 0.529 0.015 0.929 0.913 0.863 0 0.1537 Model Valid (↑) Unique @1k (↑) Unique@ 10k (↑) FCD (↓) SNN (↑) Frag (↑) Scaf (↑) IntDiv (↑) IntDiv2 (↑) Filters (↑) Novelty (↑) Test TestSF Test TestSF Test TestSF Test TestSF Train 1 1 1 0.008 0.4755 0.6419 0.5859 1 0.9986 0.9907 0 0.8567 0.8508 1 1 HMM 0.076±0.0322 0.623 ±0.1224 0.5671 ±0.1424 24.4661 ±2.5251 25.4312 ±2.5599 0.3876 ±0.0107 0.3795 ±0.0107 0.5754 ±0.1224 0.5681 ±0.1218 0.2065 ±0.0481 0.049 ±0.018 0.8466 ±0.0403 0.8104 ±0.0507 0.9024 ±0.0489 0.9994±0.001 CharRNN 0.9748±0.0264 1.0±0.0 0.9994 ±0.0003 0.0732 ±0.0247 0.5204 ±0.0379 0.6015 ±0.0206 0.5649 ±0.0142 0.9998 ±0.0002 0.9983 ±0.0003 0.9242 ±0.0058 0.1101 ±0.0081 0.8562 ±0.0005 0.8503 ±0.0005 0.9943 ±0.0034 0.8419±0.0509 AAE 0.9368±0.0341 1.0±0.0 0.9973 ±0.002 0.5555 ±0.2033 1.0572 ±0.2375 0.6081 ±0.0043 0.5677 ±0.0045 0.991 ±0.0051 0.9905 ±0.0039 0.9022 ±0.0375 0.0789 ±0.009 0.8557 ±0.0031 0.8499 ±0.003 0.996 ±0.0006 0.7931±0.0285 VAE 0.9767±0.0012 1.0±0.0 0.9984 ±0.0005 0.099 ±0.0125 0.567 ±0.0338 0.6257 ±0.0005 0.5783 ±0.0008 0.9994 ±0.0001 0.9984 ±0.0003 0.9386 ±0.0021 0.0588 ±0.0095 0.8558 ±0.0004 0.8498 ±0.0004 0.997 ±0.0002 0.6949±0.0069 JTN-VAE 1.0±0.0 1.0±0.0 0.9996 ±0.0003 0.3954 ±0.0234 0.9382 ±0.0531 0.5477 ±0.0076 0.5194 ±0.007 0.9965 ±0.0003 0.9947 ±0.0002 0.8964 ±0.0039 0.1009 ±0.0105 0.8551 ±0.0034 0.8493 ±0.0035 0.976 ±0.0016 0.9143±0.0058 LatentGAN 0.8966±0.0029 1.0±0.0 0.9968 ±0.0002 0.2968 ±0.0087 0.8281 ±0.0117 0.5371 ±0.0004 0.5132 ±0.0002 0.9986 ±0.0004 0.9972 ±0.0007 0.8867 ±0.0009 0.1072 ±0.0098 0.8565 ±0.0007 0.8505 ±0.0006 0.9735 ±0.0006 0.9498±0.0006 SmilesFormer 1.0±0.0 1.0±0.0 1.0±0.0 15.665 ±0.04 16.467 ±0.001 0.4025 ±0.003 0.3903 ±0.005 0.8373 ±0.2 0.8583 ±0.0002 0.1438 ±0.004 0.06336 ±0.01 0.9144±0.0 0.9020 ±0.0 0.4947 ±0.003 0.99994±0.00001 • Guacamol[+] • MOSES[^] [+] N. Brown, M. Fiscato, M. H. S. Segler, and A. C. Vaucher, “GuacaMol: Benchmarking Models for de Novo Molecular Design,” J. Chem. Inf. Model., vol. 59, no. 3, pp. 1096–1108, Mar. 2019, doi: 10.1021/acs.jcim.8b00839. [^] D. Polykovskiy et al., “Molecular Sets (MOSES): A Benchmarking Platform for Molecular Generation Models,” arXiv:1811.12823 [cs, stat], Oct. 2020, Accessed: Nov. 21, 2021. [Online]. Available: http://arxiv.org/abs/1811.12823

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text