Slide 9
Slide 9 text
Copyright © Elix, Inc. All rights reserved.
プロパティの予測・分⼦構造の⽣成・化学反応の予測など、幅広く⽤いられている
• MolGPT[1]
◦ ChEMBL・ZINCから取得した約350万個のSMILES⽂字列を⽤いて、GPT-1の軽量版を訓練
➔ スキャフォールドやプロパティを指定した構造⽣成に成功
• MolBERT[2]
◦ ChEMBLから取得した約160万個のSMILES⽂字列を⽤いて、BERTの要領で事前学習
➔予測タスクごとに訓練済みモデルをファインチューニングしたモデルが良い予測性能を⽰した
• Molecular Transformer[3]
◦ USPTOデータセットの化学反応データで訓練したモデルによる反応⽣成物予測
これらはTransformerを多数の化合物データで訓練することで活⽤した例
➔ ⾃然⾔語で訓練したLLMを活⽤している例もある (以降で紹介)
Transformerの化学への応⽤例
9
[1] V. Bagal, et al. J. Chem. Inf. Model., 62.9, 2064-2076 (2021). [2] B. Fabian, et al. arXiv preprint, arXiv:2011.13230 (2020).
[3] P. Schwaller, et al. ACS Cent. Sci., 5.9, 1572-1583 (2019).