◦ ChEMBL・ZINCから取得した約350万個のSMILES⽂字列を⽤いて、GPT-1の軽量版を訓練 ➔ スキャフォールドやプロパティを指定した構造⽣成に成功 • MolBERT[2] ◦ ChEMBLから取得した約160万個のSMILES⽂字列を⽤いて、BERTの要領で事前学習 ➔予測タスクごとに訓練済みモデルをファインチューニングしたモデルが良い予測性能を⽰した • Molecular Transformer[3] ◦ USPTOデータセットの化学反応データで訓練したモデルによる反応⽣成物予測 これらはTransformerを多数の化合物データで訓練することで活⽤した例 ➔ ⾃然⾔語で訓練したLLMを活⽤している例もある (以降で紹介) Transformerの化学への応⽤例 9 [1] V. Bagal, et al. J. Chem. Inf. Model., 62.9, 2064-2076 (2021). [2] B. Fabian, et al. arXiv preprint, arXiv:2011.13230 (2020). [3] P. Schwaller, et al. ACS Cent. Sci., 5.9, 1572-1583 (2019).