Elix, GTCヘルスケアフォローアップウェビナー, Transformerの要点とその化学への応用

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Copyright © Elix, Inc. All rights reserved. ⼤規模⾔語モデル (Large Language Models, LLM) が世間⼀般の注⽬を集めている • ここ最近では、ChatGPT (右図) でGPT-4というモデルが搭載されて話題に⼤規模⾔語モデル = ⼤規模な⾔語モデル • ⼤規模 ◦ モデルパラメータ数が多い ◦ ⼤量のテキストデータで訓練される • ⾔語モデル ◦ ⾃然⾔語の⽂の現れ⽅をモデル化したもの⼤規模⾔語モデルの台頭 2

Slide 3

Slide 3 text

Copyright © Elix, Inc. All rights reserved. トークン: ⽂字列の最⼩の構成単位 • ⾃然⾔語 ➔ 単語 • 化合物のSMILES⽂字列 ➔ 原⼦・結合を表す記号 • DNA配列 ➔ 核酸コード / コドン • タンパク質のアミノ酸配列 ➔ アミノ酸コード⾔語モデルでは、⼊⼒されたトークン列に続くトークンが何かを予測 ➔ 予測される確率に従ってトークンをサンプリングし、サンプリングしたトークンを末尾に付け⾜す操作を繰り返すことで⽂字列を⽣成⾔語モデルの訓練では、訓練サンプルをうまく⽣成できるように (i.e., 次時刻のトークンを正確に予測できるように) 訓練⾔語モデルによる⽂字列の⽣成と訓練 3 Cl c 1 c c c c ⼊⼒ (⽣成途中) ⾔語モデル c: 40 % C: 7 % n: 10 % ộ [EOS]: 0.2% 出⼒ (各操作の選択確率) Cl c 1 c c c c c 修正された⼊⼒サンプリング再⼊⼒

Slide 4

Slide 4 text

Copyright © Elix, Inc. All rights reserved. ⼊⼒された系列から、それに対応する別の系列を⽣成するネットワーク • エンコーダ: トークンの列 ➔ ベクトル (潜在変数, latent variable) の列 ◦ 潜在変数は対応するトークンの情報を反映 • デコーダ: エンコーダの出⼒ ➔ トークンの列 (⾔語モデル) 例) 機械翻訳エンコーダに「私は学⽣です。」を⼊⼒ ➔ エンコーダの出⼒をもとに、デコーダから “Iʼm a student.” が⽣成 ü 使い⽅次第で様々なタスクに利⽤可能 ü 全結合型ニューラルネットワークのみの組み合わせでできているため、 (RNNとは違って) 訓練時に系列を⼀気に処理できる ü ⼤規模にすればするほど性能改善が期待される (スケーリング則[2]) Transformer[1] 4 [1] A. Vaswani, et al. NeurIPS, 30 (2017). [2] J. Kaplan, et al. arXiv preprint, arXiv:2001.08361 (2020). エンコーダデコーダ図: 論⽂[1]のFigure 1

Slide 5

Slide 5 text

Copyright © Elix, Inc. All rights reserved. cf.) 変分オートエンコーダ (Variational Auto-Encoder, VAE) 5 低次元の数値ベクトル (潜在変数) からサンプルを⽣成するモデル • エンコーダ: サンプル ➔ 潜在変数 • デコーダ: 潜在変数 ➔ サンプル • 潜在空間 (latent space): 潜在変数のなす空間 ➔ サンプリングした潜在変数をデコーダに通すことで新規サンプルを⽣成できるサンプルから求めた潜在変数から、元のサンプルが再構成しやすくなるよう訓練 ➔ 潜在変数に訓練データセットの特徴が反映され、⽣成サンプルも訓練サンプルらしいものになる⼊⼒再構成された⼊⼒潜在変数エンコーダデコーダ

Slide 6

Slide 6 text

Copyright © Elix, Inc. All rights reserved. Transformerには、系列を変換する際に、系列に含まれる各潜在変数の情報を参照しながら変換する機構 (注意機構, attention) がある • 系列に含まれるすべての潜在変数の重要度を計算して組み合わせる ü ⻑期的な⽂脈を考慮して潜在変数を作成できる • 潜在変数の情報を多⾓的に捉えるため、複数個の注意機構を併⽤ (マルチヘッド注意機構) • デコーダでは、トークンの⽣成時に⽣成済みトークンのみを参照できることを考慮し、適切なマスキングを適⽤して使える情報を制限注意機構 (Attention) 6 私は学⽣です。私は学⽣です。図: 論⽂[1]のFigure 1 [1] A. Vaswani, et al. NeurIPS, 30 (2017).

Slide 7

Slide 7 text

Copyright © Elix, Inc. All rights reserved. パラメータ数の多いTransformerを⼤規模なデータで訓練すれば良い性能が得られる教師あり学習をする場合は、⼊⼒に対して正解ラベルが定まったサンプルが必要! ✘ ラベル付きのサンプルを集めるのは⼤変…… ◦ 特に、ライフサイエンスの分野では、データ収集に実験が必要な場合も多い ü ラベルなしのデータであれば、⽐較的集めやすい ◦ Web上にデータベースとしてまとまっていることも ➔ ラベルなしデータを利⽤した教師なし学習でモデルを事前訓練して、訓練済みモデルを⽬的のタスクに応じて調整する (ファインチューニング) 「⼤規模なデータ」はどう集めるのか? 7

Slide 8

Slide 8 text

Copyright © Elix, Inc. All rights reserved. Transformerのデコーダ部分 (の亜種) を⾔語モデルとみて訓練 • 訓練⽅法 (とモデル構造の微妙な違い) によって、GPT-1, GPT-2, GPT-3, GPT-4と進化中 ü 次のトークンをうまく予測できるように訓練するので、ラベルなしサンプルのみで訓練できる ü 訓練済みモデルで⽂字列を⽣成できるだけでなく、ファインチューニングすれば予測タスクにも利⽤できる Generative Pre-trained Transformer (GPT)[1] 8 図: Wikipedia「GPT (⾔語モデル)」のページより [1] A. Radford, et al. Technical report, OpenAI (2018).

Slide 9

Slide 9 text

Copyright © Elix, Inc. All rights reserved. Transformerのエンコーダ部分を⾃⼰教師あり学習で訓練 • ⾃⼰教師あり学習: ラベルなしサンプルから⾃動⽣成したラベルを予測するタスク (プレテキストタスク) で訓練 • BERTのプレテキストタスク: マスク復元タスク ◦ ⼊⼒されたトークンの⼀部をランダムに隠し、隠されているトークンが何かを当てる: An ( apple ) is a round, red, and sweet fruit. ü データのもつ構造 (⽂法など) や特徴を捉えた潜在変数を計算できる ü ファインチューニングで様々なタスクに利⽤可能 Bidirectional Encoder Representations from Transformers (BERT)[1] 9 [1] J. Devlin, et al. arXiv preprint, arXiv:1810.04805 (2018). 図: 論⽂[1]のFigure 1

Slide 10

Slide 10 text

Copyright © Elix, Inc. All rights reserved. プロパティの予測・分⼦構造の⽣成・化学反応の予測など、幅広く⽤いられている • MolGPT[1] ◦ ChEMBL・ZINCから取得した約350万個のSMILES⽂字列を⽤いて、GPT-1の軽量版を訓練 ➔ スキャフォールドやプロパティを指定した構造⽣成に成功 • MolBERT[2] ◦ ChEMBLから取得した約160万個のSMILES⽂字列を⽤いて、BERTの要領で事前学習 ➔予測タスクごとに訓練済みモデルをファインチューニングしたモデルが良い予測性能を⽰した • Molecular Transformer[3] ◦ USPTOデータセットの化学反応データで訓練したモデルによる反応⽣成物予測 • ChemCrow[4] ◦ GPT-4から化学系の外部ツールを利⽤できるようにした試み Transformerの化学への応⽤例 10 [1] V. Bagal, et al. J. Chem. Inf. Model., 62.9, 2064-2076 (2021). [2] B. Fabian, et al. arXiv preprint, arXiv:2011.13230 (2020). [3] P. Schwaller, et al. ACS Cent. Sci., 5.9, 1572-1583 (2019). [4] A. M. Bran, et al. arXiv preprint, arXiv:2304.05376 (2023).