Slide 1

Slide 1 text

さくらインターネット研究所 テックトーク2025春 2025年3月13日 言語モデルによるAI創薬の進展 さくらインターネット株式会社 鶴田 博文

Slide 2

Slide 2 text

2 自己紹介 鶴田 博文(@tsurubee3) さくらインターネット研究所 研究員 専門領域 #AI・機械学習 – 深層学習/LLM/Data-centric AI #AI for Science – マテリアルズ・インフォマティクス/AI創薬

Slide 3

Slide 3 text

3 COGNANOとの共同研究成果がNeurIPS 2024に採択 https://www.sakura.ad.jp/corporate/information/newsreleases/2024/09/30/1968217266/ https://arxiv.org/abs/2405.18749

Slide 4

Slide 4 text

4 アジェンダ 1. 抗体とは 2. 抗体言語モデル 3. アルパカによるデータセット作成 4. データセットの分析 5. ベンチマーク実験 研究の概要図

Slide 5

Slide 5 text

5 アジェンダ 1. 抗体とは 2. 抗体言語モデル 3. アルパカによるデータセット作成 4. データセットの分析 5. ベンチマーク実験 研究の概要図

Slide 6

Slide 6 text

6 • 抗体は、体内に侵入したウイルスや細菌などの有害な異物 (これを「抗原」という)を排除する ために、免疫システムによって生成されるタンパク質である。 抗体とは • この抗体を利用して病気の予防や治療を行う薬が抗体医薬であり、抗体は現在、ヒトの病気を 治療するための重要な創薬モダリティの一つである。 • タンパク質は1文字のアルファベットで表される20種類のアミノ酸が鎖状に並んだアミノ酸配列 で表現できる。 [Kovaltsuk+, 2017] How B-Cell Receptor Repertoire Sequencing Can Be Enriched with Structural Antibody Data 出典:[Kovaltsuk+, 2017]のFigure 1

Slide 7

Slide 7 text

7 アジェンダ 1. 抗体とは 2. 抗体言語モデル 3. アルパカによるデータセット作成 4. データセットの分析 5. ベンチマーク実験 研究の概要図

Slide 8

Slide 8 text

8 抗体と自然言語 出典:[Ofer+, 2021]のFigure 1 [Ofer +, 2021] The language of proteins: NLP, machine learning & protein sequences • 抗体(タンパク質)は、20種類のアミノ酸という「単語」を並べた「文章」である。 • 単語の並び順によって文章の意味が決定されるように、アミノ酸配列の並び順によってタンパク 質の立体構造や生物学的な機能が決定される。

Slide 9

Slide 9 text

9 タンパク質言語モデル • Metaは、膨大なタンパク質配列データで学習したESM (Evolutionary Scale Modeling)という のタンパク質言語モデルを開発している。 • ESM-2 [Lin+, 2023]は、6.5億のタンパク質配列を用いて学習された最大150億パラメータを持つ タンパク質言語モデルであり、タンパク質の構造・機能の予測に応用されている。 出典:[Lin+, 2023]のFigure 2 [Lin+, 2023] Evolutionary-scale prediction of atomic-level protein structure with a language model

Slide 10

Slide 10 text

10 抗体言語モデル 自然言語の分野で医療や法律などに特化したドメイン特化型言語モデルの開発が進んでいるのと 同様に、タンパク質言語モデルにおいても抗体に特化した抗体言語モデルの開発が進んでいる。 代表的な抗体言語モデルの研究 [1] Deciphering antibody affinity maturation with language models and weakly supervised learning (2021). [2] Deciphering the language of antibodies using self-supervised learning (2022). [3] AbLang: an antibody language model for completing antibody sequences (2022). [4] On pre-training language model for antibody (2023). [5] Rapid discovery of high-affinity antibodies via massively parallel sequencing, ribosome display and affinity screening (2024). [6] Enhancing antibody language models with structural information (2023). [7] Large scale paired antibody language models (2024). [1] [2] [3] [4] [5] [6] [7] [3]

Slide 11

Slide 11 text

11 アジェンダ 1. 抗体とは 2. 抗体言語モデル 3. アルパカによるデータセット作成 4. データセットの分析 5. ベンチマーク実験 研究の概要図

Slide 12

Slide 12 text

12 アルパカの特殊な抗体 (VHH) • ヒトやマウスなどが持つ抗体は、2本の重鎖と2本の軽鎖で構成されており、重鎖と軽鎖のペアが 標的となる抗原に対する機能単位として働く。 • アルパカやリャマなどのラクダ科動物は、重鎖のみからなる抗体を持ち、その可変領域はVHH (またはNanobody)と呼ばれる。このシンプルな構造により、VHHは他の抗体に比べて効率的に アミノ酸配列をデータ化できる。

Slide 13

Slide 13 text

13 作成した2つのデータセット 1. VHHCorpus-2M 2. AVIDa-SARS-CoV-2 VHH sequence Antigen sequence Label D R T S W S A … M F V F L V L L … 1 G S R T Y Y A … M P M G S L Q … 0 … … … VHH sequence K P E D T A V … K V D D A A V … … 事前学習 ×5 2,040,988サンプル SARS-CoV-2 変異体 ×2 ラベリング ファインチューニング 性能評価 77,003サンプル

Slide 14

Slide 14 text

14 ラベル付きデータセット作成 抗体言語モデルの性能評価に利用可能な抗原抗体結合のラベル付きデータセットの作成方法 を確立した。

Slide 15

Slide 15 text

15 アジェンダ 1. 抗体とは 2. 抗体言語モデル 3. アルパカによるデータセット作成 4. データセットの分析 5. ベンチマーク実験 研究の概要図

Slide 16

Slide 16 text

16 アミノ酸配列の多様性 ランダムに抽出した抗体配列ペアの配列一致度の分布 5頭のアルパカから生成したVHHCorpus-2Mは、 2頭のアルパカから生成したAVIDa-SARS- CoV-2よりも配列の多様性が高い。

Slide 17

Slide 17 text

17 SARS-CoV-2特異的抗体の個体差 SARS-CoV-2に結合する抗体配列の2次元表現 異なるアルパカは、免疫反応により異なる抗体のクラスタを生成する。 アルパカの個体で色分け クラスタ (配列一致度95%)で色分け

Slide 18

Slide 18 text

18 アジェンダ 1. 抗体とは 2. 抗体言語モデル 3. アルパカによるデータセット作成 4. データセットの分析 5. ベンチマーク実験 研究の概要図

Slide 19

Slide 19 text

19 ベンチマークタスク・モデル Pre-trained Language Models Pre-training Fine-tuning AVIDa-SARS-CoV-2 Fine-tuned Language Models Evaluation VHHCorpus-2M

Slide 20

Slide 20 text

20 ベンチマークタスク・モデル Pre-trained Language Models Pre-training Fine-tuning Fine-tuned Language Models Evaluation ベースラインモデル タンパク質 抗体 事前学習なし VHHCorpus-2M AVIDa-SARS-CoV-2

Slide 21

Slide 21 text

21 ベンチマークタスク・モデル Pre-trained Language Models Pre-training Fine-tuning Fine-tuned Language Models Evaluation VHHCorpus-2M データセット分割 片方の個体が生成した抗体を学習し、 もう片方の個体が生成した抗体を予測する。 AVIDa-SARS-CoV-2

Slide 22

Slide 22 text

22 実験結果 • 一般的なタンパク質ではなく、抗体配列で事前学習を行うことは、抗体特有のタスクの性能向上 に寄与する。 • AntiBERTa2-CSSPが採用したヒトの抗体構造を用いた追加の事前学習により、抗原抗体結合の 予測性能が向上した。 抗原抗体結合予測の実験結果

Slide 23

Slide 23 text

23 まとめ • 抗体は、体内に侵入したウイルスや細菌などの有害な異物を排除するために、免疫システムに よって生成されるタンパク質であり、1文字のアルファベットで表される20種類のアミノ酸が 鎖状に並んだアミノ酸配列で表現できる。 1. 抗体とは 2. 抗体言語モデル 3. NeurIPS 2024採択論文 • 抗体は、アミノ酸という「単語」が特定の構造的・機能的な規則(文法)に従って並べられた 「文章」として捉えられる。 • 近年、抗体配列に特化して学習させた抗体言語モデルの開発が盛んに行われている。 • アルパカが持つ特殊な抗体 (VHH)は、アミノ酸配列の効率的なデータ化に適していることから、 これを利用して抗体言語モデルの事前学習用およびファインチューニング・性能評価用のデー タセットを作成し、ベンチマーク実験を行った。