sigbio2020-bert

Public Copyright © 2020 by Future Corporation ⼤規模タンパク質データベースに基づく BERTを⽤いたペプチド結合予測 2020/12/07
*⽟⽊⻯⼆, 農⾒俊明, 佐藤尭彰, 井上誠⼀, 貞光九⽉(フューチャー株式会社) 坂⼝誠, 天満昭⼦(株式会社ファンペップ) 中神啓徳(⼤阪⼤学⼤学院)

Copyright © 2020 by Future Corporation Public - 2 -
⽬次 1. 背景・研究⽬的 2. 問題設定 3. 先⾏研究と課題 4. 提案⼿法 5. 実験・考察 6. まとめ

⽬次 1. 背景・研究⽬的 1. 背景︓ペプチドワクチン 2. ⽬的︓ペプチドワクチン開発で必要なタスクと本研究で取り組むタスク 2. 問題設定 3. 先⾏研究と課題 4. 提案⼿法 5. 実験・考察 6. まとめ

ペプチドワクチンは感染症に対して⾃⾝の免疫⼒を⾼める n 抗体を産⽣するB細胞を活性化 n B細胞を活性化するヘルパーT細胞を活性化 Ø ヘルパーT細胞はMHCⅡ分⼦と結合するペプチドとしか反応しない 1-1.ペプチドワクチン抗体抗原抗体産⽣ペプチドワクチン樹状細胞ヘルパーT細胞 B細胞 MHCⅡ分⼦活性化活性化 MHCⅡ分⼦

n ペプチドワクチンがB細胞を活性化させるか、 MHCⅡ分⼦に結合するか等を観測する実験は多⼤なコストがかかる。ペプチドの候補も膨⼤ n 機械学習を⽤いたペプチドの結合予測により、ペプチドの候補を絞り込むことができればコストが削減できる 1-1.ペプチドワクチン開発の機械学習の応⽤

本研究ではペプチドワクチン開発に必要なタスクのうち、重要度が⾼い ① B細胞エピトープ予測(ペプチドが抗体誘導を持つかの予測) ② MHCⅡ分⼦に結合するペプチド予測の2つのタスクを対象にした 1-1.ペプチドワクチンペプチドワクチン樹状細胞ヘルパーT細胞 B細胞抗体抗原 MHCⅡ分⼦活性化活性化抗体産⽣ ① ② MHCⅡ分⼦

⽬次 1. 背景・研究⽬的 2. 問題設定 1. B細胞エピトープ予測 2. MHCⅡ分⼦に結合するペプチド予測 3. 先⾏研究と課題 4. 提案⼿法 5. 実験・考察 6. まとめ

抗原タンパク質を構成する⻑鎖アミノ酸配列から、 B細胞が認識するエピトープ領域を予測する Ø ペプチド: ここでは20~40個程度のアミノ酸配列とするペプチドが抗体誘導を持つ/持たないの2値分類タスク 2-1. B細胞エピトープ予測 MTSKLAVALLAAFLISAALCEGAVLPRSAKELRCQCIKTYSKPFHPKFIKELRVIEQRVVEKRAETSKLAVALLAAFLISAALCEEKRKMNGNSQRV………………. PKFIK 抗体誘導活性をもたないペプチド陰性（ラベル︓0）抗体誘導活性をもつペプチド（エピトープ）陽性（ラベル︓1）

2-2. MHCⅡ分⼦に結合するペプチド予測 MHCⅡ分⼦とペプチドの結合親和性(IC50)を予測するタスク Ø IC50 : 50%結合するのにどれだけの濃度が必要かを⽰す値(低いほど良い) Ø 1 – log(IC50) / log(50000)の計算により、0~1の値に変換される(⾼いほど良い) ペプチド、MHCⅡ α鎖, β鎖の3つのアミノ酸配列が⼊⼒になる AAYSDQATPLLLSPR KEEHVIIQA...FASFEAQGALANIAVDKANLEIMTKRSN… ...RPDAEYWNSQKDLLEQR...RHNY... MHCⅡ分⼦と結合するペプチド FLERYIYNREEFVRFD MHCⅡ分⼦と結合しないペプチド MHCⅡ α鎖 MHCⅡ β鎖 PDB:1T5X

⽬次 1. 背景・研究⽬的 2. 問題設定 3. 先⾏研究の課題 1. ⻑距離の依存関係の学習が困難 2. 学習データが少ない場合に性能が低くなる 4. 提案⼿法 5. 実験・考察 6. まとめ

既存研究[農⾒, Liu]のモデルではLSTM等の再帰的に系列を処理するモデルがよく使われていたアミノ酸間の距離が遠いほど多くのネットワークを経由する必要があり、結果遠く離れたアミノ酸の情報を失うリスクがある。 Ø 例)𝑥!" が𝑥! と関係がある結合する、3次元上の位置が近い等場合、間のネットワークを経由する必要があるため、𝑥! の情報を失う可能性がある 3-1. ⻑距離の依存関係の学習が困難 f f f f 𝑥# 𝑥$ 𝑥% 𝑥& ℎ# ℎ$ ℎ% ℎ& f 𝑥#' ℎ#'

n 機械学習⼀般に、学習データが少ない場合に、学習データから特徴を⼗分に学習できないという課題がある n B細胞エピトープ予測、 MHCⅡ分⼦に結合するペプチド予測の学習データを単純に増やすことは、多⼤なコストがかかるため難しい 3-2. 学習データが少ない場合に性能が低くなる

⽬次 1. 背景・研究⽬的 2. 問題設定 3. 先⾏研究と課題 4. 提案⼿法 1. 注意機構の説明 2. BERTの特徴①注意機構 3. 事前学習の説明 4. BERTの特徴②事前学習 5. 課題とその解決⽅法の対応 6. 提案⼿法概略 5. 実験・考察 6. まとめ

4. 提案⼿法本研究では先述の課題を解決するために⼤規模タンパク質データベースにより事前学習したBERT を応⽤したペプチド結合予測の⼿法を提案する n ⻑距離依存性の学習が困難 Ø BERTの注意機構により解決 n 学習データが少ない場合に性能が低くなる Ø ⼤規模タンパク質データベースで事前学習することにより解決

4. 注意機構の説明⾃然⾔語処理の例) 下線部の単語を予測する | 少⼥はボールを蹴り込んだ。それは__ 「転がった」、「消えた」などが下線部に当てはまる下線部の単語を予測するためには「それ」が「ボール」を指しているということを理解する必要がある

4. 注意機構の説明⾃然⾔語処理の例) 下線部の単語を予測する | 少⼥はボールを蹴り込んだ。それは__ LSTM等の再帰的な処理を⾏うモデルだと「それ」と「ボール」の関係を学習するのに、前の単語を順に経由する必要がある。「ボール」が「それ」と関係している単語だと直接学習していない

4. 注意機構の説明⾃然⾔語処理の例) 下線部の単語を予測する | 少⼥はボールを蹴り込んだ。それは__ 注意機構では、「それ」から直接「ボール」への関係性を学習することができる。この関係性を重みとして学習する。重みの範囲は0~1で、0は全く関係がないことを⽰し、1は強い依存関係があることを⽰す。

4. BERTの特徴①注意機構(⻑距離の依存関係の学習) 注意機構はアミノ酸配列にも応⽤可能。BERTは注意機構により、アミノ酸間の関係をアミノ酸の位置に関わらず、直接モデル化できる

4. BERTの特徴①注意機構(⻑距離の依存関係の学習) 例) S – H間の関係を捉えるのに、LSTM等と違い間にネットワークを経由する必要がなく、⻑距離依存性の問題が起きにくい

4. BERTの特徴①注意機構(⻑距離の依存関係の学習) 例) S – H間の関係を捉えるのに、再帰的な処理をするニューラルネットワークの場合、何度もネットワークを経由する必要があるため学習が困難 f f f f S f D F E H

4. BERTの特徴①注意機構(相互作⽤の学習) BERT以前の⼿法では、2つ以上の⼊⼒が与えられたとき、それぞれの⼊⼒をLSTM等でベクトルに変換したあと、注意機構により⼊⼒間の相互作⽤を捉える⼿法がよく⽤いられていた。どのアミノ酸がどのアミノ酸に結合するかを注意機構により学習してほしい

4. BERTの特徴①注意機構(相互作⽤の学習) BERTは各⼊⼒をSEPトークンを挟み連結して1つの⼊⼒とすることで、それらの関係性を注意機構により効率的に捉えることができる。MHCⅡに結合するペプチド予測において、ペプチド-MHCⅡ間の各アミノ酸の相互作⽤を学習することが期待できる。

4. 事前学習の説明解きたい対象のタスクの前に違うタスクで学習を⾏うことにより，対象タスクに有効な特徴を獲得する⼿法事前学習対象タスクでの教師あり学習機械学習モデル (事前学習で学習した重み) 事前学習⽤データ対象タスクデータ対象タスク事前学習⽤タスク機械学習モデル (ランダム初期化)

4. 事前学習の説明 n 事前学習⽤データを⽤いて機械学習モデルを学習 n ⼀般的に事前学習⽤データには、対象タスクよりも⼤規模な教師なしデータを⽤いる n 本研究では⼤規模タンパク質データベースである Pfamを事前学習⽤データに使⽤事前学習事前学習⽤データ事前学習⽤タスク機械学習モデル (ランダム初期化)

4. 事前学習の説明対象タスクでの教師あり学習機械学習モデル (事前学習で学習した重み) 対象タスクデータ対象タスク n 事前学習で学習した機械学習モデルの重みを⽤いて、解きたい対象タスクで教師あり学習 n 本研究ではB細胞エピトープ予測とMHCⅡ分⼦に結合するペプチド予測 n 画像処理や⾃然⾔語処理などの分野でも汎化性能を⼤きく向上させている

4. BERTの特徴②事前学習 BERTではMasked Language Modelingで事前学習することにより、汎化性能を向上させることができる。 Masked Language Modeling: ⼊⼒中の⼀部のアミノ酸を⽋損させ、その⽋損させたアミノ酸を周りの⽂脈から予測するタスク M V L V S ? A

4. BERTの特徴②事前学習 Masked Language Modelingにより、⽂脈を考慮したアミノ酸⾃体の特徴を学習できるアミノ酸⾃体が⼀種の教師データとして機能するため、⼤量のタンパク質データベースを利⽤できる →学習データが少ない場合に性能が低くなる問題に対応できる[Radford+ 2018, Howord+ 2018] M V L V S ? A

4. 提案⼿法概略

4. 提案⼿法概略⼊⼒: B細胞エピトープ予測ペプチドのアミノ酸配列 MHCⅡ分⼦に対するペプチドの結合予測 Ø ペプチドのアミノ酸配列 Ø MHCⅡ α鎖のアミノ酸配列 Ø MHCⅡ β鎖のアミノ酸配列をSEPトークンで挟み連結したアミノ酸配列

4. 提案⼿法概略 BERTにより⼊⼒のアミノ酸 (𝑥! ~ 𝑥" )が、ベクトル (𝑍! #~𝑍" # )に変換される。 BERTのパラメータ N: ⼊⼒のアミノ酸の数 L: 層数 H: 隠れ層のサイズ(Zのサイズ) 𝑍! " : l 層目のn文字目のベクトルZ

4. 提案⼿法概略 BERTが出⼒する各アミノ酸のベクトル𝑍! #~𝑍" # を平均して、集約ベクトルSを得る 𝑆 = 1 𝑁 ' , & 𝑍, -

4. 提案⼿法概略集約ベクトルSと重みWの内積をとり１次元に射影し、 sigmoid関数で活性化したものを、最終的な出⼒oとする 𝑜 = 𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑆𝑊.)

⽬次 1. 背景・研究⽬的 2. 問題設定 3. 先⾏研究と課題 4. 提案⼿法 5. 実験・考察 1. B細胞のエピトープ予測 1. ⽐較⼿法 2. データ 3. 実験結果 2. MHCⅡ分⼦に結合するペプチド予測 1. ⽐較⼿法 2. データ 3. 実験結果 6. まとめ

5. B細胞エピトープ予測⽐較⼿法 Bepipred-2.0 [Jespersen+ 2017] 特徴量エンジニアリング + Random Forest DLBepitope [Liu+ 2020] 順伝播型ニューラルネットワーク既存⼿法でDLBepitopeデータでの実験では世界最⾼精度注意機構付きLSTM [農⾒+ 2019] Bepipred-2.0に⽐べ性能が⾼いことが報告されている事前学習なしBERT 事前学習の効果の検証のため

5. B細胞エピトープ予測データ Pfam 事前学習に⽤いた⼤規模タンパク質データベース DLBepitope20_train DLBepitope20_test IEDBから取得した⻑さ10~50までのペプチドを⻑さ20に揃えたデータセット Lbtope_Fixed ABCpred16 Lbtope_Fixedはペプチドの⻑さが20、ABCpredはペプチドの⻑さが16

5. B細胞エピトープ予測データデータセット名⽤途アミノ酸配列の⻑さデータ数 Pfam 事前学習最⼤512 約3100万 DLBepitope20_ train 学習 20 225210 DLBepitope20_ test 検証 20 6454 Lbtope_Fixed テスト① 20 25153 ABCpred16 テスト② 16 303

5. B細胞エピトープ予測実験結果

5. B細胞エピトープ予測実験結果提案⼿法は2つのデータセットで世界最⾼精度を達成

5. B細胞エピトープ予測実験結果事前学習ありのBERTに⽐べて、事前学習なしのBERTは性能が⼤きく劣る Ø 教師あり学習データが少ない場合、BERTをうまく学習することができていない Ø 事前学習がBERTの重みの調整に重要

5. B細胞エピトープ予測実験結果 DLBepitopeと提案⼿法は検証データのAUCに⼤きな差がないが、それに⽐べてテストデータのAUCは差がある検証、テストデータのAUCの⽐較から、提案⼿法は未知のデータに対して頑健な予測ができているといえる

5. MHCⅡに結合するペプチド予測⽐較⼿法 DeepSeqPanⅡ [Liu+ 2019] LSTM + 注意機構 + CNN。⾮アンサンブルモデルの既存⼿法で世界最⾼精度。注意機構付きLSTM [農⾒+ 2019] B細胞エピトープ予測において⾼い性能を達成したため NetMHCⅡpan-3.1 [Andreatta+ 2015] データの分割が異なり、200モデルのアンサンブルモデルのため同様の実験ではないが、テストデータでの性能が⾼いため⽐較対象に採⽤。事前学習なしBERT 事前学習の効果の検証のため。

5. MHCⅡに結合するペプチド予測データ Pfam 事前学習に⽤いた⼤規模タンパク質データベース IEDB BD2013 IEDBから取得したデータセット。ペプチド、MHCⅡ分⼦のアミノ酸配列の⻑さは様々であり、ペプチド、 MHCⅡ α鎖、β鎖の最⼤⻑はそれぞれ37、274、291である。実験ではすべて最⼤⻑にあわせており、⾜りない分はゼロベクトルでパディングしている。 IEDB weekly benchmark data 2016~2017年に報告されたデータ。BD2013に含まれないMHCⅡ分⼦も含む。

5. MHCⅡに結合するペプチド予測データデータセット名⽤途データ数 Pfam 事前学習約3100万 IEDB BD2013 学習 45921 IEDB BD2013 検証 5102 IEDB weekly benchmark data テスト 20640 学習データにはBD2013の90%, 検証データにはBD2013の10%を⽤いる

5. MHCⅡに結合するペプチド予測実験結果

5. MHCⅡに結合するペプチド予測実験結果提案⼿法は⾮アンサンブルモデルでは世界最⾼精度を達成。他の⼿法に⽐べて⻑距離の依存関係の学習ができているため、性能の向上に繋がっていると考えられる。事前学習をすることでテストデータでの性能が⼤きくあがっていることがわかる。

5. MHCⅡに結合するペプチド予測実験結果検証データとテストデータの⽐較から事前学習が未知データに対する予測の向上に寄与していることがわかる

5. MHCⅡに結合するペプチド予測実験結果 NetMHCⅡpan-3.1には性能が劣るものの、 NetMHCⅡpan-3.1で使われている⼯夫は提案⼿法にも応⽤可能であるため、今後性能が改善されることが期待できる

⽬次 1. 背景・研究⽬的 2. 問題設定 3. 先⾏研究と課題 4. 提案⼿法 5. 実験・考察 6. まとめ

6. まとめ本研究ではB細胞エピトープ予測、MHCⅡに結合するペプチド予測における、 n ⻑距離の依存関係の学習が困難 n 学習データが少ない場合に性能が低くなる課題に対処するために、⼤規模タンパク質データベースで事前学習したBERTを⽤いた⼿法を提案した。両⽅のタスクで⾼い性能を達成できることを⽰した。今後はNetMHCⅡpan-3.1と同様の⼯夫を提案⼿法に応⽤し、さらなる性能の向上を⽬指す。

本提案書において使⽤されている商標は、フューチャー株式会社または他社の登録商標または登録出願中の商標です。

単純なLSTMとの⽐較(B細胞エピトープ予測) Lbtope_Fixed ABCpred16 検証 Bepipred-2.0 0.532 0.553 - DLBepitope 0.738 0.655 0.908 LSTM 0.747 0.670 0.886 注意機構付き LSTM 0.750 0.684 0.878 事前学習なし BERT 0.586 0.602 0.788 事前学習あり BERT 0.774 0.734 0.911

単純なLSTMとの⽐較(MHCⅡに結合するペプチド予測) テスト検証 DeepSeqPanⅡ 0.73 - NetMHCIIpan-3.1 0.78 - LSTM 0.69 0.88 注意機構付き LSTM 0.72 0.88 事前学習なし BERT 0.70 0.88 事前学習あり BERT 0.78 0.87

スライドで使⽤した参考⽂献事前学習 [Radford+ 2018] Improving Language Understanding by Generative Pre- Training [Howord+ 2018] Universal Language Model Fine-tuning for Text Classification B細胞エピトープ予測 [Jespersen+ 2017] BepiPred-2.0: improving sequence-based B-cell epitope prediction using conformational epitopes [Liu+ 2020] Deep learning methods improve linear B-cell epitope prediction [農⾒+ 2019] 注意機構付きLSTM を⽤いた抗原タンパク質のエピトープ領域予測 MHCⅡに結合するペプチド予測 [Liu+ 2019] DeepSeqPanII: an interpretable recurrent neural network model with attention mechanism for peptide-HLA class II binding prediction [Andreatta+ 2015] Accurate panspecific prediction of peptide-MHC class II binding affinity with improved binding core identification

sigbio2020-bert

sigbio2020-bert

Other Decks in Research

Featured

Transcript