Upgrade to Pro — share decks privately, control downloads, hide ads and more …

sigbio2020-bert

9f29b4c9b76c81994553982244957ccf?s=47 RyujiTamaki
December 07, 2020

 sigbio2020-bert

第64回バイオ情報学研究発表会での
「大規模タンパク質データベースに基づくBERTを用いたペプチド結合予測」
のスライドです。

https://www.ipsj.or.jp/kenkyukai/event/bio64.html

9f29b4c9b76c81994553982244957ccf?s=128

RyujiTamaki

December 07, 2020
Tweet

Transcript

  1. Public Copyright © 2020 by Future Corporation ⼤規模タンパク質データベースに基づく BERTを⽤いたペプチド結合予測 2020/12/07

    *⽟⽊ ⻯⼆, 農⾒ 俊明, 佐藤 尭彰, 井上 誠⼀, 貞光 九⽉(フューチャー株式会社) 坂⼝ 誠, 天満 昭⼦(株式会社ファンペップ) 中神 啓徳(⼤阪⼤学⼤学院)
  2. Copyright © 2020 by Future Corporation Public - 2 -

    ⽬次 1. 背景・研究⽬的 2. 問題設定 3. 先⾏研究と課題 4. 提案⼿法 5. 実験・考察 6. まとめ
  3. Copyright © 2020 by Future Corporation Public - 3 -

    ⽬次 1. 背景・研究⽬的 1. 背景︓ペプチドワクチン 2. ⽬的︓ペプチドワクチン開発で必要なタスクと本研究で取り組むタスク 2. 問題設定 3. 先⾏研究と課題 4. 提案⼿法 5. 実験・考察 6. まとめ
  4. Copyright © 2020 by Future Corporation Public - 4 -

    ペプチドワクチンは感染症に対して⾃⾝の免疫⼒を⾼める n 抗体を産⽣するB細胞を活性化 n B細胞を活性化するヘルパーT細胞を活性化 Ø ヘルパーT細胞はMHCⅡ分⼦と結合するペプチドとしか反応しない 1-1.ペプチドワクチン 抗体 抗原 抗体産⽣ ペプチドワクチン 樹状細胞 ヘルパーT細胞 B細胞 MHCⅡ分⼦ 活性化 活性化 MHCⅡ分⼦
  5. Copyright © 2020 by Future Corporation Public - 5 -

    n ペプチドワクチンがB細胞を活性化させるか、 MHCⅡ分⼦に結合するか等を観 測する実験は多⼤なコストがかかる。ペプチドの候補も膨⼤ n 機械学習を⽤いたペプチドの結合予測により、ペプチドの候補を絞り込むことが できればコストが削減できる 1-1.ペプチドワクチン開発の機械学習の応⽤
  6. Copyright © 2020 by Future Corporation Public - 6 -

    本研究ではペプチドワクチン開発に必要なタスクのうち、重要度が⾼い ① B細胞エピトープ予測(ペプチドが抗体誘導を持つかの予測) ② MHCⅡ分⼦に結合するペプチド予測 の2つのタスクを対象にした 1-1.ペプチドワクチン ペプチドワクチン 樹状細胞 ヘルパーT細胞 B細胞 抗体 抗原 MHCⅡ分⼦ 活性化 活性化 抗体産⽣ ① ② MHCⅡ分⼦
  7. Copyright © 2020 by Future Corporation Public - 7 -

    ⽬次 1. 背景・研究⽬的 2. 問題設定 1. B細胞エピトープ予測 2. MHCⅡ分⼦に結合するペプチド予測 3. 先⾏研究と課題 4. 提案⼿法 5. 実験・考察 6. まとめ
  8. Copyright © 2020 by Future Corporation Public - 8 -

    抗原タンパク質を構成する⻑鎖アミノ酸配列から、 B細胞が認識するエピトープ領域を予測する Ø ペプチド: ここでは20~40個程度のアミノ酸配列とする ペプチドが抗体誘導を持つ/持たないの2値分類タスク 2-1. B細胞エピトープ予測 MTSKLAVALLAAFLISAALCEGAVLPRSAKELRCQCIKTYSKPFHPKFIKELRVIEQRVVEKRAETSKLAVALLAAFLISAALCEEKRKMNGNSQRV………………. PKFIK 抗体誘導活性をもたない ペプチド 陰性(ラベル︓0) 抗体誘導活性をもつ ペプチド(エピトープ) 陽性(ラベル︓1)
  9. Copyright © 2020 by Future Corporation Public - 9 -

    2-2. MHCⅡ分⼦に結合するペプチド予測 MHCⅡ分⼦とペプチドの結合親和性(IC50)を予測するタスク Ø IC50 : 50%結合するのにどれだけの濃度が必要かを⽰す値(低いほど良い) Ø 1 – log(IC50) / log(50000)の計算により、0~1の値に変換される(⾼いほど良い) ペプチド、MHCⅡ α鎖, β鎖の3つのアミノ酸配列が⼊⼒になる AAYSDQATPLLLSPR KEEHVIIQA...FASFEAQGALANIAVDKANLEIMTKRSN… ...RPDAEYWNSQKDLLEQR...RHNY... MHCⅡ分⼦と 結合するペプチド FLERYIYNREEFVRFD MHCⅡ分⼦と 結合しないペプチド MHCⅡ α鎖 MHCⅡ β鎖 PDB:1T5X
  10. Copyright © 2020 by Future Corporation Public - 10 -

    ⽬次 1. 背景・研究⽬的 2. 問題設定 3. 先⾏研究の課題 1. ⻑距離の依存関係の学習が困難 2. 学習データが少ない場合に性能が低くなる 4. 提案⼿法 5. 実験・考察 6. まとめ
  11. Copyright © 2020 by Future Corporation Public - 11 -

    既存研究[農⾒, Liu]のモデルではLSTM等の再帰的に系列を処理するモデルが よく使われていた アミノ酸間の距離が遠いほど多くのネットワークを経由する必要があり、結果遠く離 れたアミノ酸の情報を失うリスクがある。 Ø 例)𝑥!" が𝑥! と関係がある 結合する、3次元上の位置が近い等 場合、 間のネットワークを経由する必要があるため、𝑥! の情報を失う可能性がある 3-1. ⻑距離の依存関係の学習が困難 f f f f 𝑥# 𝑥$ 𝑥% 𝑥& ℎ# ℎ$ ℎ% ℎ& f 𝑥#' ℎ#'
  12. Copyright © 2020 by Future Corporation Public - 12 -

    既存研究[農⾒, Liu]のモデルではLSTM等の再帰的に系列を処理するモデルが よく使われていた アミノ酸間の距離が遠いほど多くのネットワークを経由する必要があり、結果遠く離 れたアミノ酸の情報を失うリスクがある。 Ø 例)𝑥!" が𝑥! と関係がある 結合する、3次元上の位置が近い等 場合、 間のネットワークを経由する必要があるため、𝑥! の情報を失う可能性がある 3-1. ⻑距離の依存関係の学習が困難 f f f f 𝑥# 𝑥$ 𝑥% 𝑥& ℎ# ℎ$ ℎ% ℎ& f 𝑥#' ℎ#'
  13. Copyright © 2020 by Future Corporation Public - 13 -

    n 機械学習⼀般に、学習データが少ない場合に、学習データから特徴を⼗分に 学習できないという課題がある n B細胞エピトープ予測、 MHCⅡ分⼦に結合するペプチド予測の学習データを 単純に増やすことは、多⼤なコストがかかるため難しい 3-2. 学習データが少ない場合に性能が低くなる
  14. Copyright © 2020 by Future Corporation Public - 14 -

    ⽬次 1. 背景・研究⽬的 2. 問題設定 3. 先⾏研究と課題 4. 提案⼿法 1. 注意機構の説明 2. BERTの特徴①注意機構 3. 事前学習の説明 4. BERTの特徴②事前学習 5. 課題とその解決⽅法の対応 6. 提案⼿法概略 5. 実験・考察 6. まとめ
  15. Copyright © 2020 by Future Corporation Public - 15 -

    4. 提案⼿法 本研究では先述の課題を解決するために ⼤規模タンパク質データベースにより事前学習したBERT を応⽤したペプチド結合予測の⼿法を提案する n ⻑距離依存性の学習が困難 Ø BERTの注意機構により解決 n 学習データが少ない場合に性能が低くなる Ø ⼤規模タンパク質データベースで事前学習することにより解決
  16. Copyright © 2020 by Future Corporation Public - 16 -

    4. 注意機構の説明 ⾃然⾔語処理の例) 下線部の単語を予測する | 少⼥はボールを蹴り込んだ。それは__ 「転がった」、「消えた」などが下線部に当てはまる 下線部の単語を予測するためには「それ」が「ボール」を指しているということを理解 する必要がある
  17. Copyright © 2020 by Future Corporation Public - 17 -

    4. 注意機構の説明 ⾃然⾔語処理の例) 下線部の単語を予測する | 少⼥はボールを蹴り込んだ。それは__ LSTM等の再帰的な処理を⾏うモデルだと「それ」と「ボール」の関係を学習するの に、前の単語を順に経由する必要がある。「ボール」が「それ」と関係している単語だ と直接学習していない
  18. Copyright © 2020 by Future Corporation Public - 18 -

    4. 注意機構の説明 ⾃然⾔語処理の例) 下線部の単語を予測する | 少⼥はボールを蹴り込んだ。それは__ 注意機構では、「それ」から直接「ボール」への関係性を学習することができる。 この関係性を重みとして学習する。重みの範囲は0~1で、0は全く関係がないこと を⽰し、1は強い依存関係があることを⽰す。
  19. Copyright © 2020 by Future Corporation Public - 19 -

    4. BERTの特徴①注意機構(⻑距離の依存関係の学習) 注意機構はアミノ酸配列にも応⽤可能。BERTは注意機構により、アミノ酸間の 関係をアミノ酸の位置に関わらず、直接モデル化できる
  20. Copyright © 2020 by Future Corporation Public - 20 -

    4. BERTの特徴①注意機構(⻑距離の依存関係の学習) 例) S – H間の関係を捉えるのに、LSTM等と違い間にネットワークを経由する必 要がなく、⻑距離依存性の問題が起きにくい
  21. Copyright © 2020 by Future Corporation Public - 21 -

    4. BERTの特徴①注意機構(⻑距離の依存関係の学習) 例) S – H間の関係を捉えるのに、再帰的な処理をするニューラルネットワークの場 合、何度もネットワークを経由する必要があるため学習が困難 f f f f S f D F E H
  22. Copyright © 2020 by Future Corporation Public - 22 -

    4. BERTの特徴①注意機構(相互作⽤の学習) BERT以前の⼿法では、2つ以 上の⼊⼒が与えられたとき、そ れぞれの⼊⼒をLSTM等でベク トルに変換したあと、注意機構 により⼊⼒間の相互作⽤を捉 える⼿法がよく⽤いられていた。 どのアミノ酸がどのアミノ酸に結 合するかを注意機構により学 習してほしい
  23. Copyright © 2020 by Future Corporation Public - 23 -

    4. BERTの特徴①注意機構(相互作⽤の学習) BERTは各⼊⼒をSEPトークンを挟み連結して1つの⼊⼒とすることで、それらの関係 性を注意機構により効率的に捉えることができる。MHCⅡに結合するペプチド予測 において、ペプチド-MHCⅡ間の各アミノ酸の相互作⽤を学習することが期待できる。
  24. Copyright © 2020 by Future Corporation Public - 24 -

    4. 事前学習の説明 解きたい対象のタスクの前に違うタスクで学習を⾏うことにより,対象タスクに有効 な特徴を獲得する⼿法 事前学習 対象タスクでの教師あり学習 機械学習モデル (事前学習で 学習した重み) 事前学習⽤データ 対象タスクデータ 対象タスク 事前学習⽤タスク 機械学習モデル (ランダム初期化)
  25. Copyright © 2020 by Future Corporation Public - 25 -

    4. 事前学習の説明 n 事前学習⽤データを⽤いて機械学習モデルを学習 n ⼀般的に事前学習⽤データには、対象タスクよりも ⼤規模な教師なしデータを⽤いる n 本研究では⼤規模タンパク質データベースである Pfamを事前学習⽤データに使⽤ 事前学習 事前学習⽤データ 事前学習⽤タスク 機械学習モデル (ランダム初期化)
  26. Copyright © 2020 by Future Corporation Public - 26 -

    4. 事前学習の説明 対象タスクでの教師あり学習 機械学習モデル (事前学習で 学習した重み) 対象タスクデータ 対象タスク n 事前学習で学習した機械学習モデルの重みを⽤い て、解きたい対象タスクで教師あり学習 n 本研究ではB細胞エピトープ予測とMHCⅡ分⼦に 結合するペプチド予測 n 画像処理や⾃然⾔語処理などの分野でも汎化性 能を⼤きく向上させている
  27. Copyright © 2020 by Future Corporation Public - 27 -

    4. BERTの特徴②事前学習 BERTではMasked Language Modelingで事前学習することにより、汎化性 能を向上させることができる。 Masked Language Modeling: ⼊⼒中の⼀部のアミノ酸を⽋損させ、その⽋ 損させたアミノ酸を周りの⽂脈から予測するタスク M V L V S ? A
  28. Copyright © 2020 by Future Corporation Public - 28 -

    4. BERTの特徴②事前学習 Masked Language Modelingにより、⽂脈を考慮したアミノ酸⾃体の特徴を 学習できる アミノ酸⾃体が⼀種の教師データとして機能するため、⼤量のタンパク質データベー スを利⽤できる →学習データが少ない場合に性能が低くなる問題に対応できる[Radford+ 2018, Howord+ 2018] M V L V S ? A
  29. Copyright © 2020 by Future Corporation Public - 29 -

    4. 提案⼿法概略
  30. Copyright © 2020 by Future Corporation Public - 30 -

    4. 提案⼿法概略 ⼊⼒: B細胞エピトープ予測 ペプチドのアミノ酸配列 MHCⅡ分⼦に対するペプチド の結合予測 Ø ペプチドのアミノ酸配列 Ø MHCⅡ α鎖のアミノ酸配列 Ø MHCⅡ β鎖のアミノ酸配列 をSEPトークンで挟み連結したアミ ノ酸配列
  31. Copyright © 2020 by Future Corporation Public - 31 -

    4. 提案⼿法概略 ⼊⼒: B細胞エピトープ予測 ペプチドのアミノ酸配列 MHCⅡ分⼦に対するペプチド の結合予測 Ø ペプチドのアミノ酸配列 Ø MHCⅡ α鎖のアミノ酸配列 Ø MHCⅡ β鎖のアミノ酸配列 をSEPトークンで挟み連結したアミ ノ酸配列
  32. Copyright © 2020 by Future Corporation Public - 32 -

    4. 提案⼿法概略 BERTにより⼊⼒のアミノ酸 (𝑥! ~ 𝑥" )が、ベクトル (𝑍! #~𝑍" # )に変換される。 BERTのパラメータ N: ⼊⼒のアミノ酸の数 L: 層数 H: 隠れ層のサイズ(Zのサイズ) 𝑍! " : l 層目のn文字目の ベクトルZ
  33. Copyright © 2020 by Future Corporation Public - 33 -

    4. 提案⼿法概略 BERTが出⼒する各アミノ酸の ベクトル𝑍! #~𝑍" # を平均して、集 約ベクトルSを得る 𝑆 = 1 𝑁 ' , & 𝑍, -
  34. Copyright © 2020 by Future Corporation Public - 34 -

    4. 提案⼿法概略 集約ベクトルSと重みWの内積 をとり1次元に射影し、 sigmoid関数で活性化したも のを、最終的な出⼒oとする 𝑜 = 𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑆𝑊.)
  35. Copyright © 2020 by Future Corporation Public - 35 -

    ⽬次 1. 背景・研究⽬的 2. 問題設定 3. 先⾏研究と課題 4. 提案⼿法 5. 実験・考察 1. B細胞のエピトープ予測 1. ⽐較⼿法 2. データ 3. 実験結果 2. MHCⅡ分⼦に結合するペプチド予測 1. ⽐較⼿法 2. データ 3. 実験結果 6. まとめ
  36. Copyright © 2020 by Future Corporation Public - 36 -

    5. B細胞エピトープ予測 ⽐較⼿法 Bepipred-2.0 [Jespersen+ 2017] 特徴量エンジニアリング + Random Forest DLBepitope [Liu+ 2020] 順伝播型ニューラルネットワーク 既存⼿法でDLBepitopeデータでの実験では世界最⾼精度 注意機構付きLSTM [農⾒+ 2019] Bepipred-2.0に⽐べ性能が⾼いことが報告されている 事前学習なしBERT 事前学習の効果の検証のため
  37. Copyright © 2020 by Future Corporation Public - 37 -

    5. B細胞エピトープ予測 データ Pfam 事前学習に⽤いた⼤規模タンパク質データベース DLBepitope20_train DLBepitope20_test IEDBから取得した⻑さ10~50までのペプチドを⻑さ20に揃えたデータセット Lbtope_Fixed ABCpred16 Lbtope_Fixedはペプチドの⻑さが20、ABCpredはペプチドの⻑さが16
  38. Copyright © 2020 by Future Corporation Public - 38 -

    5. B細胞エピトープ予測 データ データセット名 ⽤途 アミノ酸配列の⻑さ データ数 Pfam 事前学習 最⼤512 約3100万 DLBepitope20_ train 学習 20 225210 DLBepitope20_ test 検証 20 6454 Lbtope_Fixed テスト① 20 25153 ABCpred16 テスト② 16 303
  39. Copyright © 2020 by Future Corporation Public - 39 -

    5. B細胞エピトープ予測 実験結果
  40. Copyright © 2020 by Future Corporation Public - 40 -

    5. B細胞エピトープ予測 実験結果 提案⼿法は2つのデータセットで世界最⾼精度を達成
  41. Copyright © 2020 by Future Corporation Public - 41 -

    5. B細胞エピトープ予測 実験結果 事前学習ありのBERTに⽐べて、事前学習なしのBERTは性能が⼤きく劣る Ø 教師あり学習データが少ない場合、BERTをうまく学習することができていない Ø 事前学習がBERTの重みの調整に重要
  42. Copyright © 2020 by Future Corporation Public - 42 -

    5. B細胞エピトープ予測 実験結果 DLBepitopeと提案⼿法は検証データのAUCに⼤きな差がないが、 それに⽐べてテストデータのAUCは差がある 検証、テストデータのAUCの⽐較から、提案⼿法は未知のデータに対して 頑健な予測ができているといえる
  43. Copyright © 2020 by Future Corporation Public - 43 -

    5. MHCⅡに結合するペプチド予測 ⽐較⼿法 DeepSeqPanⅡ [Liu+ 2019] LSTM + 注意機構 + CNN。⾮アンサンブルモデルの既存⼿法で世界最⾼精度。 注意機構付きLSTM [農⾒+ 2019] B細胞エピトープ予測において⾼い性能を達成したため NetMHCⅡpan-3.1 [Andreatta+ 2015] データの分割が異なり、200モデルのアンサンブルモデルのため同様の実験ではないが、 テストデータでの性能が⾼いため⽐較対象に採⽤。 事前学習なしBERT 事前学習の効果の検証のため。
  44. Copyright © 2020 by Future Corporation Public - 44 -

    5. MHCⅡに結合するペプチド予測 データ Pfam 事前学習に⽤いた⼤規模タンパク質データベース IEDB BD2013 IEDBから取得したデータセット。ペプチド、MHCⅡ分⼦のアミノ酸配列の⻑さは様々 であり、ペプチド、 MHCⅡ α鎖、β鎖の最⼤⻑はそれぞれ37、274、291である。 実験ではすべて最⼤⻑にあわせており、⾜りない分はゼロベクトルでパディングしている。 IEDB weekly benchmark data 2016~2017年に報告されたデータ。BD2013に含まれないMHCⅡ分⼦も含む。
  45. Copyright © 2020 by Future Corporation Public - 45 -

    5. MHCⅡに結合するペプチド予測 データ データセット名 ⽤途 データ数 Pfam 事前学習 約3100万 IEDB BD2013 学習 45921 IEDB BD2013 検証 5102 IEDB weekly benchmark data テスト 20640 学習データにはBD2013の90%, 検証データにはBD2013の10%を⽤いる
  46. Copyright © 2020 by Future Corporation Public - 46 -

    5. MHCⅡに結合するペプチド予測 実験結果
  47. Copyright © 2020 by Future Corporation Public - 47 -

    5. MHCⅡに結合するペプチド予測 実験結果 提案⼿法は⾮アンサンブルモデルでは世界最⾼精度を達成。 他の⼿法に⽐べて⻑距離の依存関係の学習ができているため、性能の向上に繋がっていると 考えられる。 事前学習をすることでテストデータでの性能が⼤きくあがっていることがわかる。
  48. Copyright © 2020 by Future Corporation Public - 48 -

    5. MHCⅡに結合するペプチド予測 実験結果 検証データとテストデータの⽐較から事前学習が未知データに対する予測の向上に寄与してい ることがわかる
  49. Copyright © 2020 by Future Corporation Public - 49 -

    5. MHCⅡに結合するペプチド予測 実験結果 NetMHCⅡpan-3.1には性能が劣るものの、 NetMHCⅡpan-3.1で使われている⼯夫は 提案⼿法にも応⽤可能であるため、今後性能が改善されることが期待できる
  50. Copyright © 2020 by Future Corporation Public - 50 -

    ⽬次 1. 背景・研究⽬的 2. 問題設定 3. 先⾏研究と課題 4. 提案⼿法 5. 実験・考察 6. まとめ
  51. Copyright © 2020 by Future Corporation Public - 51 -

    6. まとめ 本研究ではB細胞エピトープ予測、MHCⅡに結合するペプチド予測における、 n ⻑距離の依存関係の学習が困難 n 学習データが少ない場合に性能が低くなる 課題に対処するために、⼤規模タンパク質データベースで事前学習したBERTを⽤ いた⼿法を提案した。両⽅のタスクで⾼い性能を達成できることを⽰した。 今後はNetMHCⅡpan-3.1と同様の⼯夫を提案⼿法に応⽤し、 さらなる性能の向上を⽬指す。
  52. 本提案書において使⽤されている商標は、フューチャー株式会社または他社の登録商標または登録出願中の商標です。

  53. Copyright © 2020 by Future Corporation Public - 53 -

    単純なLSTMとの⽐較(B細胞エピトープ予測) Lbtope_Fixed ABCpred16 検証 Bepipred-2.0 0.532 0.553 - DLBepitope 0.738 0.655 0.908 LSTM 0.747 0.670 0.886 注意機構付き LSTM 0.750 0.684 0.878 事前学習なし BERT 0.586 0.602 0.788 事前学習あり BERT 0.774 0.734 0.911
  54. Copyright © 2020 by Future Corporation Public - 54 -

    単純なLSTMとの⽐較(MHCⅡに結合するペプチド予測) テスト 検証 DeepSeqPanⅡ 0.73 - NetMHCIIpan-3.1 0.78 - LSTM 0.69 0.88 注意機構付き LSTM 0.72 0.88 事前学習なし BERT 0.70 0.88 事前学習あり BERT 0.78 0.87
  55. Copyright © 2020 by Future Corporation Public - 55 -

    スライドで使⽤した参考⽂献 事前学習 [Radford+ 2018] Improving Language Understanding by Generative Pre- Training [Howord+ 2018] Universal Language Model Fine-tuning for Text Classification B細胞エピトープ予測 [Jespersen+ 2017] BepiPred-2.0: improving sequence-based B-cell epitope prediction using conformational epitopes [Liu+ 2020] Deep learning methods improve linear B-cell epitope prediction [農⾒+ 2019] 注意機構付きLSTM を⽤いた抗原タンパク質のエピトープ領域予測 MHCⅡに結合するペプチド予測 [Liu+ 2019] DeepSeqPanII: an interpretable recurrent neural network model with attention mechanism for peptide-HLA class II binding prediction [Andreatta+ 2015] Accurate panspecific prediction of peptide-MHC class II binding affinity with improved binding core identification