本研究ではペプチドワクチン開発に必要なタスクのうち、重要度が⾼い ① B細胞エピトープ予測(ペプチドが抗体誘導を持つかの予測) ② MHCⅡ分⼦に結合するペプチド予測 の2つのタスクを対象にした 1-1.ペプチドワクチン ペプチドワクチン 樹状細胞 ヘルパーT細胞 B細胞 抗体 抗原 MHCⅡ分⼦ 活性化 活性化 抗体産⽣ ① ② MHCⅡ分⼦
4. 事前学習の説明 n 事前学習⽤データを⽤いて機械学習モデルを学習 n ⼀般的に事前学習⽤データには、対象タスクよりも ⼤規模な教師なしデータを⽤いる n 本研究では⼤規模タンパク質データベースである Pfamを事前学習⽤データに使⽤ 事前学習 事前学習⽤データ 事前学習⽤タスク 機械学習モデル (ランダム初期化)
4. BERTの特徴②事前学習 BERTではMasked Language Modelingで事前学習することにより、汎化性 能を向上させることができる。 Masked Language Modeling: ⼊⼒中の⼀部のアミノ酸を⽋損させ、その⽋ 損させたアミノ酸を周りの⽂脈から予測するタスク M V L V S ? A
4. BERTの特徴②事前学習 Masked Language Modelingにより、⽂脈を考慮したアミノ酸⾃体の特徴を 学習できる アミノ酸⾃体が⼀種の教師データとして機能するため、⼤量のタンパク質データベー スを利⽤できる →学習データが少ない場合に性能が低くなる問題に対応できる[Radford+ 2018, Howord+ 2018] M V L V S ? A
スライドで使⽤した参考⽂献 事前学習 [Radford+ 2018] Improving Language Understanding by Generative Pre- Training [Howord+ 2018] Universal Language Model Fine-tuning for Text Classification B細胞エピトープ予測 [Jespersen+ 2017] BepiPred-2.0: improving sequence-based B-cell epitope prediction using conformational epitopes [Liu+ 2020] Deep learning methods improve linear B-cell epitope prediction [農⾒+ 2019] 注意機構付きLSTM を⽤いた抗原タンパク質のエピトープ領域予測 MHCⅡに結合するペプチド予測 [Liu+ 2019] DeepSeqPanII: an interpretable recurrent neural network model with attention mechanism for peptide-HLA class II binding prediction [Andreatta+ 2015] Accurate panspecific prediction of peptide-MHC class II binding affinity with improved binding core identification