Slide 1

Slide 1 text

事前学習済⾔語モデルの 動向 2020/02/28 ⻄⽥京介 1

Slide 2

Slide 2 text

• 24層の巨⼤モデルで⼤量のデータで事前学習して汎⽤なモ デルを獲得し、各応⽤タスクに適応させるアプローチ • 2018/10/11に発表、現在までに3800件を越える被引⽤ • 多数のNLPタスクで⾼い性能を実現して注⽬を浴びる 2 BERT [Devlin+ (Google), NAACLʼ19 Best Paper]

Slide 3

Slide 3 text

• 質問に対してテキストを読み解いて回答するタスク 3 BERTが優れた性能を達成したタスクの例︓ SQuAD 1.1 [Rajupurkar (Stanford)+, EMNLP16] ⼊⼒︓テキスト ⼊⼒︓質問 出⼒︓回答 Wikipediaの段落(平均140単語) 無料で公開 クラウドソーシングで作成した 100,000件以上の質問・回答ペア テキスト中の任意の 範囲を抽出して回答

Slide 4

Slide 4 text

• このタスクに特化したニューラルネット構造を持たずに、 ⼈間の質問応答スコアを⼤きく超える性能を達成 4 機械読解 (SQuAD 1.1) で⼈間超え 完全⼀致 部分⼀致 ⼈間のスコア 82.304 BERTのスコア 87.433 Jacob Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR abs/1810.04805 (2018) https://rajpurkar.github.io/SQuAD-explorer/

Slide 5

Slide 5 text

5 BERTが検索エンジンに導⼊ https://www.blog.google/products/search/search-language-understanding-bert/ • 2019年10⽉25⽇(BERT発表から1年後)、Googleは検索エン ジンのアルゴリズムをBERTベースにアップデート • 2019年12⽉10⽇には⽇本語含む72⾔語に拡張

Slide 6

Slide 6 text

6 ⾔語モデル研究の加速 https://github.com/thunlp/PLMpapers に追加 ALBERT ICLR 2020 ACL 2019 NeurIPS 2019 EMNLP 2019 T5 BART 2019/10〜 Pegasus ERNIE-GEN ProphetNet Turing-NLG DistillBERT Q8BERT MegatronLM CTRL

Slide 7

Slide 7 text

時系列とモデルサイズ [Microsoft, 2020/02/10] https://medium.com/huggingface/distilbert-8cf3380435b5 モデルのパラメータ数 (x1M) BERT-LARGE 340M=3.4億個のfloat値 7 Turing-NLG 17B=170億個のfloat値 https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/

Slide 8

Slide 8 text

• イントロダクション • モデルの分類とタスク • 初期のモデルについて(〜BERT) • その後のモデルについて(BERT〜) – Bidirectional LM(BERTタイプ) – Autoregressive LM(GPTタイプ) – Prefix LM(UniLMタイプ) – Encoder-Decoder(T5タイプ) • 今後の展望 8 ⽬次

Slide 9

Slide 9 text

タイプ 主タスク 代表モデル Bi-directional LM NLU BERT, RoBERTa, ALBERT Autoregressive LM NLU/LM GPT, Turing-NLG Prefix LM NLU/Seq2Seq UniLM Encoder-Decoder NLU/Seq2Seq MASS, BART, T5 9 モデルの分類 " # Bi-directional LM Prefix LM Autoregressive LM " # $ $ " # # $ & $ " # " # " # # $ " # Encoder-Decoder " # $ • 事前学習モデルの構造と適⽤タスクが多様化してきた

Slide 10

Slide 10 text

• GLUE – ⽂分類、⽂ペア類似度、⾔い換え、NLI • SuperGLUE – QA、NLI、語義曖昧性解消、共参照解析 • 抽出/選択型の機械読解 – SQuAD 1.0/2.0, RACE • Winograd Schema Challenge NLUの主なタスク " # Bi-directional LM " # $ $

Slide 11

Slide 11 text

• ⾔語モデリング – WikiText-103 – LAMBDA – CBT (Children’s Book Test) – Enwiki8 – One Billion Word – PTB • Autoregressive LMではZero-shot QA, NMTなども多い 11 Language Modelingの主なタスク Autoregressive LM " # # $ & $

Slide 12

Slide 12 text

• ⽣成型要約: CNN/DM, Xsum, Gigaword, etc. • 機械翻訳: WMT • ⽣成型QA: CoQA • 質問⽣成: SQuAD QG • 応答⽣成: Persona-chat 12 Sequence-to-Sequenceの主なタスク Prefix LM " # " # " # # $ " # Encoder-Decoder " # $

Slide 13

Slide 13 text

初期のモデル 13

Slide 14

Slide 14 text

• LSTMによる系列分類に、⾃⼰回帰⾔語モデルあるいは系列 オートエンコーダを事前学習して初期値として利⽤ • IMDB、DBPediaのテキスト分類、CIFAR-10の画像分類 14 Semi-supervised Sequence Learning [Dai(Google)+, NIPS’15, arXiv’15/11] 被引⽤数548 https://papers.nips.cc/paper/5949-semi-supervised- sequence-learning

Slide 15

Slide 15 text

• エンコーダとデコーダを⾔語モデルとして個別に事前学習 – アテンション等はFine-tuning時に計算 – Fine-tuning時にも⾔語モデリングの損失で制約を付ける • 翻訳︓News Crawl English (Encoder) / German (Decoder)(>1B tokens) • 要約︓English Gigaword (Encoder/Decoder) 15 Pretrained Seq2Seq [Ramachandran(Google)+, EMNLP’17, arXiv’16/11] 被引⽤数 131 https://www.aclweb.org/anthology/D17-1039

Slide 16

Slide 16 text

• 3段階の学習︓汎⽤ドメインで事前学習、ターゲットタスクで⾔語モデル をfine-tuning、テキスト分類器として最終のfine-tuning • Fine-tuning時に忘却を防ぐため徐々にunfreezing 16 ULMFit [Howard(fast.ai)+, ACL’18, arXiv’18/01] 被引⽤数 640 https://www.aclweb.org/anthology/P18-1031

Slide 17

Slide 17 text

• ⽂字レベルの双⽅向LSTM⾔語モデル(left-to-rightとright-to-left) • 1B Word Benchmark で学習 • ELMoを特徴ベクトルとしてニューラルモデルで使いSQuAD等で⾼精度 17 ELMo [Peters(AI2)+, EMNLP’18, arxiv’18/02] 被引⽤数2412←1538(※11⽉) https://www.aclweb.org/anthology/N18-1202.pdf ※図はBert論⽂から

Slide 18

Slide 18 text

• 12層Transformerの⾃⼰回帰⾔語モデル (left-to-right) – LSTMからTransformerへ、ワードからサブワードへ • BookCorpus (5.5GB程度; 800M words)で学習 18 GPT [Radford(OpenAI)+, TechRep’18/06] 被引⽤数662←382 https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language- unsupervised/language_understanding_paper.pdf

Slide 19

Slide 19 text

• ⾔語モデルが応⽤タスク(downstream tasks)をファイン チューニングする前の事前学習として有効であることを⽰す 19 GPT [Radford(OpenAI)+, TechRep’18/06] 被引⽤数662←382 https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language- unsupervised/language_understanding_paper.pdf

Slide 20

Slide 20 text

• Transformerの24層双⽅向⾔語モデル • Wikipedia + BookCorpus (16GB, 3300M words) で学習 – 巨⼤なモデル・多数のデータの流れができる • GLUE, SQuAD等の注⽬タスクで劇的な精度向上 20 BERT [Devlin(Google)+, NAACL’19, arxiv’18/11] 被引⽤数3871←1997 https://www.aclweb.org/anthology/N19-1423.pdf

Slide 21

Slide 21 text

• ⽳埋め問題(Masked Language Model) • 次の⽂予測(Next Sentence Prediction)の2タスクで学習 21 BERT [Devlin(Google)+, NAACL’19, arxiv’18/11] 被引⽤数3871←1997 [CLS] my dog is cute [SEP] he likes play [MASK] [SEP] 2⽂⽬ 1⽂⽬ IsNext my dog is cute [SEP] he likes play piano [SEP] 分類 ⽳埋め 双⽅向

Slide 22

Slide 22 text

Bi-directional LM 22 " # Bi-directional LM " # $ $

Slide 23

Slide 23 text

• BERTの上にマルチタスク層を追加してファインチューニング することでBERTがより良い表現を獲得 • Scratchから作るのではなく、既存の⾔語モデルをベースにし た研究 23 MT-DNN [Liu(MS)+, ACL’19, arxiv’19/01] 被引⽤数139←65 https://www.aclweb.org/anthology/P19-1441.pdf 単⽂の分類, 2⽂の分類 など

Slide 24

Slide 24 text

• パラレル翻訳コーパスを⽤いて、クロスリンガルに⽳埋めを学習 • エンコーダとデコーダのそれぞれの事前学習として⽤いて(?)、教師無し 翻訳、教師あり翻訳に利⽤ 24 XLM [Lample(Facebook)+, NeurIPS’19, arxiv’19/01] 被引⽤数131←69 英語 フランス語 https://papers.nips.cc/paper/8928-cross- lingual-language-model-pretraining.pdf

Slide 25

Slide 25 text

• バイオドメインに特化したBERTを作成 • BERTのweightを初期値として,PubMed, PMCのコーパスにより学習 • バイオ関連のNERやQAにて通常のBERTより⾼い性能 25 BioBERT [Lee(Korea U)+, BioInfomatics (2020), arxiv’19/01/25] 被引⽤数140 https://academic.oup.com/bioinformatics/arti cle/36/4/1234/5566506

Slide 26

Slide 26 text

• エンティティとフレーズの外部知識を使ってマスクに利⽤ • 中国語タスクで評価 • Whole word masking [google 5/31 on github] に近いイメージ 26 ERNIE 1.0 (Baidu) [Sun+, arXiv’19/04] 被引⽤数30<-19 https://arxiv.org/abs/1904.09223

Slide 27

Slide 27 text

• 知識グラフ(エンティティ)の情報をfusion • GLUEではBERTと同程度だが,知識が必要となるEntity Typing などのタスクでSOTA 27 ERNIE (Tsinghua) [Zhang+, ACL’19, arxiv’19/05] 被引⽤数36←17 https://arxiv.org/pdf/1905.07129

Slide 28

Slide 28 text

• ⾃⼰回帰(単⽅向)モデルと双⽅向の両⽅の利点を得ることを⽬指す • モデルに⼊⼒するトークンの順序を permutation する • GLUEなどでBERTを超える精度を達成 28 XLNet [Yang(CMU)+, NeurIPS’19, arxiv’19/06] 被引⽤数325←112 https://papers.nips.cc/paper/8812-xlnet-generalized-autoregressive-pretraining- for-language-understanding

Slide 29

Slide 29 text

• i.i.d.ではなく範囲でマスクし,同時に範囲の境界も予測する • 1セグメントにして次⽂予測(NSP)を廃⽌ • 通常のBERTに⽐べて精度向上を確認 29 SpanBERT [Joshi(Washington U, Facebook)+, arXiv’19/07] 被引⽤数30←11 https://arxiv.org/abs/1907.10529

Slide 30

Slide 30 text

• マルチタスク事前学習 – 単語レベル(知識マスク,⼤⽂字,単語が他のセグメントで出るか) – 構造レベル(⽂の順序,出現場所) – 意味レベル(談話構造,検索) • GLUEでBERT、XLNetを超えてSOTA(リーダーボードには載ってない) 30 ERNIE 2.0 [Sun(Baidu)+, arxiv’19/07] 被引⽤数13←5 https://arxiv.org/abs/1907.12412

Slide 31

Slide 31 text

• BERTと同じ構造で、いろいろな⼯夫を盛り込むことで⼤幅な精度向上 – より⼤きなバッチサイズを使う(256から8192) – より多くのデータを使う(16GBから160GB) – より⻑いステップ数の学習をする(BERT換算で16倍程度) – 次⽂予測(NSP)は不要 • GLUEでBERT、XLNetを超える精度 31 RoBERTa [Liu(Facebook)+, ICLR’20(rejected), arxiv’19/07] 被引⽤数84←22 https://arxiv.org/abs/1907.11692

Slide 32

Slide 32 text

• NSPに変わる学習の⽬的関数を⼯夫 – マスクした上で単語の順番をシャッフルして元に戻す – ランダム・正順・逆順の3種類を分類 • BERTと同サイズ、同データでGLUEでRoBERTa超え 32 StructBERT (ALICE) [Wang(Alibaba)+, arxiv’19/08] 被引⽤数2←1 https://arxiv.org/abs/1908.04577

Slide 33

Slide 33 text

• テキスト中のエンティティ表現について知識ベースのエン ティティベクトル表現により拡張する – エンティティリンキングも同時学習可能 • エンティティ集合/ベクトルは、Wikipediaコーパスのタイト ルとそのWord2Vecベクトル 33 KnowBERT [Peters(AI2)+, EMNLP’19, arXiv’19/09] 被引⽤数4 https://www.aclweb.org/anthology/D19-1005.pdf

Slide 34

Slide 34 text

• 蒸留により12層BERTを6層に⼩型化(40%減) – BERTの出⼒を教師として、⽣徒(⼩型モデル)が同じ出⼒を出すように学習 – 幅(隠れ層)のサイズを減らすと、層数を減らすよりも悪化 • 推論は60%⾼速化、精度は95%程度保持 34 DistilBERT [Sanh(Huggingface)+, NeurIPS WS’19, arxiv’19/10] 被引⽤数10←2 https://arxiv.org/pdf/1910.01108.pdf https://medium.com/huggingface/distilbert-8cf3380435b5

Slide 35

Slide 35 text

• 精度を落とさずfine-tuning時にBERTを8bit整数に量⼦化 – Embedding, FCは8bit化,softmax, Lnorm, GELUはFP32をキープ • モデルサイズ1/4, 速度 3.7x 35 Q8BERT [Zafrir(Intel)+, NeurIPS WS’19, arXiv’19/10] 被引⽤数3←1 https://arxiv.org/abs/1910.06188

Slide 36

Slide 36 text

• BERTの層のパラメータをすべて共有することで学習を⾼速化 – Largeを超えたモデルは学習が難しいため、表現⼒は落ちるが学習し易くした • 単語埋め込みを低次元にすることでパラメータ削減 • 次⽂予測を、⽂の順序⼊れ替え判定に変更 • GLUE, RACE, SQuADでSOTAを更新 36 ALBERT [Lan(Google)+, ICLR’20, arxiv’19/09/26] 被引⽤数48←3 https://arxiv.org/abs/1909.11942

Slide 37

Slide 37 text

パラメータ共有 • BERT base (110M) の場合,12層のパラメータ数は85M • 各層で共有すれば,7.08Mまで削減 37 ALBERT [Lan(Google)+, ICLR’20, arxiv’19/09/26] 被引⽤数48←3 ALBERTでは 各層でパラメータを 共有する

Slide 38

Slide 38 text

Embedding Factorization • BERT base (110M) の場合,単語埋込のパラメータ数は24.5M • ALBERTではBottleneck構造することで3.93Mまで削減 38 ALBERT [Lan(Google)+, ICLR’20, arxiv’19/09/26] 被引⽤数48←3 V = 30000 H=768 E=128

Slide 39

Slide 39 text

Sentence Order Prediction (SOP) • BERTの次⽂予測(NSP)は,他の⽂書から負例を持ってくる ので,トピック判定に近く,問題が簡単になっている • 同⽂書の中の連続するセグメントの順序の⼊替え判定をする 39 ALBERT [Lan(Google)+, ICLR’20, arxiv’19/09/26] 被引⽤数48←3 [CLS] my dog is cute [SEP] he likes play [MASK] [SEP] 2⽂⽬ 1⽂⽬ 正順? my dog is cute [SEP] he likes play piano [SEP] 分類 ⽳埋め

Slide 40

Slide 40 text

• ⼊⼒形式: 1系列2セグメント.画像領域表現+キャプション単語 • ⾔語表現モデル: BERT (base or large) • 画像表現+領域検出モデル: Faster-RCNN • 事前学習データ: COCO, Visual Genome, Conceptual Captions, SBU Captions • 事前学習タスク: Masked LM,Masked ROI 特徴回帰&意味クラス分類(KL最⼩化), テキスト-画像マッチング • 評価: VCR, VQA, Flicker30k, NLVR, SNLI-VE, RefCOCO+(全タスクで現在のSOTA) UNITER [Chen(Microsoft) +, ICLR20(rejected), arXiv19/09/25] 被引⽤数12←3 https://arxiv.org/abs/1909.11740 40

Slide 41

Slide 41 text

• 「事前学習⾔語モデルを⽤いたVision & Languageの 動向」2019/11/30 • https://speakerdeck.com/kyoun/a-survey-of-pre-trained- language-models-for-vision-and-language 41 参考

Slide 42

Slide 42 text

Autoregressive LM Autoregressive LM " # # $ & $

Slide 43

Slide 43 text

• 系列⻑に制限のあった既存モデルに対して、セグメントレベルの再帰を ⼊れることにより⻑い系列を扱えるように改善 • 24層Transformer、アテンション可能な範囲は学習時384〜784, 評価時1600 〜3800程度に設定して実験 43 Transformer XL [Dai(CMU) +,ACL’19, arxiv’19/01] 被引⽤数226←112 https://arxiv.org/pdf/1901.02860.pdf

Slide 44

Slide 44 text

• 48層Transformerの⾃⼰回帰⾔語モデル(構造はGPTと同じ) • WebText (40GB程度)で学習 • 特別な訓練なしに(zero-shot)翻訳,QAが可能 44 GPT-2 [Radford(OpenAI)+, TechRep’19/02] 被引⽤数317←153 https://d4mucfpksywv.cloudfront.net/better-language- models/language_models_are_unsupervised_multitask_learners.pdf

Slide 45

Slide 45 text

• フェイクニュースを⽣成可能なレベルだと話題に 45 GPT-2 [Radford(OpenAI)+, TechRep’19/02] 被引⽤数317←153 https://twitter.com/OpenAI/status/1096092704709070851

Slide 46

Slide 46 text

• ドメイン、⽇付、著者などを条件とした⽣成を可能にした GPT(トークンで条件付け) • フィールドτの情報はで囲んで系列に追加して 与える • Common Crawlから収集したRealNewsデータセット(120GB) で学習 46 Glover [Zellers(Washington U)+, NeurIPS’19, arxiv’19/05] 被引⽤数34←10 https://papers.nips.cc/paper/9106-defending- against-neural-fake-news

Slide 47

Slide 47 text

• フェイクニュース⽣成のデモ 47 Glover [Zellers(Washington U)+, NeurIPS’19, arxiv’19/05] 被引⽤数34←10 https://grover.allenai.org/

Slide 48

Slide 48 text

• 条件付⾔語モデル.条件となる制御テキストを本⽂の前に与 えて学習. • 48層/1280次元Transformer(パラメータ数1.6B) 48 CTRL [Keskar(Salesforce)+, Tech.Rep’19/09] 被引⽤数14←3 https://einstein.ai/presentations/ctrl.pdf

Slide 49

Slide 49 text

• 72層、隠れ状態サイズ3072、⻑さ1024(パラメータ数8.3B; BERTの24倍の サイズ) • モデル並列化を使って174GBのテキストを512GPUで9.3⽇で学習 • 数⾏のPyTorchコード追加で8モデル並列、64データ並列を実現 49 MegatronLM [Shoeybi(NVIDIA)+, arxiv’19/10] 被引⽤数7←3 https://arxiv.org/pdf/1909.08053.pdf

Slide 50

Slide 50 text

• TransformerにおいてMLPとSelf-Attentionをモデルを分割して並列化する – MLP: レイヤーの重みA, Bを分割する – Self-Attention: Query, Key, Valueをヘッドに沿って分割する 50 MegatronLM [Shoeybi(NVIDIA)+, arxiv’19/10] 被引⽤数7←3 https://arxiv.org/pdf/1909.08053.pdf

Slide 51

Slide 51 text

• 対話応答⽣成に特化した事前学習.マルチターン対話を⻑い1テキストと して,その後に続く発話を⽣成 • GPT-2をベースにし,Redditコメント対話147万件(1.8B単語)で追加学習. • DSTC-7では⾃動評価で⼈間より⾼いスコア 51 DialoGPT [ Zhang(Microsoft)+, arxiv’19/11] 被引⽤数3 https://arxiv.org/abs/1911.00536

Slide 52

Slide 52 text

• 78層、4256次元Transformer。パラメータ数17B • 学習にDeepSpeedライブラリを利⽤。オプティマイザZeRO [NeurIPS’19] のデータ並列化とMegatronLMのモデル並列化を 併⽤ 52 Turing-NLG [Rosset(Microsoft)+, blog’20/02/10] https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/ https://www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters/

Slide 53

Slide 53 text

• ZeROはオプティマイザ状態、勾配、パラメータの3つを分割してメモリ 量を削減 – GPU数に応じて線形にメモリ削減が可能 • 7.5Bモデルを64GPU/Adamで学習する際、120GB→1.9GBまで削減 53 Turing-NLG [Rosset(Microsoft)+, blog’20/02/10] https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/ https://www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters/

Slide 54

Slide 54 text

Prefix-LM 54 Prefix LM " # " # " # # $

Slide 55

Slide 55 text

• アテンションのマスクの⼊れ⽅で単⽅向・双⽅向・Seq2Seq を1モデルで制御 • CNN/DMなどでSOTA 55 UniLM [Dong(Microsoft)+, NeurIPS’19, arxiv’19/05] 被引⽤数36←16 https://arxiv.org/abs/1905.03197

Slide 56

Slide 56 text

• Seq2seq事前学習.複数Fragmentの⽳埋め学習.WordとSpanの両レベルを 考慮.⼈⼯トークンを使ってexposure biasを軽減. • 16GBの事前学習のみで,CNN/DM, GigawordsなどでSOTAに近い精度を達 成.QGやPersona chatでもSOTA 56 ERNIE-GEN [Xiao (Baidu)+, arXiv’20/02/04] 被引⽤数0 https://arxiv.org/abs/2001.11314

Slide 57

Slide 57 text

• Targetと同じ⻑さの⼈⼯トークン系列を利⽤.アテンション のQueryに⼈⼯トークンを使うことで,直前のトークンに注 視しすぎるのを防ぐ. • Decode時も⼈⼯トークンを利⽤して⽣成 57 ERNIE-GEN [Xiao (Baidu)+, arXiv’20/02/04] 被引⽤数0 https://arxiv.org/abs/2001.11314

Slide 58

Slide 58 text

Encoder-Decoder 58 " # Encoder-Decoder " # $

Slide 59

Slide 59 text

• Encoder-Decoder型の⽣成モデルのための事前学習 • ⼊⼒から1つの範囲をマスクして,decoder側ではマスクされ た部分を予測 • 教師なし翻訳 newstest2014 En-FrなどでSOTA 59 MASS [Song(Microsoft)+, ICML’19, arXiv’19/05] 被引⽤数56←26 http://proceedings.mlr.press/v97/song19d/song19d.pdf

Slide 60

Slide 60 text

• NLPタスクを全てText-to-Textとして扱い,Enc-Dec Transformer を745GBのコーパスで事前学習して転移する(Text-To-Text Transfer Transformer) • モデルはEncoder-decoderのTransformer 60 T5 [Raffel(Google)+, arXiv’19/10/23] 被引⽤数37←0 https://arxiv.org/abs/1910.10683

Slide 61

Slide 61 text

• 学習タスクをエンコーダデコーダに合わせて変更 • エンコーダ側で範囲を⽋落させて,デコーダ側で予測 • GLUE, SuperGLUE, SQuAD 1.1, CNN/DMでSOTA更新 61 T5 [Raffel(Google)+, arXiv’19/10/23] 被引⽤数37←0 https://arxiv.org/abs/1910.10683

Slide 62

Slide 62 text

• Seq2Seq事前学習として,トークンマスク・削除,範囲マス ク,⽂の⼊替,⽂書の回転の複数タスクで学習. • CNN/DMでT5超え,WMT’16 RO-ENで逆翻訳を超えてSOTA 62 BART [Lewis(Facebook)+, arXiv’19/10/29] 被引⽤数7←0 http://arxiv.org/abs/1910.13461

Slide 63

Slide 63 text

63 BART [Lewis(Facebook)+, arXiv’19/10/29] 被引⽤数7←0 • 分類問題にはencoderとdecoderに同じ⼊⼒を与える. • 翻訳では,⾔語マッピング⽤の追加のencoderを,英語で事 前学習されたencoderの前に挿⼊する

Slide 64

Slide 64 text

• マルチリンガル版BART。⾔語タグをつけて⽇本語含む25⾔語 で学習して翻訳に適応。低リソースMTで精度が⼤幅に向上 64 mBART [Liu(Facebook)+, arXiv’20/01/23] 被引⽤数0 https://arxiv.org/abs/2001.08210

Slide 65

Slide 65 text

65 PEGASUS [Zhang(Google)+, arXiv’19/12/18] 被引⽤数2 • 要約に特化したSeq2seq事前学習.EncoderでMLMしつつ, Decoderでは重要⽂(各⽂と残りのrougeスコア)の復元 • 3.8Tのニュースデータセットで事前学習 https://arxiv.org/abs/1912.08777

Slide 66

Slide 66 text

• Seq2seq事前学習モデル.各時刻でn-gramを予測.セルフア テンションをn-gramの各要素ごとに⽤意したstreamで実施 • CNN/DM, GigawordsなどでPegasus LARGEと同程度 66 ProphetNet [Yan(Microsoft)+, arXiv’20/01/13] 被引⽤数0 https://arxiv.org/abs/2001.04063