Upgrade to Pro — share decks privately, control downloads, hide ads and more …

事前学習言語モデルの動向 / Survey of Pretrained Language Models

事前学習言語モデルの動向 / Survey of Pretrained Language Models

Kyosuke Nishida

November 02, 2019
Tweet

More Decks by Kyosuke Nishida

Other Decks in Research

Transcript

  1. • BERTの概要 • 事前学習⾔語モデルの研究の流れ – 2019/06まで(BERT, GPT-2, XLNet等) – 2019/07〜(RoBERTa,

    ALBERT, T5等) • 注⽬データセットの現状のスコア • 今後の展望 2 ⽬次
  2. • 質問に対してテキストを読み解いて回答するタスク 4 BERTが優れた性能を達成したタスクの例︓ SQuAD 1.1 [Rajupurkar (Stanford)+, EMNLP16] ⼊⼒︓テキスト

    ⼊⼒︓質問 出⼒︓回答 Wikipediaの段落(平均140単語) 無料で公開 クラウドソーシングで作成した 100,000件以上の質問・回答ペア テキスト中の任意の 範囲を抽出して回答
  3. • このタスクに特化したニューラルネット構造を持たずに、 ⼈間の質問応答スコアを⼤きく超える性能を達成 5 機械読解 (SQuAD 1.1) で⼈間超え 完全⼀致 部分⼀致

    ⼈間のスコア 82.304 BERTのスコア 87.433 Jacob Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR abs/1810.04805 (2018) https://rajpurkar.github.io/SQuAD-explorer/
  4. • ERNIE: Enhanced Language Representation with Informative Entities. Zhengyan Zhang,

    Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun and Qun Liu. ACL 2019. [pdf] [code & model] • Multi-Task Deep Neural Networks for Natural Language Understanding. Xiaodong Liu, Pengcheng He, Weizhu Chen, Jianfeng Gao. ACL 2019. [pdf] [code & model] • BERT Rediscovers the Classical NLP Pipeline. Ian Tenney, Dipanjan Das, Ellie Pavlick. ACL 2019. [pdf] • How multilingual is Multilingual BERT?. Telmo Pires, Eva Schlinger, Dan Garrette. ACL 2019. [pdf] • What Does BERT Learn about the Structure of Language?. Ganesh Jawahar, Benoît Sagot, Djamé Seddah. ACL 2019. [pdf] • Probing Neural Network Comprehension of Natural Language Arguments. Timothy Niven, Hung-Yu Kao. ACL 2019. [pdf] [code] • ※ BERTを引⽤した論⽂はACL19で180本(全体の27%)程度︖ 「BERT devlin P19 site:aclweb.org filetype:pdf -Supplementary.pdf」 で検索 9 BERTの拡張/分析論⽂@ACL’19 https://github.com/thunlp/PLMpapers
  5. • BERT: 論⽂がarXivに公開: 2018/10/11 • BERT: コード&学習済みモデル公開: 2018/11/1 • NAACL’19:

    投稿〆切: 2018/12/10 • ACL’19: 匿名期間開始: 2019/2/4 • BERT: NAACL’19に採択判明: 2019/3/1 • ACL’19: 投稿〆切: 2019/3/4 • ACL’19: 採択通知: 2019/5/13 • BERT: NAACL’19で発表&ベストペーパー: 2019/7/2 • ACL’19: 本会議: 2019/07/29-31 10 ACL 2019とBERT関連のImportant Dates トップ会議における After BERTの世界はこれから本格的に始まる︕ 今回のACL’19論⽂の arxivは2018/12〜 2019/02あたり
  6. • BERTの概要 • 事前学習⾔語モデルの研究の流れ – 2019/06まで(BERT, GPT-2, XLNet等) – 2019/07〜(RoBERTa,

    ALBERT, T5等) • 注⽬データセットの現状のスコア • 今後の展望 11 ⽬次
  7. • ⽂字レベルの双⽅向(left-to-rightとright-to-left)・2層LSTM⾔ 語モデル • 1B Word Benchmark で学習 • ELMoを特徴ベクトルとしてニューラルモデルで使いSQuAD等

    で⾼精度 12 ELMo [Peters(AI2)+, EMNLP’18, arxiv’18/02] 引⽤数1538 https://www.aclweb.org/anthology/N18-1202.pdf ※図はBert論⽂から
  8. • 12層Transformerの⾃⼰回帰⾔語モデル (left-to-right) – LSTMからTransformerへ、ワードからサブワードへ • BookCorpus (5.5GB程度; 800M words)で学習

    13 GPT [Radford(OpenAI)+, TechRep’18/06] 引⽤数382 https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language- unsupervised/language_understanding_paper.pdf
  9. • Transformerの24層双⽅向⾔語モデル • Wikipedia + BookCorpus (16GB, 3300M words) で学習

    – 巨⼤なモデル・多数のデータの流れができる • GLUE, SQuAD等の注⽬タスクで劇的な精度向上、⼀部⼈間超え 15 BERT [Devlin(Google)+, NAACL’19, arxiv’18/11] 引⽤数1997 https://www.aclweb.org/anthology/N19-1423.pdf
  10. • ⽳埋め問題(Masked Language Model) • 次の⽂予測(Next Sentence Prediction)の2タスクで学習 16 BERT

    [Devlin(Google)+, NAACL’19, arxiv’18/11] 引⽤数1997 [CLS] my dog is cute [SEP] he likes play [MASK] [SEP] 2⽂⽬ 1⽂⽬ IsNext my dog is cute [SEP] he likes play piano [SEP] 分類 ⽳埋め 双⽅向
  11. • 48層Transformerの⾃⼰回帰⾔語モデル(構造はGPTと同じ) • WebText (40GB程度)で学習 • 特別な訓練なしに(zero-shot)翻訳,QAが可能 20 GPT-2 [Radford(OpenAI)+,

    TechRep’19/02] 引⽤数153 https://d4mucfpksywv.cloudfront.net/better-language- models/language_models_are_unsupervised_multitask_learners.pdf
  12. • エンティティとフレーズの外部知識を使ってマスクに利⽤ • 中国語タスクで評価 • Whole word masking [google 5/31

    on github] に近いイメージ 22 ERNIE 1.0 (Baidu) [Sun+, arXiv’19/04] 引⽤数19 https://arxiv.org/abs/1904.09223
  13. • BERTの概要 • 事前学習⾔語モデルの研究の流れ – 2019/06まで(BERT, GPT-2, XLNet等) – 2019/07〜(RoBERTa,

    ALBERT, T5等) • 注⽬データセットの現状のスコア • 今後の展望 29 ⽬次
  14. パラメータ共有 • BERT base (110M) の場合,12層のパラメータ数は85M • 各層で共有すれば,7.08Mまで削減 39 ALBERT

    [Lan(Google)+, ICLR’20(投稿中), arxiv’19/09/26] 引⽤数3 ALBERTでは 各層でパラメータを 共有する
  15. Sentence Order Prediction (SOP) • BERTの次⽂予測(NSP)は,他の⽂書から負例を持ってくる ので,トピック判定に近く,問題が簡単になっている • 同⽂書の中の連続するセグメントの順序の⼊替え判定をする 41

    ALBERT [Lan(Google)+, ICLR’20(投稿中), arxiv’19/09/26] 引⽤数3 [CLS] my dog is cute [SEP] he likes play [MASK] [SEP] 2⽂⽬ 1⽂⽬ 正順? my dog is cute [SEP] he likes play piano [SEP] 分類 ⽳埋め
  16. • BERTの概要 • 事前学習⾔語モデルの研究の流れ – 2019/06まで(BERT, GPT-2, XLNet等) – 2019/07〜(RoBERTa,

    ALBERT, T5等) • 注⽬データセットの動向 • 研究の⽅向性と今後の展望 45 ⽬次
  17. 46 GLUE (⾃然⾔語理解タスク群) ※11/1 ⼈間 T5(single): 89.7 ⼈間: 87.1 RoBERTa(ensemble):

    88.5 BERT(single): 80.5 ALBERT(ensemble): 89.4 XLNet (ensemble): 88.4
  18. 47 SQuAD 2.0 (機械読解) ※ 11/1 ⼈間 ALBERT(ensemble): 89.731/92.215 ⼈間:

    86.831/89.452 RoBERTa (single): 86.820/89.795 XLNet (single): 86.346/89.133 ALBERT(single): 88.107/90.902
  19. • BERTの概要 • 事前学習⾔語モデルの研究の流れ – 2019/06まで(BERT, GPT-2, XLNet等) – 2019/07〜(RoBERTa,

    ALBERT, T5等) • 注⽬データセットの現状のスコア • 研究の⽅向性と今後の展望 49 ⽬次
  20. 50 ⾔語モデル研究の⽅向性 • データを増やす,質を良くする • モデルサイズを⼤きくする • モデルサイズを⼩さくする / ⾼速化する

    • 内部分析をする(アテンションの可視化など) • マスクの⽅法を⼯夫する • 補助タスク(次⽂予測など)を⼯夫する • 最適化⼿法を改善する(optimizer, mixed precision, 分散学習, etc.) • 系列⻑の制約を無くす • 外部知識を利⽤する • よいサブワードを考える • マルチタスクにする • マルチリンガルにする • マルチモーダル(⾔語+画像,⾳声など)にする • ⽣成タスク(Sequence-to-sequence)に適⽤する(Hot!)
  21. • 加算、減算、カウン ト、ソートなど演算 能⼒が必要な読解 データセット • 演算もニューラルに 任せるべきなのか︖ 53 DROP

    [Dua(UCI)+,NAACL’19] Dheeru Dua et al.: DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs, arXiv https://arxiv.org/pdf/1903.00161.pdf
  22. • 複雑なクエリを含む Text-to-SQL (Semantic Parsing)のデータセット • 機械読解の研究として、知 識源がテキスト+データ ベースに拡張された設定に 拡張できるか︖

    54 Spider [Yu(Yale U)+,EMNLP18] https://arxiv.org/pdf/1809.08887 Tao Yu et al.: Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task. EMNLP 2018: 3911-3921
  23. • ⾔語+常識+ビジョンの理解 • ⾔語モデルと画像特徴量だけで ⽴ち向かえるのか︖ 55 Visual Commonsense Reasoning [Zellers

    (U Washington)+, CVPR19] Rowan Zellers, Yonatan Bisk, Ali Farhadi, Yejin Choi: From Recognition to Cognition: Visual Commonsense Reasoning. CoRR abs/1811.10830 (2018) 画像と質問に対して、 回答と理由を選択