Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2021論文紹介_When-Do-You-Need-Billions-of-Words-of-Pretraining-Data?

 2021論文紹介_When-Do-You-Need-Billions-of-Words-of-Pretraining-Data?

Ikumi Yamashita

October 22, 2021
Tweet

More Decks by Ikumi Yamashita

Other Decks in Technology

Transcript

  1. Background • 近年の NLP は⼤規模なデータで事前学習を⾏ったモデルが中⼼ Ø しかし,⼤規模なデータでの学習で⼩規模なデータでは得られないどん な知識を学習しているかは明らかになってはいない • ⼤規模な事前学習のデータに関する幾つかの

    research question が存在 Ø ⼤規模なデータから何を学習しているのか? Ø ⼤規模 LM にとって⼗分なデータ量は? Ø データを増やしていくとどのような能⼒が向上するのか?
  2. Overview • 事前学習のデータ量に関する複数の疑問に答えるために,事前学習データの サイズが異なる複数のモデルに対して 5 種類の⼿法を⽤いて分析 • 結果として以下のことを⽰した Ø 構⽂や意味的知識の学習にはそれほど多くのデータを必要としていない

    Ø ⼀⽅で,⾔語理解に関する下流タスクを解くためにははるかに多くの データが必要 Ø ⾔語理解のタスクには構⽂や意味的知識が必要不可⽋な⼀⽅で,近年の ⼤規模モデルの性能向上の理由がそれ以外の未知の知識の学習によるも のである可能性
  3. Approach • 5 つのデータサイズ (1M, 10M, 100M, 1B, 30B) で学習された

    RoBERTa モデル を使⽤ • それぞれのモデルに対して 5 つの⼿法を適⽤し性能を確認 Ø Classifier probing Ø Minimum Description Length (MDL) probing Ø BLiMP Ø LAMA Ø SuperGLUE
  4. Approach - MDL probing • Minimum Description Length probing Ø

    通常の probing では性能しか⾒ていない,という問題点を解消すること を⽬指した probing ⼿法 (classifier を学習するのは通常と同じ) Ø 簡単に⾔うと,性能を達成するために必要なデータ量も勘案してスコア をつけている (データ量を横軸,loss を縦軸にとった際の学習曲線の AUC を⾒ている) Ø ラベル y を⼊⼒ x を圧縮した姿だと捉えて伝送コストを考える ü Data codelength: 最終的なモデルの質を⽰す,loss を⽤いる ü Model codelength: 表現からラベルを抽出するための労⼒を⽰す
  5. Approach - BLiMP • BLiMP benchmark Ø 12 の⽂法現象に関する 67

    のタスクで構成されたベンチマーク Ø ⽂のペアが与えられてどちらがより grammatical かを判断する Ø 解くためには⽂法知識の学習が必要
  6. Approach - SuperGLUE • SuperGLUE Ø ⾃然⾔語理解に関する複数のタスクで構成されたベンチマーク • 今回の研究では以下の 5

    つのタスクの結果を報告 (いずれも事実の知識や⾼ 度な推論が必要) Ø CommitmentBank (CB) Ø BoolQ Ø Choice of Plausible Alternatives (COPA) Ø Words in Context (WiC) Ø Recognizing Textual Entailment (RTE)
  7. Results - Classification probing • ほとんどのタスクにおいて 100M までで⼤きな性能向上が⾒られる Ø Winograd

    coreference は常識的な知識や推論が必要な challenging なタ スクのため少し傾向が異なる • 構⽂知識は意味的知識よりも早めに学習されていそう
  8. Results - MDL probing • Classification probing と同様の傾向 (100M までに⼤きな変化が訪れる)

    を⽰ している Ø Winograd に関しても同じく特異な結果を⽰している
  9. Results - BLiMP • ほとんどの⽂法現象に関する知識が 1B までのデータで学習されていそう Ø 100M までに⼤きな性能の改善があった

    probing の結果よりも少し遅い Ø ⻑距離での関係が重要かつ頻度の少ない現象についてはより遅い学習が なされている
  10. Conclusion • 複数のデータサイズで事前学習された RoBERTa に対して分析を⾏った Ø 構⽂知識や意味的知識の学習は⽐較的少ないデータでも⼗分のようであ ることを⽰した Ø ⼀⽅で,事実に基づく知識を学習するためにはより⼤きなデータサイズ

    が必要であることも⽰した Ø ⾔語理解に関してはさらに多い 30B 以上のデータサイズにおいてデータ を増やせば性能が向上するが,⾔語知識とは別の知識を学習しているの ではないかと考えられる Ø どのようなデータがどのようなタスクに必要なのかを知ることはより データ効率の良いモデルを得るための⾜掛かりになるはず