文献紹介: Quantity doesn’t buy quality syntax with neural language models

F637b583c221c132af26c91cb3dba0ca?s=47 Yumeto Inaoka
February 21, 2020

文献紹介: Quantity doesn’t buy quality syntax with neural language models

2020/02/21の文献紹介で発表

F637b583c221c132af26c91cb3dba0ca?s=128

Yumeto Inaoka

February 21, 2020
Tweet

Transcript

  1. Quantity doesn’t buy quality syntax with neural language models 文献紹介

    2020/02/21 長岡技術科学大学 自然言語処理研究室 稲岡 夢人 1
  2. Literature Title: Quantity doesn’t buy quality syntax with neural language

    models Authors: Marten van Schijndel, Aaron Mueller, Tal Linzen Volume: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) Pages: 5831–5837 Year: 2019 Publisher: Association for Computational Linguistics 2
  3. データ, モデル規模とRNNの精度 • RNNは次に出現する単語を非常に正確に予測できる • 構文的に複雑な文脈においては非文法的な単語に 予想外に高い確率を割り当てる欠陥がある • モデルと訓練コーパスの拡大が欠陥をどの程度軽減 できるかを調査

    3 概要
  4. 大規模化による性能向上は限界 • モデル規模の拡大はある点を超えると効果が微小 • コーパスの拡大も同様に収穫逓減をもたらす • モデルを人間レベルに適合させるにはコーパスを 非現実的に大きくする必要がある 4 概要

  5. アーキテクチャの再考が必要 • モデルとしてGPT, BERT, LSTMを比較 • 数十億語で学習されたGPT, BERTはいくつかの構成で LSTMよりも性能が悪い •

    よりデータ効率の良いアーキテクチャが必要である 5 概要
  6. RNNと文法 • RNNは文法的な文により高い確率を割り当てること が期待されている (動詞が主語の数的に応じているかの例) The author laughs. ← 高い確率

    The author laugh. ← 低い確率 • 関係節など気を散らす名詞が間にあると精度が低下 6 導入
  7. 今後どう発展すべきか • 巨大なデータセットと計算資源による 「不合理なまでの有効性」に依存することによって より大きなモデルとコーパスの学習で欠陥に対処する ことを期待できるだろうか? • あるいはLMの構文表現の改善にはアーキテクチャの 進歩が必要なのだろうか? 7

    導入
  8. 行なった実験 • コーパス規模と隠れ層の次元を系統的に変化させて RNNを訓練してパラメータと構文理解の性能を追跡 • 大規模コーパスで訓練されたTransformerベースの GPTとBERTをRNNと比較 8 実験

  9. 訓練する言語モデルの構造 • 2つのLSTM層を持つRNN • 100, 200, 400, 800, 1600次元の隠れ層を設定 •

    入力と出力の埋め込みの重みを同じにする → 入力の埋め込みと隠れ層は同じ次元 9 実験
  10. 訓練データ • 2M, 10M, 20M, 40M, 80M wordsで訓練 • WikiText-103の5つのバラバラのセクションを抽出

    • 検証にはWikiText-103 validation setを使用 10 実験 モデル
  11. 語彙 • 比較のため、全モデルで共通の語彙を使用 • GloVe vocabularyとGRNNの語彙の共通部分を使用 • 結果的に語彙は28,438語となった 11 実験

  12. GRNN • 公開されているLSTM LMであるGRNNの性能も報告 • 2つのLSTM層を持つRNN • 800次元の隠れ層 • 80M

    wordsで訓練 12 実験
  13. Transformer (GPT, BERT) • 12層のTransformer (110M parameters) • 単方向(GPT)および双方向(BERT) •

    訓練は1B words(GPT)および3.3B words(BERT) 13 実験
  14. 評価データ • データセットはMarvin and Linzen challenge set • 導入で説明したテストで評価 •

    動詞をis/are, was/were, has/haveに置換 ← 小さなコーパスで訓練されたモデルの比較のため 14 評価
  15. 評価方法 • ベイズ因子を用いた検定を実施 • 10<Kで帰無仮説を棄却し精度の有意差を示す 15 評価

  16. ベイズ因子 • L個のモデル ( = 1, … )を比較する場合を考える • モデルは観測されたデータ上の確率分布

    • モデルの事後分布は ∝ • はデータから見たモデルの好み (エビデンス) 16 評価 [参考] パターン認識と機械学習上: ベイズ理論による統計的予測
  17. ベイズ因子 • モデルの事後分布から予測分布は以下で与えられる , ) = � =1 , ,

    • 一番もっともらしいモデルを1つ選ぶモデル選択は 上混合分布の単純な近似である • エビデンスの比 / )をベイズ因子と呼ぶ 17 評価 [参考] パターン認識と機械学習上: ベイズ理論による統計的予測
  18. モデル規模による改善は飽和する • 400次元までであれば 大規模化で精度は向上 • 400次元より上では 効果が得られなかった 18 結果

  19. データ量による改善は一貫的でない • データ量は精度に影響を 与えるが一貫的でない 19 結果

  20. 主語と動詞が隣接する場合 • 10M以上でほぼ完璧な結果 → 名詞と動詞の一致は非常に早く学習できる 20 結果

  21. 主語関係節の場合 • 400次元まで増加させる と効果がある • 400次元以降の増加では ほとんど改善しない • データ量の増加で改善 21

  22. 前置詞句の場合 • 関係節の場合と同じ傾向 22

  23. 目的語関係節(内)の場合 • 全てのモデル規模にて データ量の増加で改善 23

  24. 目的語関係節(をまたぐ)場合 • モデル規模が小さい場合 はデータ量の増加による 改善が見られない 24

  25. 関係詞が欠落している場合 • な関係詞が欠落している 場合は約70%で横ばい 25

  26. 等位接続構造を持つ場合(短い関係) • 主語と2番目の動詞の間に 気をそらす名詞がなくても 性能は低くなった 26

  27. 等位接続構造を持つ場合(長い関係) • 多くのデータで学習した 場合では2番目の動詞が 離れている場合に精度が 高い 27

  28. 等位接続構造を持つ場合 • 長い関係においてはデータ量を増加(10M→80M)する ことによる恩恵があるが、短い関係では改善しない → データ量の増加が構文表現の抽象化を導くという 仮定に疑念を抱かせる • RNNは長い構成要素を持つ事例から短い構成要素を 持つ事例へ一般化する能力に限界があることを示す

    28
  29. Transformerとの比較 • GPT, BERTは10条件中7つでLSTM以下の性能を示す • BERTはGPTの3倍以上の単語で学習されているにも 関わらずいくつかの条件でGPTを下回る 29

  30. どれだけデータがあれば十分か • データ量を20Mから40Mにすることで達成される エラーの削減を測定 (2M→10Mを超えて観測された最大のエラー削減) • 人間レベルの精度と、99.99%の精度を得るために 必要となるデータ量を控えめに予測 30

  31. どれだけデータがあれば十分か • 人間レベルの達成には100億語以上の 単語の訓練が必要 • 99.99%精度の達成には兆以上の単語 が必要 • 比較的単純な構文現象のために、 非現実的に大量のデータが必要

    31
  32. まとめ • 大規模データで訓練されたGPT, BERT(Transformer)が 数桁少ないデータで学習されたLSTMより劣る • 訓練データ量を増加させても人間レベルの精度を 得られる可能性は低い • 現実的な量のデータから構文を学習するには

    構文的に構造化されたアーキテクチャか明示的な構文 の教師が必要になる可能性がある 32