文献紹介: Quantity doesn’t buy quality syntax with neural language models

Slide 1

Slide 1 text

Quantity doesn’t buy quality syntax with neural language models 文献紹介 2020/02/21 長岡技術科学大学自然言語処理研究室稲岡夢人 1

Slide 2

Slide 2 text

Literature Title: Quantity doesn’t buy quality syntax with neural language models Authors: Marten van Schijndel, Aaron Mueller, Tal Linzen Volume: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) Pages: 5831–5837 Year: 2019 Publisher: Association for Computational Linguistics 2

Slide 3

Slide 3 text

データ, モデル規模とRNNの精度 • RNNは次に出現する単語を非常に正確に予測できる • 構文的に複雑な文脈においては非文法的な単語に予想外に高い確率を割り当てる欠陥がある • モデルと訓練コーパスの拡大が欠陥をどの程度軽減できるかを調査 3 概要

Slide 4

Slide 4 text

大規模化による性能向上は限界 • モデル規模の拡大はある点を超えると効果が微小 • コーパスの拡大も同様に収穫逓減をもたらす • モデルを人間レベルに適合させるにはコーパスを非現実的に大きくする必要がある 4 概要

Slide 5

Slide 5 text

アーキテクチャの再考が必要 • モデルとしてGPT, BERT, LSTMを比較 • 数十億語で学習されたGPT, BERTはいくつかの構成で LSTMよりも性能が悪い • よりデータ効率の良いアーキテクチャが必要である 5 概要

Slide 6

Slide 6 text

RNNと文法 • RNNは文法的な文により高い確率を割り当てることが期待されている (動詞が主語の数的に応じているかの例) The author laughs. ← 高い確率 The author laugh. ← 低い確率 • 関係節など気を散らす名詞が間にあると精度が低下 6 導入

Slide 7

Slide 7 text

今後どう発展すべきか • 巨大なデータセットと計算資源による「不合理なまでの有効性」に依存することによってより大きなモデルとコーパスの学習で欠陥に対処することを期待できるだろうか？ • あるいはLMの構文表現の改善にはアーキテクチャの進歩が必要なのだろうか？ 7 導入

Slide 8

Slide 8 text

行なった実験 • コーパス規模と隠れ層の次元を系統的に変化させて RNNを訓練してパラメータと構文理解の性能を追跡 • 大規模コーパスで訓練されたTransformerベースの GPTとBERTをRNNと比較 8 実験

Slide 9

Slide 9 text

訓練する言語モデルの構造 • 2つのLSTM層を持つRNN • 100, 200, 400, 800, 1600次元の隠れ層を設定 • 入力と出力の埋め込みの重みを同じにする → 入力の埋め込みと隠れ層は同じ次元 9 実験

Slide 10

Slide 10 text

訓練データ • 2M, 10M, 20M, 40M, 80M wordsで訓練 • WikiText-103の5つのバラバラのセクションを抽出 • 検証にはWikiText-103 validation setを使用 10 実験モデル

Slide 11

Slide 11 text

語彙 • 比較のため、全モデルで共通の語彙を使用 • GloVe vocabularyとGRNNの語彙の共通部分を使用 • 結果的に語彙は28,438語となった 11 実験

Slide 12

Slide 12 text

GRNN • 公開されているLSTM LMであるGRNNの性能も報告 • 2つのLSTM層を持つRNN • 800次元の隠れ層 • 80M wordsで訓練 12 実験

Slide 13

Slide 13 text

Transformer (GPT, BERT) • 12層のTransformer (110M parameters) • 単方向(GPT)および双方向(BERT) • 訓練は1B words(GPT)および3.3B words(BERT) 13 実験

Slide 14

Slide 14 text

評価データ • データセットはMarvin and Linzen challenge set • 導入で説明したテストで評価 • 動詞をis/are, was/were, has/haveに置換 ← 小さなコーパスで訓練されたモデルの比較のため 14 評価

Slide 15

Slide 15 text

評価方法 • ベイズ因子を用いた検定を実施 • 10

Slide 16

Slide 16 text

ベイズ因子 • L個のモデル ( = 1, … )を比較する場合を考える • モデルは観測されたデータ上の確率分布 • モデルの事後分布は ∝ • はデータから見たモデルの好み (エビデンス) 16 評価 [参考] パターン認識と機械学習上: ベイズ理論による統計的予測

Slide 17

Slide 17 text

ベイズ因子 • モデルの事後分布から予測分布は以下で与えられる , ) = � =1 , , • 一番もっともらしいモデルを1つ選ぶモデル選択は上混合分布の単純な近似である • エビデンスの比 / )をベイズ因子と呼ぶ 17 評価 [参考] パターン認識と機械学習上: ベイズ理論による統計的予測

Slide 18

Slide 18 text

モデル規模による改善は飽和する • 400次元までであれば大規模化で精度は向上 • 400次元より上では効果が得られなかった 18 結果

Slide 19

Slide 19 text

データ量による改善は一貫的でない • データ量は精度に影響を与えるが一貫的でない 19 結果

Slide 20

Slide 20 text

主語と動詞が隣接する場合 • 10M以上でほぼ完璧な結果 → 名詞と動詞の一致は非常に早く学習できる 20 結果

Slide 21

Slide 21 text

主語関係節の場合 • 400次元まで増加させると効果がある • 400次元以降の増加ではほとんど改善しない • データ量の増加で改善 21

Slide 22

Slide 22 text

前置詞句の場合 • 関係節の場合と同じ傾向 22

Slide 23

Slide 23 text

目的語関係節(内)の場合 • 全てのモデル規模にてデータ量の増加で改善 23

Slide 24

Slide 24 text

目的語関係節(をまたぐ)場合 • モデル規模が小さい場合はデータ量の増加による改善が見られない 24

Slide 25

Slide 25 text

関係詞が欠落している場合 • な関係詞が欠落している場合は約70%で横ばい 25

Slide 26

Slide 26 text

等位接続構造を持つ場合(短い関係) • 主語と2番目の動詞の間に気をそらす名詞がなくても性能は低くなった 26

Slide 27

Slide 27 text

等位接続構造を持つ場合(長い関係) • 多くのデータで学習した場合では2番目の動詞が離れている場合に精度が高い 27

Slide 28

Slide 28 text

等位接続構造を持つ場合 • 長い関係においてはデータ量を増加(10M→80M)することによる恩恵があるが、短い関係では改善しない → データ量の増加が構文表現の抽象化を導くという仮定に疑念を抱かせる • RNNは長い構成要素を持つ事例から短い構成要素を持つ事例へ一般化する能力に限界があることを示す 28

Slide 29

Slide 29 text

Transformerとの比較 • GPT, BERTは10条件中7つでLSTM以下の性能を示す • BERTはGPTの3倍以上の単語で学習されているにも関わらずいくつかの条件でGPTを下回る 29

Slide 30

Slide 30 text

どれだけデータがあれば十分か • データ量を20Mから40Mにすることで達成されるエラーの削減を測定 (2M→10Mを超えて観測された最大のエラー削減) • 人間レベルの精度と、99.99%の精度を得るために必要となるデータ量を控えめに予測 30

Slide 31

Slide 31 text

どれだけデータがあれば十分か • 人間レベルの達成には100億語以上の単語の訓練が必要 • 99.99%精度の達成には兆以上の単語が必要 • 比較的単純な構文現象のために、非現実的に大量のデータが必要 31

Slide 32

Slide 32 text

まとめ • 大規模データで訓練されたGPT, BERT(Transformer)が数桁少ないデータで学習されたLSTMより劣る • 訓練データ量を増加させても人間レベルの精度を得られる可能性は低い • 現実的な量のデータから構文を学習するには構文的に構造化されたアーキテクチャか明示的な構文の教師が必要になる可能性がある 32