Slide 1

Slide 1 text

Quantity doesn’t buy quality syntax with neural language models 文献紹介 2020/02/21 長岡技術科学大学 自然言語処理研究室 稲岡 夢人 1

Slide 2

Slide 2 text

Literature Title: Quantity doesn’t buy quality syntax with neural language models Authors: Marten van Schijndel, Aaron Mueller, Tal Linzen Volume: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) Pages: 5831–5837 Year: 2019 Publisher: Association for Computational Linguistics 2

Slide 3

Slide 3 text

データ, モデル規模とRNNの精度 • RNNは次に出現する単語を非常に正確に予測できる • 構文的に複雑な文脈においては非文法的な単語に 予想外に高い確率を割り当てる欠陥がある • モデルと訓練コーパスの拡大が欠陥をどの程度軽減 できるかを調査 3 概要

Slide 4

Slide 4 text

大規模化による性能向上は限界 • モデル規模の拡大はある点を超えると効果が微小 • コーパスの拡大も同様に収穫逓減をもたらす • モデルを人間レベルに適合させるにはコーパスを 非現実的に大きくする必要がある 4 概要

Slide 5

Slide 5 text

アーキテクチャの再考が必要 • モデルとしてGPT, BERT, LSTMを比較 • 数十億語で学習されたGPT, BERTはいくつかの構成で LSTMよりも性能が悪い • よりデータ効率の良いアーキテクチャが必要である 5 概要

Slide 6

Slide 6 text

RNNと文法 • RNNは文法的な文により高い確率を割り当てること が期待されている (動詞が主語の数的に応じているかの例) The author laughs. ← 高い確率 The author laugh. ← 低い確率 • 関係節など気を散らす名詞が間にあると精度が低下 6 導入

Slide 7

Slide 7 text

今後どう発展すべきか • 巨大なデータセットと計算資源による 「不合理なまでの有効性」に依存することによって より大きなモデルとコーパスの学習で欠陥に対処する ことを期待できるだろうか? • あるいはLMの構文表現の改善にはアーキテクチャの 進歩が必要なのだろうか? 7 導入

Slide 8

Slide 8 text

行なった実験 • コーパス規模と隠れ層の次元を系統的に変化させて RNNを訓練してパラメータと構文理解の性能を追跡 • 大規模コーパスで訓練されたTransformerベースの GPTとBERTをRNNと比較 8 実験

Slide 9

Slide 9 text

訓練する言語モデルの構造 • 2つのLSTM層を持つRNN • 100, 200, 400, 800, 1600次元の隠れ層を設定 • 入力と出力の埋め込みの重みを同じにする → 入力の埋め込みと隠れ層は同じ次元 9 実験

Slide 10

Slide 10 text

訓練データ • 2M, 10M, 20M, 40M, 80M wordsで訓練 • WikiText-103の5つのバラバラのセクションを抽出 • 検証にはWikiText-103 validation setを使用 10 実験 モデル

Slide 11

Slide 11 text

語彙 • 比較のため、全モデルで共通の語彙を使用 • GloVe vocabularyとGRNNの語彙の共通部分を使用 • 結果的に語彙は28,438語となった 11 実験

Slide 12

Slide 12 text

GRNN • 公開されているLSTM LMであるGRNNの性能も報告 • 2つのLSTM層を持つRNN • 800次元の隠れ層 • 80M wordsで訓練 12 実験

Slide 13

Slide 13 text

Transformer (GPT, BERT) • 12層のTransformer (110M parameters) • 単方向(GPT)および双方向(BERT) • 訓練は1B words(GPT)および3.3B words(BERT) 13 実験

Slide 14

Slide 14 text

評価データ • データセットはMarvin and Linzen challenge set • 導入で説明したテストで評価 • 動詞をis/are, was/were, has/haveに置換 ← 小さなコーパスで訓練されたモデルの比較のため 14 評価

Slide 15

Slide 15 text

評価方法 • ベイズ因子を用いた検定を実施 • 10

Slide 16

Slide 16 text

ベイズ因子 • L個のモデル ( = 1, … )を比較する場合を考える • モデルは観測されたデータ上の確率分布 • モデルの事後分布は ∝ • はデータから見たモデルの好み (エビデンス) 16 評価 [参考] パターン認識と機械学習上: ベイズ理論による統計的予測

Slide 17

Slide 17 text

ベイズ因子 • モデルの事後分布から予測分布は以下で与えられる , ) = � =1 , , • 一番もっともらしいモデルを1つ選ぶモデル選択は 上混合分布の単純な近似である • エビデンスの比 / )をベイズ因子と呼ぶ 17 評価 [参考] パターン認識と機械学習上: ベイズ理論による統計的予測

Slide 18

Slide 18 text

モデル規模による改善は飽和する • 400次元までであれば 大規模化で精度は向上 • 400次元より上では 効果が得られなかった 18 結果

Slide 19

Slide 19 text

データ量による改善は一貫的でない • データ量は精度に影響を 与えるが一貫的でない 19 結果

Slide 20

Slide 20 text

主語と動詞が隣接する場合 • 10M以上でほぼ完璧な結果 → 名詞と動詞の一致は非常に早く学習できる 20 結果

Slide 21

Slide 21 text

主語関係節の場合 • 400次元まで増加させる と効果がある • 400次元以降の増加では ほとんど改善しない • データ量の増加で改善 21

Slide 22

Slide 22 text

前置詞句の場合 • 関係節の場合と同じ傾向 22

Slide 23

Slide 23 text

目的語関係節(内)の場合 • 全てのモデル規模にて データ量の増加で改善 23

Slide 24

Slide 24 text

目的語関係節(をまたぐ)場合 • モデル規模が小さい場合 はデータ量の増加による 改善が見られない 24

Slide 25

Slide 25 text

関係詞が欠落している場合 • な関係詞が欠落している 場合は約70%で横ばい 25

Slide 26

Slide 26 text

等位接続構造を持つ場合(短い関係) • 主語と2番目の動詞の間に 気をそらす名詞がなくても 性能は低くなった 26

Slide 27

Slide 27 text

等位接続構造を持つ場合(長い関係) • 多くのデータで学習した 場合では2番目の動詞が 離れている場合に精度が 高い 27

Slide 28

Slide 28 text

等位接続構造を持つ場合 • 長い関係においてはデータ量を増加(10M→80M)する ことによる恩恵があるが、短い関係では改善しない → データ量の増加が構文表現の抽象化を導くという 仮定に疑念を抱かせる • RNNは長い構成要素を持つ事例から短い構成要素を 持つ事例へ一般化する能力に限界があることを示す 28

Slide 29

Slide 29 text

Transformerとの比較 • GPT, BERTは10条件中7つでLSTM以下の性能を示す • BERTはGPTの3倍以上の単語で学習されているにも 関わらずいくつかの条件でGPTを下回る 29

Slide 30

Slide 30 text

どれだけデータがあれば十分か • データ量を20Mから40Mにすることで達成される エラーの削減を測定 (2M→10Mを超えて観測された最大のエラー削減) • 人間レベルの精度と、99.99%の精度を得るために 必要となるデータ量を控えめに予測 30

Slide 31

Slide 31 text

どれだけデータがあれば十分か • 人間レベルの達成には100億語以上の 単語の訓練が必要 • 99.99%精度の達成には兆以上の単語 が必要 • 比較的単純な構文現象のために、 非現実的に大量のデータが必要 31

Slide 32

Slide 32 text

まとめ • 大規模データで訓練されたGPT, BERT(Transformer)が 数桁少ないデータで学習されたLSTMより劣る • 訓練データ量を増加させても人間レベルの精度を 得られる可能性は低い • 現実的な量のデータから構文を学習するには 構文的に構造化されたアーキテクチャか明示的な構文 の教師が必要になる可能性がある 32