文献紹介: Quantity doesn’t buy quality syntax with neural language models

Quantity doesn’t buy quality syntax with neural language models 文献紹介
2020/02/21 長岡技術科学大学自然言語処理研究室稲岡夢人 1

Literature Title: Quantity doesn’t buy quality syntax with neural language
models Authors: Marten van Schijndel, Aaron Mueller, Tal Linzen Volume: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) Pages: 5831–5837 Year: 2019 Publisher: Association for Computational Linguistics 2

データ, モデル規模とRNNの精度 • RNNは次に出現する単語を非常に正確に予測できる • 構文的に複雑な文脈においては非文法的な単語に予想外に高い確率を割り当てる欠陥がある • モデルと訓練コーパスの拡大が欠陥をどの程度軽減できるかを調査
3 概要

大規模化による性能向上は限界 • モデル規模の拡大はある点を超えると効果が微小 • コーパスの拡大も同様に収穫逓減をもたらす • モデルを人間レベルに適合させるにはコーパスを非現実的に大きくする必要がある 4 概要

アーキテクチャの再考が必要 • モデルとしてGPT, BERT, LSTMを比較 • 数十億語で学習されたGPT, BERTはいくつかの構成で LSTMよりも性能が悪い •
よりデータ効率の良いアーキテクチャが必要である 5 概要

RNNと文法 • RNNは文法的な文により高い確率を割り当てることが期待されている (動詞が主語の数的に応じているかの例) The author laughs. ← 高い確率
The author laugh. ← 低い確率 • 関係節など気を散らす名詞が間にあると精度が低下 6 導入

今後どう発展すべきか • 巨大なデータセットと計算資源による「不合理なまでの有効性」に依存することによってより大きなモデルとコーパスの学習で欠陥に対処することを期待できるだろうか？ • あるいはLMの構文表現の改善にはアーキテクチャの進歩が必要なのだろうか？ 7
導入

行なった実験 • コーパス規模と隠れ層の次元を系統的に変化させて RNNを訓練してパラメータと構文理解の性能を追跡 • 大規模コーパスで訓練されたTransformerベースの GPTとBERTをRNNと比較 8 実験

訓練する言語モデルの構造 • 2つのLSTM層を持つRNN • 100, 200, 400, 800, 1600次元の隠れ層を設定 •
入力と出力の埋め込みの重みを同じにする → 入力の埋め込みと隠れ層は同じ次元 9 実験

訓練データ • 2M, 10M, 20M, 40M, 80M wordsで訓練 • WikiText-103の5つのバラバラのセクションを抽出
• 検証にはWikiText-103 validation setを使用 10 実験モデル

語彙 • 比較のため、全モデルで共通の語彙を使用 • GloVe vocabularyとGRNNの語彙の共通部分を使用 • 結果的に語彙は28,438語となった 11 実験

GRNN • 公開されているLSTM LMであるGRNNの性能も報告 • 2つのLSTM層を持つRNN • 800次元の隠れ層 • 80M
wordsで訓練 12 実験

Transformer (GPT, BERT) • 12層のTransformer (110M parameters) • 単方向(GPT)および双方向(BERT) •
訓練は1B words(GPT)および3.3B words(BERT) 13 実験

評価データ • データセットはMarvin and Linzen challenge set • 導入で説明したテストで評価 •
動詞をis/are, was/were, has/haveに置換 ← 小さなコーパスで訓練されたモデルの比較のため 14 評価

評価方法 • ベイズ因子を用いた検定を実施 • 10<Kで帰無仮説を棄却し精度の有意差を示す 15 評価

ベイズ因子 • L個のモデル ( = 1, … )を比較する場合を考える • モデルは観測されたデータ上の確率分布
• モデルの事後分布は ∝ • はデータから見たモデルの好み (エビデンス) 16 評価 [参考] パターン認識と機械学習上: ベイズ理論による統計的予測

ベイズ因子 • モデルの事後分布から予測分布は以下で与えられる , ) = � =1 , ,
• 一番もっともらしいモデルを1つ選ぶモデル選択は上混合分布の単純な近似である • エビデンスの比 / )をベイズ因子と呼ぶ 17 評価 [参考] パターン認識と機械学習上: ベイズ理論による統計的予測

モデル規模による改善は飽和する • 400次元までであれば大規模化で精度は向上 • 400次元より上では効果が得られなかった 18 結果

データ量による改善は一貫的でない • データ量は精度に影響を与えるが一貫的でない 19 結果

主語と動詞が隣接する場合 • 10M以上でほぼ完璧な結果 → 名詞と動詞の一致は非常に早く学習できる 20 結果

主語関係節の場合 • 400次元まで増加させると効果がある • 400次元以降の増加ではほとんど改善しない • データ量の増加で改善 21

前置詞句の場合 • 関係節の場合と同じ傾向 22

目的語関係節(内)の場合 • 全てのモデル規模にてデータ量の増加で改善 23

目的語関係節(をまたぐ)場合 • モデル規模が小さい場合はデータ量の増加による改善が見られない 24

関係詞が欠落している場合 • な関係詞が欠落している場合は約70%で横ばい 25

等位接続構造を持つ場合(短い関係) • 主語と2番目の動詞の間に気をそらす名詞がなくても性能は低くなった 26

等位接続構造を持つ場合(長い関係) • 多くのデータで学習した場合では2番目の動詞が離れている場合に精度が高い 27

等位接続構造を持つ場合 • 長い関係においてはデータ量を増加(10M→80M)することによる恩恵があるが、短い関係では改善しない → データ量の増加が構文表現の抽象化を導くという仮定に疑念を抱かせる • RNNは長い構成要素を持つ事例から短い構成要素を持つ事例へ一般化する能力に限界があることを示す
28

Transformerとの比較 • GPT, BERTは10条件中7つでLSTM以下の性能を示す • BERTはGPTの3倍以上の単語で学習されているにも関わらずいくつかの条件でGPTを下回る 29

どれだけデータがあれば十分か • データ量を20Mから40Mにすることで達成されるエラーの削減を測定 (2M→10Mを超えて観測された最大のエラー削減) • 人間レベルの精度と、99.99%の精度を得るために必要となるデータ量を控えめに予測 30

どれだけデータがあれば十分か • 人間レベルの達成には100億語以上の単語の訓練が必要 • 99.99%精度の達成には兆以上の単語が必要 • 比較的単純な構文現象のために、非現実的に大量のデータが必要
31

まとめ • 大規模データで訓練されたGPT, BERT(Transformer)が数桁少ないデータで学習されたLSTMより劣る • 訓練データ量を増加させても人間レベルの精度を得られる可能性は低い • 現実的な量のデータから構文を学習するには
構文的に構造化されたアーキテクチャか明示的な構文の教師が必要になる可能性がある 32

文献紹介: Quantity doesn’t buy quality syntax with ...

文献紹介: Quantity doesn’t buy quality syntax with neural language models

Yumeto Inaoka

More Decks by Yumeto Inaoka

Other Decks in Research

Featured

Transcript

Quantity doesn’t buy quality syntax with neural language models 文献紹介

Literature Title: Quantity doesn’t buy quality syntax with neural language

アーキテクチャの再考が必要 • モデルとしてGPT, BERT, LSTMを比較 • 数十億語で学習されたGPT, BERTはいくつかの構成で LSTMよりも性能が悪い •

RNNと文法 • RNNは文法的な文により高い確率を割り当てることが期待されている (動詞が主語の数的に応じているかの例) The author laughs. ← 高い確率

行なった実験 • コーパス規模と隠れ層の次元を系統的に変化させて RNNを訓練してパラメータと構文理解の性能を追跡 • 大規模コーパスで訓練されたTransformerベースの GPTとBERTをRNNと比較 8 実験

訓練する言語モデルの構造 • 2つのLSTM層を持つRNN • 100, 200, 400, 800, 1600次元の隠れ層を設定 •

訓練データ • 2M, 10M, 20M, 40M, 80M wordsで訓練 • WikiText-103の5つのバラバラのセクションを抽出

語彙 • 比較のため、全モデルで共通の語彙を使用 • GloVe vocabularyとGRNNの語彙の共通部分を使用 • 結果的に語彙は28,438語となった 11 実験

GRNN • 公開されているLSTM LMであるGRNNの性能も報告 • 2つのLSTM層を持つRNN • 800次元の隠れ層 • 80M

Transformer (GPT, BERT) • 12層のTransformer (110M parameters) • 単方向(GPT)および双方向(BERT) •

評価データ • データセットはMarvin and Linzen challenge set • 導入で説明したテストで評価 •