Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Quantity doesn’t buy quality syntax with neural language models

Yumeto Inaoka
February 21, 2020

文献紹介: Quantity doesn’t buy quality syntax with neural language models

2020/02/21の文献紹介で発表

Yumeto Inaoka

February 21, 2020
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Quantity doesn’t buy quality syntax
    with neural language models
    文献紹介 2020/02/21
    長岡技術科学大学 自然言語処理研究室
    稲岡 夢人
    1

    View Slide

  2. Literature
    Title: Quantity doesn’t buy quality syntax with neural language models
    Authors: Marten van Schijndel, Aaron Mueller, Tal Linzen
    Volume:
    Proceedings of the 2019 Conference on Empirical Methods in Natural
    Language Processing and the 9th International Joint Conference on
    Natural Language Processing (EMNLP-IJCNLP)
    Pages: 5831–5837
    Year: 2019
    Publisher: Association for Computational Linguistics
    2

    View Slide

  3. データ, モデル規模とRNNの精度
    • RNNは次に出現する単語を非常に正確に予測できる
    • 構文的に複雑な文脈においては非文法的な単語に
    予想外に高い確率を割り当てる欠陥がある
    • モデルと訓練コーパスの拡大が欠陥をどの程度軽減
    できるかを調査
    3
    概要

    View Slide

  4. 大規模化による性能向上は限界
    • モデル規模の拡大はある点を超えると効果が微小
    • コーパスの拡大も同様に収穫逓減をもたらす
    • モデルを人間レベルに適合させるにはコーパスを
    非現実的に大きくする必要がある
    4
    概要

    View Slide

  5. アーキテクチャの再考が必要
    • モデルとしてGPT, BERT, LSTMを比較
    • 数十億語で学習されたGPT, BERTはいくつかの構成で
    LSTMよりも性能が悪い
    • よりデータ効率の良いアーキテクチャが必要である
    5
    概要

    View Slide

  6. RNNと文法
    • RNNは文法的な文により高い確率を割り当てること
    が期待されている
    (動詞が主語の数的に応じているかの例)
    The author laughs. ← 高い確率
    The author laugh. ← 低い確率
    • 関係節など気を散らす名詞が間にあると精度が低下
    6
    導入

    View Slide

  7. 今後どう発展すべきか
    • 巨大なデータセットと計算資源による
    「不合理なまでの有効性」に依存することによって
    より大きなモデルとコーパスの学習で欠陥に対処する
    ことを期待できるだろうか?
    • あるいはLMの構文表現の改善にはアーキテクチャの
    進歩が必要なのだろうか?
    7
    導入

    View Slide

  8. 行なった実験
    • コーパス規模と隠れ層の次元を系統的に変化させて
    RNNを訓練してパラメータと構文理解の性能を追跡
    • 大規模コーパスで訓練されたTransformerベースの
    GPTとBERTをRNNと比較
    8
    実験

    View Slide

  9. 訓練する言語モデルの構造
    • 2つのLSTM層を持つRNN
    • 100, 200, 400, 800, 1600次元の隠れ層を設定
    • 入力と出力の埋め込みの重みを同じにする
    → 入力の埋め込みと隠れ層は同じ次元
    9
    実験

    View Slide

  10. 訓練データ
    • 2M, 10M, 20M, 40M, 80M wordsで訓練
    • WikiText-103の5つのバラバラのセクションを抽出
    • 検証にはWikiText-103 validation setを使用
    10
    実験
    モデル

    View Slide

  11. 語彙
    • 比較のため、全モデルで共通の語彙を使用
    • GloVe vocabularyとGRNNの語彙の共通部分を使用
    • 結果的に語彙は28,438語となった
    11
    実験

    View Slide

  12. GRNN
    • 公開されているLSTM LMであるGRNNの性能も報告
    • 2つのLSTM層を持つRNN
    • 800次元の隠れ層
    • 80M wordsで訓練
    12
    実験

    View Slide

  13. Transformer (GPT, BERT)
    • 12層のTransformer (110M parameters)
    • 単方向(GPT)および双方向(BERT)
    • 訓練は1B words(GPT)および3.3B words(BERT)
    13
    実験

    View Slide

  14. 評価データ
    • データセットはMarvin and Linzen challenge set
    • 導入で説明したテストで評価
    • 動詞をis/are, was/were, has/haveに置換
    ← 小さなコーパスで訓練されたモデルの比較のため
    14
    評価

    View Slide

  15. 評価方法
    • ベイズ因子を用いた検定を実施
    • 1015
    評価

    View Slide

  16. ベイズ因子
    • L個のモデル
    ( = 1, … )を比較する場合を考える
    • モデルは観測されたデータ上の確率分布
    • モデルの事後分布は




    はデータから見たモデルの好み (エビデンス)
    16
    評価
    [参考] パターン認識と機械学習上: ベイズ理論による統計的予測

    View Slide

  17. ベイズ因子
    • モデルの事後分布から予測分布は以下で与えられる
    , ) = �
    =1

    ,
    ,

    • 一番もっともらしいモデルを1つ選ぶモデル選択は
    上混合分布の単純な近似である
    • エビデンスの比
    /
    )をベイズ因子と呼ぶ
    17
    評価
    [参考] パターン認識と機械学習上: ベイズ理論による統計的予測

    View Slide

  18. モデル規模による改善は飽和する
    • 400次元までであれば
    大規模化で精度は向上
    • 400次元より上では
    効果が得られなかった
    18
    結果

    View Slide

  19. データ量による改善は一貫的でない
    • データ量は精度に影響を
    与えるが一貫的でない
    19
    結果

    View Slide

  20. 主語と動詞が隣接する場合
    • 10M以上でほぼ完璧な結果
    → 名詞と動詞の一致は非常に早く学習できる
    20
    結果

    View Slide

  21. 主語関係節の場合
    • 400次元まで増加させる
    と効果がある
    • 400次元以降の増加では
    ほとんど改善しない
    • データ量の増加で改善
    21

    View Slide

  22. 前置詞句の場合
    • 関係節の場合と同じ傾向
    22

    View Slide

  23. 目的語関係節(内)の場合
    • 全てのモデル規模にて
    データ量の増加で改善
    23

    View Slide

  24. 目的語関係節(をまたぐ)場合
    • モデル規模が小さい場合
    はデータ量の増加による
    改善が見られない
    24

    View Slide

  25. 関係詞が欠落している場合
    • な関係詞が欠落している
    場合は約70%で横ばい
    25

    View Slide

  26. 等位接続構造を持つ場合(短い関係)
    • 主語と2番目の動詞の間に
    気をそらす名詞がなくても
    性能は低くなった
    26

    View Slide

  27. 等位接続構造を持つ場合(長い関係)
    • 多くのデータで学習した
    場合では2番目の動詞が
    離れている場合に精度が
    高い
    27

    View Slide

  28. 等位接続構造を持つ場合
    • 長い関係においてはデータ量を増加(10M→80M)する
    ことによる恩恵があるが、短い関係では改善しない
    → データ量の増加が構文表現の抽象化を導くという
    仮定に疑念を抱かせる
    • RNNは長い構成要素を持つ事例から短い構成要素を
    持つ事例へ一般化する能力に限界があることを示す
    28

    View Slide

  29. Transformerとの比較
    • GPT, BERTは10条件中7つでLSTM以下の性能を示す
    • BERTはGPTの3倍以上の単語で学習されているにも
    関わらずいくつかの条件でGPTを下回る
    29

    View Slide

  30. どれだけデータがあれば十分か
    • データ量を20Mから40Mにすることで達成される
    エラーの削減を測定
    (2M→10Mを超えて観測された最大のエラー削減)
    • 人間レベルの精度と、99.99%の精度を得るために
    必要となるデータ量を控えめに予測
    30

    View Slide

  31. どれだけデータがあれば十分か
    • 人間レベルの達成には100億語以上の
    単語の訓練が必要
    • 99.99%精度の達成には兆以上の単語
    が必要
    • 比較的単純な構文現象のために、
    非現実的に大量のデータが必要
    31

    View Slide

  32. まとめ
    • 大規模データで訓練されたGPT, BERT(Transformer)が
    数桁少ないデータで学習されたLSTMより劣る
    • 訓練データ量を増加させても人間レベルの精度を
    得られる可能性は低い
    • 現実的な量のデータから構文を学習するには
    構文的に構造化されたアーキテクチャか明示的な構文
    の教師が必要になる可能性がある
    32

    View Slide