Upgrade to Pro — share decks privately, control downloads, hide ads and more …

What does BERT learn about the structure of language?

19861bbc3b8d3ef89df5400d1e2c529a?s=47 katsutan
February 23, 2020

What does BERT learn about the structure of language?

文献紹介
https://www.aclweb.org/anthology/P19-1356.pdf

長岡技術科学大学
自然言語処理研究室
勝田 哲弘

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

February 23, 2020
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. WHAT DOES BERT LEARN ABOUT THE STRUCTURE OF LANGUAGE? Proceedings

    of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3651–3657 Florence, Italy, July 28 - August 2, 2019. 文献紹介: 長岡技術科学大学 自然言語処理研究室 勝田 哲弘
  2.  BERTで英語を学習させた際に内部でどのように学習しているかを可視化  BERT  近年の言語理解タスクで高精度を出している言語表現モデル ABSTRACT 2

  3.  BERT (Bidirectional Encoder Representations from Transformers)  11のNLPタスクで従来の精度を大幅に更新 INTRODUCTION

    図の引用: Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, Proceedings of NAACL-HLT 2019, page 4173 Minneapolis, Minnesota, June 2 - June 7, 2019. 3
  4.  BERT (Bidirectional Encoder Representations from Transformers)  11のNLPタスクで従来の精度を大幅に更新 

    BERTが言語の構造情報を学習できているのでは?  BERTの解釈可能性(interpretability)の研究  各層が学習する表現の特徴 INTRODUCTION 4
  5. 1. 下層で抽出したフレーズの情報が上層で希釈されるか 2. 言語情報の階層を抽出  下層:表面的な情報  中層:構文的な情報  上層:意味的な情報

    3. 主語と述語の一致 4. 木構造を抽出 INTRODUCTION 5
  6.  フレーズの最初と最後の隠れ状態の積と差からフレーズの表現を獲得  CoNLL2000のチャンクデータからラベル付け PHRASAL SYNTAX 6

  7.  Probing tasks (Adi et al., 2017; Hupkes et al.,

    2018; Conneau et al., 2018)  各エンコーダーの出力からMLPで予測  SentLen, WC, TreeDepth, TopConst, Bshift, Tense, SubjNum, SOMO, CoordInv PROBING TASKS 7
  8.  Surface information  SentLen  文の長さを予測  WC 

    文中の中頻度(上位2k-3k)の単語を復元 PROBING TASKS 8
  9.  Syntactic information  BShift  単語の並び替えが行われているか(2値分類)  TreeDepth 

    文の深さを予測(5-12の8分類)  TopConst  上位構成要素の予測(20分類: 高頻度19, その他1) PROBING TASKS 9
  10.  Semantic information  Tense  時制予測  SubjNum 

    主語の数  ObjNum  目的語の数 PROBING TASKS 10  変更を行ったかの2値分類  SOMO  名詞、動詞をランダムに置換  CoordInv  等位節の入れ替え
  11. PROBING TASKS 11

  12. 動詞に対して単数/複数を予測(横軸:名詞数) SUBJECT-VERB AGREEMENT 12

  13.  Tensor Product Decomposition Networks (TPDN) で予測  (McCoy et

    al., 2019) COMPOSITIONAL STRUCTURE 13
  14.  BERTの解釈可能性について調査  表層ー意味の特徴などを各層に分かれて表現している  長距離の依存関係をモデル化するためにより深い層が必要  内部表現は構文解析と類似する情報を反映している CONCLUSION 14