What does BERT learn about the structure of language?

Slide 1

Slide 1 text

WHAT DOES BERT LEARN ABOUT THE STRUCTURE OF LANGUAGE? Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3651–3657 Florence, Italy, July 28 - August 2, 2019. 文献紹介：長岡技術科学大学自然言語処理研究室勝田哲弘

Slide 2

Slide 2 text

 BERTで英語を学習させた際に内部でどのように学習しているかを可視化  BERT  近年の言語理解タスクで高精度を出している言語表現モデル ABSTRACT 2

Slide 3

Slide 3 text

 BERT (Bidirectional Encoder Representations from Transformers)  11のNLPタスクで従来の精度を大幅に更新 INTRODUCTION 図の引用: Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, Proceedings of NAACL-HLT 2019, page 4173 Minneapolis, Minnesota, June 2 - June 7, 2019. 3

Slide 4

Slide 4 text

 BERT (Bidirectional Encoder Representations from Transformers)  11のNLPタスクで従来の精度を大幅に更新  BERTが言語の構造情報を学習できているのでは？  BERTの解釈可能性（interpretability）の研究  各層が学習する表現の特徴 INTRODUCTION 4

Slide 5

Slide 5 text

1. 下層で抽出したフレーズの情報が上層で希釈されるか 2. 言語情報の階層を抽出  下層：表面的な情報  中層：構文的な情報  上層：意味的な情報 3. 主語と述語の一致 4. 木構造を抽出 INTRODUCTION 5

Slide 6

Slide 6 text

 フレーズの最初と最後の隠れ状態の積と差からフレーズの表現を獲得  CoNLL2000のチャンクデータからラベル付け PHRASAL SYNTAX 6

Slide 7

Slide 7 text

 Probing tasks (Adi et al., 2017; Hupkes et al., 2018; Conneau et al., 2018)  各エンコーダーの出力からMLPで予測  SentLen, WC, TreeDepth, TopConst, Bshift, Tense, SubjNum, SOMO, CoordInv PROBING TASKS 7

Slide 8

Slide 8 text

 Surface information  SentLen  文の長さを予測  WC  文中の中頻度（上位2k-3k）の単語を復元 PROBING TASKS 8

Slide 9

Slide 9 text

 Syntactic information  BShift  単語の並び替えが行われているか（2値分類）  TreeDepth  文の深さを予測（5-12の8分類）  TopConst  上位構成要素の予測（20分類: 高頻度19, その他1） PROBING TASKS 9

Slide 10

Slide 10 text

 Semantic information  Tense  時制予測  SubjNum  主語の数  ObjNum  目的語の数 PROBING TASKS 10  変更を行ったかの2値分類  SOMO  名詞、動詞をランダムに置換  CoordInv  等位節の入れ替え

Slide 11

Slide 11 text

PROBING TASKS 11

Slide 12

Slide 12 text

動詞に対して単数/複数を予測（横軸：名詞数） SUBJECT-VERB AGREEMENT 12

Slide 13

Slide 13 text

 Tensor Product Decomposition Networks (TPDN) で予測  (McCoy et al., 2019) COMPOSITIONAL STRUCTURE 13

Slide 14

Slide 14 text

 BERTの解釈可能性について調査  表層ー意味の特徴などを各層に分かれて表現している  長距離の依存関係をモデル化するためにより深い層が必要  内部表現は構文解析と類似する情報を反映している CONCLUSION 14