×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
WHAT DOES BERT LEARN ABOUT THE STRUCTURE OF LANGUAGE? Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3651–3657 Florence, Italy, July 28 - August 2, 2019. 文献紹介: 長岡技術科学大学 自然言語処理研究室 勝田 哲弘
Slide 2
Slide 2 text
BERTで英語を学習させた際に内部でどのように学習しているかを可視化 BERT 近年の言語理解タスクで高精度を出している言語表現モデル ABSTRACT 2
Slide 3
Slide 3 text
BERT (Bidirectional Encoder Representations from Transformers) 11のNLPタスクで従来の精度を大幅に更新 INTRODUCTION 図の引用: Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, Proceedings of NAACL-HLT 2019, page 4173 Minneapolis, Minnesota, June 2 - June 7, 2019. 3
Slide 4
Slide 4 text
BERT (Bidirectional Encoder Representations from Transformers) 11のNLPタスクで従来の精度を大幅に更新 BERTが言語の構造情報を学習できているのでは? BERTの解釈可能性(interpretability)の研究 各層が学習する表現の特徴 INTRODUCTION 4
Slide 5
Slide 5 text
1. 下層で抽出したフレーズの情報が上層で希釈されるか 2. 言語情報の階層を抽出 下層:表面的な情報 中層:構文的な情報 上層:意味的な情報 3. 主語と述語の一致 4. 木構造を抽出 INTRODUCTION 5
Slide 6
Slide 6 text
フレーズの最初と最後の隠れ状態の積と差からフレーズの表現を獲得 CoNLL2000のチャンクデータからラベル付け PHRASAL SYNTAX 6
Slide 7
Slide 7 text
Probing tasks (Adi et al., 2017; Hupkes et al., 2018; Conneau et al., 2018) 各エンコーダーの出力からMLPで予測 SentLen, WC, TreeDepth, TopConst, Bshift, Tense, SubjNum, SOMO, CoordInv PROBING TASKS 7
Slide 8
Slide 8 text
Surface information SentLen 文の長さを予測 WC 文中の中頻度(上位2k-3k)の単語を復元 PROBING TASKS 8
Slide 9
Slide 9 text
Syntactic information BShift 単語の並び替えが行われているか(2値分類) TreeDepth 文の深さを予測(5-12の8分類) TopConst 上位構成要素の予測(20分類: 高頻度19, その他1) PROBING TASKS 9
Slide 10
Slide 10 text
Semantic information Tense 時制予測 SubjNum 主語の数 ObjNum 目的語の数 PROBING TASKS 10 変更を行ったかの2値分類 SOMO 名詞、動詞をランダムに置換 CoordInv 等位節の入れ替え
Slide 11
Slide 11 text
PROBING TASKS 11
Slide 12
Slide 12 text
動詞に対して単数/複数を予測(横軸:名詞数) SUBJECT-VERB AGREEMENT 12
Slide 13
Slide 13 text
Tensor Product Decomposition Networks (TPDN) で予測 (McCoy et al., 2019) COMPOSITIONAL STRUCTURE 13
Slide 14
Slide 14 text
BERTの解釈可能性について調査 表層ー意味の特徴などを各層に分かれて表現している 長距離の依存関係をモデル化するためにより深い層が必要 内部表現は構文解析と類似する情報を反映している CONCLUSION 14