文献紹介 https://www.aclweb.org/anthology/P19-1356.pdf
長岡技術科学大学 自然言語処理研究室 勝田 哲弘
WHAT DOES BERT LEARN ABOUTTHE STRUCTURE OF LANGUAGE?Proceedings of the 57th Annual Meeting of the Association for ComputationalLinguistics, pages 3651–3657 Florence, Italy, July 28 - August 2, 2019.文献紹介: 長岡技術科学大学 自然言語処理研究室 勝田 哲弘
View Slide
BERTで英語を学習させた際に内部でどのように学習しているかを可視化 BERT 近年の言語理解タスクで高精度を出している言語表現モデルABSTRACT2
BERT (Bidirectional Encoder Representations from Transformers) 11のNLPタスクで従来の精度を大幅に更新INTRODUCTION図の引用: Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. “BERT: Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding”, Proceedings of NAACL-HLT 2019, page 4173 Minneapolis, Minnesota, June 2 - June 7, 2019.3
BERT (Bidirectional Encoder Representations from Transformers) 11のNLPタスクで従来の精度を大幅に更新 BERTが言語の構造情報を学習できているのでは? BERTの解釈可能性(interpretability)の研究 各層が学習する表現の特徴INTRODUCTION4
1. 下層で抽出したフレーズの情報が上層で希釈されるか2. 言語情報の階層を抽出 下層:表面的な情報 中層:構文的な情報 上層:意味的な情報3. 主語と述語の一致4. 木構造を抽出INTRODUCTION5
フレーズの最初と最後の隠れ状態の積と差からフレーズの表現を獲得 CoNLL2000のチャンクデータからラベル付けPHRASAL SYNTAX6
Probing tasks (Adi et al., 2017; Hupkes et al., 2018; Conneau et al., 2018) 各エンコーダーの出力からMLPで予測 SentLen, WC, TreeDepth, TopConst, Bshift, Tense, SubjNum,SOMO, CoordInvPROBING TASKS7
Surface information SentLen 文の長さを予測 WC 文中の中頻度(上位2k-3k)の単語を復元PROBING TASKS8
Syntactic information BShift 単語の並び替えが行われているか(2値分類) TreeDepth 文の深さを予測(5-12の8分類) TopConst 上位構成要素の予測(20分類: 高頻度19, その他1)PROBING TASKS9
Semantic information Tense 時制予測 SubjNum 主語の数 ObjNum 目的語の数PROBING TASKS10 変更を行ったかの2値分類 SOMO 名詞、動詞をランダムに置換 CoordInv 等位節の入れ替え
PROBING TASKS11
動詞に対して単数/複数を予測(横軸:名詞数)SUBJECT-VERB AGREEMENT12
Tensor Product Decomposition Networks (TPDN) で予測 (McCoy et al., 2019)COMPOSITIONAL STRUCTURE13
BERTの解釈可能性について調査 表層ー意味の特徴などを各層に分かれて表現している 長距離の依存関係をモデル化するためにより深い層が必要 内部表現は構文解析と類似する情報を反映しているCONCLUSION14