Upgrade to Pro — share decks privately, control downloads, hide ads and more …

What does BERT learn about the structure of language?

katsutan
February 23, 2020

What does BERT learn about the structure of language?

文献紹介
https://www.aclweb.org/anthology/P19-1356.pdf

長岡技術科学大学
自然言語処理研究室
勝田 哲弘

katsutan

February 23, 2020
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. WHAT DOES BERT LEARN ABOUT
    THE STRUCTURE OF LANGUAGE?
    Proceedings of the 57th Annual Meeting of the Association for Computational
    Linguistics, pages 3651–3657 Florence, Italy, July 28 - August 2, 2019.
    文献紹介: 長岡技術科学大学 自然言語処理研究室 勝田 哲弘

    View Slide

  2.  BERTで英語を学習させた際に内部でどのように学習しているかを可視化
     BERT
     近年の言語理解タスクで高精度を出している言語表現モデル
    ABSTRACT
    2

    View Slide

  3.  BERT (Bidirectional Encoder Representations from Transformers)
     11のNLPタスクで従来の精度を大幅に更新
    INTRODUCTION
    図の引用: Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. “BERT: Pre-training of Deep Bidirectional Transformers for Language
    Understanding”, Proceedings of NAACL-HLT 2019, page 4173 Minneapolis, Minnesota, June 2 - June 7, 2019.
    3

    View Slide

  4.  BERT (Bidirectional Encoder Representations from Transformers)
     11のNLPタスクで従来の精度を大幅に更新
     BERTが言語の構造情報を学習できているのでは?
     BERTの解釈可能性(interpretability)の研究
     各層が学習する表現の特徴
    INTRODUCTION
    4

    View Slide

  5. 1. 下層で抽出したフレーズの情報が上層で希釈されるか
    2. 言語情報の階層を抽出
     下層:表面的な情報
     中層:構文的な情報
     上層:意味的な情報
    3. 主語と述語の一致
    4. 木構造を抽出
    INTRODUCTION
    5

    View Slide

  6.  フレーズの最初と最後の隠れ状態の積と差からフレーズの表現を獲得
     CoNLL2000のチャンクデータからラベル付け
    PHRASAL SYNTAX
    6

    View Slide

  7.  Probing tasks (Adi et al., 2017; Hupkes et al., 2018; Conneau et al., 2018)
     各エンコーダーの出力からMLPで予測
     SentLen, WC, TreeDepth, TopConst, Bshift, Tense, SubjNum,
    SOMO, CoordInv
    PROBING TASKS
    7

    View Slide

  8.  Surface information
     SentLen
     文の長さを予測
     WC
     文中の中頻度(上位2k-3k)の単語を復元
    PROBING TASKS
    8

    View Slide

  9.  Syntactic information
     BShift
     単語の並び替えが行われているか(2値分類)
     TreeDepth
     文の深さを予測(5-12の8分類)
     TopConst
     上位構成要素の予測(20分類: 高頻度19, その他1)
    PROBING TASKS
    9

    View Slide

  10.  Semantic information
     Tense
     時制予測
     SubjNum
     主語の数
     ObjNum
     目的語の数
    PROBING TASKS
    10
     変更を行ったかの2値分類
     SOMO
     名詞、動詞をランダムに置換
     CoordInv
     等位節の入れ替え

    View Slide

  11. PROBING TASKS
    11

    View Slide

  12. 動詞に対して単数/複数を予測(横軸:名詞数)
    SUBJECT-VERB AGREEMENT
    12

    View Slide

  13.  Tensor Product Decomposition Networks (TPDN) で予測
     (McCoy et al., 2019)
    COMPOSITIONAL STRUCTURE
    13

    View Slide

  14.  BERTの解釈可能性について調査
     表層ー意味の特徴などを各層に分かれて表現している
     長距離の依存関係をモデル化するためにより深い層が必要
     内部表現は構文解析と類似する情報を反映している
    CONCLUSION
    14

    View Slide