Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:On the Transformation of Latent Space in Fine-Tuned NLP Models

Taichi Aida
May 08, 2023
22

文献紹介:On the Transformation of Latent Space in Fine-Tuned NLP Models

Taichi Aida

May 08, 2023
Tweet

More Decks by Taichi Aida

Transcript

  1. 論文紹介 On the Transformation of Latent Space in Fine-Tuned NLP

    Models Nadir Durrani, Hassan Sajjad, Fahim Dalvi, Firoj Alam EMNLP2022
  2. 概要 - 設定:事前訓練済み言語モデルがどのような知識を保有して いるか?について分析 - 課題:Fine-tuning による影響、層ごとの分析までは(あまり) 行われていない - やったこと:Fine-tuning

    後の埋め込み空間と様々な知識との 関係について、クラスタリングの結果を使い分析 - クラスタリングを使った分析方法は著者らが以前提案 [Sajjad+22] - 結果:出力側の層ではタスク固有の情報が獲得されて、人が 定義した知識は消える 2
  3. 概要 - 設定:事前訓練済み言語モデルがどのような知識を保有して いるか?について分析 - 課題:Fine-tuning による影響、層ごとの分析までは(あまり) 行われていない - やったこと:Fine-tuning

    後の埋め込み空間と様々な知識との 関係について、クラスタリングの結果を使い分析 - クラスタリングを使った分析方法は著者らが以前提案 [Sajjad+22] - 結果:出力側の層ではタスク固有の情報が獲得されて、人が 定義した知識は消える 3 ・Fine-tuning 前 ・人が定義した 品詞 / 統語 / 意味ラベル ・下流タスクのラベル 異なる結果を示したモデルも(ALBERT)
  4. 背景:深層モデルと「知識」 - 目的:深層モデルを理解したい! - 既存の流れ1:モデルの埋め込み表現を使う - BERT 以前:品詞・統語情報のタグ [Belinkov+20]、品詞間の依存関 係

    [Lepori+20] - BERT 以降:オントロジー [Michael+20] - 既存の流れ2:指定した入力を与えた時の予測結果を確認 - BERT 以前:文法的に正しい・間違った文を与えた時の予測確率 [Marvin+18]、構文構造の理解度 [Linzen+16] - BERT 以降:probing による分析 [Elazar+21] 4
  5. 背景:深層モデルと「知識」 - 目的:深層モデルを理解したい! - 既存の流れ1:モデルの埋め込み表現を使う - BERT 以前:品詞・統語情報のタグ [Belinkov+20]、品詞間の依存関 係

    [Lepori+20] - BERT 以降:オントロジー [Michael+20] - 既存の流れ2:指定した入力を与えた時の予測結果を確認 - BERT 以前:文法的に正しい・間違った文を与えた時の予測確率 [Marvin+18]、構文構造の理解度 [Linzen+16] - BERT 以降:probing による分析 [Elazar+21] - 著者らの疑問:Fine-tuning 後はどうなる? - 著者らが以前提案したクラスタリングに基づく手法で分析 5
  6. 手法:知識があるかを確認 [Sajjad+22] - 獲得したクラスタ C1 と、目的の知識(品詞 / 統語 / 意味ラベ

    ルなど)の各カテゴリ(例:VB-動詞基本形)に属する単語集合 C2 を比較 8
  7. 手法:知識があるかを確認 [Sajjad+22] - 獲得したクラスタ C1 に属する J 単語のうち、θ %以上(θ>90) が

    対象とするカテゴリの単語集合 C2 に含まれる →クラスタ C1 はカテゴリ C2 と対応 9
  8. 手法:知識があるかを確認 [Sajjad+22] - 獲得したクラスタ C1 に属する J 単語のうち、θ %以上(θ>90) が

    対象とするカテゴリの単語集合 C2 に含まれる →クラスタ C1 はカテゴリ C2 と対応 - 全てのクラスタのうち、カテゴリと対応するクラスタはいくつあ るか?(=どれだけ知識を保有するか) 10
  9. 実験設定 - モデル:BERT, XLM-R, ALBERT - Fine-tuning を行う タスク、データ(全て英語) -

    評判分析:Stanford sentiment treebank (SST-2) - 差別表現検出: HateXplain (HSD) - 自然言語推論:Multi-Genre Natural Language Inference (MNLI) - Fine-tuning 後のモデルと比較する知識 - 🆕 fine-tuning 前のクラスタリング結果 - 人が定義したもの→先行研究 [Sajjad+22] と同じ - 品詞(POS)、Chunking、意味ラベル(Sem)、CCG - 🆕 下流タスクのラベル 12
  10. まとめ - Fine-tuning 後の埋め込み空間と様々な知識の関係を分析 - 入力に近い層では fine-tuning 前(=事前訓練)の情報、人手で定義 された知識(品詞・統語・意味ラベル)を保持 -

    出力に近い層では上記の知識が消え、タスク固有の知識を獲得 - 感想: - 異なる空間同士、ある空間と人手タグとの関係を調べられて良い - 人手タグ・タスクラベルと一致しない情報は何を表しているのか - 異なる時期の文書に適応する前後 [Luu+22] ではどうなる? - 下流タスクの難易度にも影響されそう - Fine-tuning とタスク(MNLI)の関係が曖昧なまま 16
  11. 参考文献 - [Sajjad+22] Analyzing Encoded Concepts in Transformer Language Models,

    NAACL2022 - [Belinkov+20] On the Linguistic Representational Power of Neural Machine Translation Models, CL2020 - [Lepori+20] Picking BERT’s Brain: Probing for Linguistic Dependencies in Contextualized Embeddings Using Representational Similarity Analysis, COLING2020 - [Michael+20] Asking without Telling: Exploring Latent Ontologies in Contextual Representations, EMNLP2020 - [Marvin+18] Targeted Syntactic Evaluation of Language Models, EMNLP2018 - [Linzen+16] Assessing the Ability of LSTMs to Learn Syntax-Sensitive Dependencies, TACL2016 - [Elazar+21] Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals, TACL2021 - [Luu+22] Time Waits for No One! Analysis and Challenges of Temporal Misalignment, NAACL2022 17