Slide 1

Slide 1 text

論文紹介 On the Transformation of Latent Space in Fine-Tuned NLP Models Nadir Durrani, Hassan Sajjad, Fahim Dalvi, Firoj Alam EMNLP2022

Slide 2

Slide 2 text

概要 - 設定:事前訓練済み言語モデルがどのような知識を保有して いるか?について分析 - 課題:Fine-tuning による影響、層ごとの分析までは(あまり) 行われていない - やったこと:Fine-tuning 後の埋め込み空間と様々な知識との 関係について、クラスタリングの結果を使い分析 - クラスタリングを使った分析方法は著者らが以前提案 [Sajjad+22] - 結果:出力側の層ではタスク固有の情報が獲得されて、人が 定義した知識は消える 2

Slide 3

Slide 3 text

概要 - 設定:事前訓練済み言語モデルがどのような知識を保有して いるか?について分析 - 課題:Fine-tuning による影響、層ごとの分析までは(あまり) 行われていない - やったこと:Fine-tuning 後の埋め込み空間と様々な知識との 関係について、クラスタリングの結果を使い分析 - クラスタリングを使った分析方法は著者らが以前提案 [Sajjad+22] - 結果:出力側の層ではタスク固有の情報が獲得されて、人が 定義した知識は消える 3 ・Fine-tuning 前 ・人が定義した 品詞 / 統語 / 意味ラベル ・下流タスクのラベル 異なる結果を示したモデルも(ALBERT)

Slide 4

Slide 4 text

背景:深層モデルと「知識」 - 目的:深層モデルを理解したい! - 既存の流れ1:モデルの埋め込み表現を使う - BERT 以前:品詞・統語情報のタグ [Belinkov+20]、品詞間の依存関 係 [Lepori+20] - BERT 以降:オントロジー [Michael+20] - 既存の流れ2:指定した入力を与えた時の予測結果を確認 - BERT 以前:文法的に正しい・間違った文を与えた時の予測確率 [Marvin+18]、構文構造の理解度 [Linzen+16] - BERT 以降:probing による分析 [Elazar+21] 4

Slide 5

Slide 5 text

背景:深層モデルと「知識」 - 目的:深層モデルを理解したい! - 既存の流れ1:モデルの埋め込み表現を使う - BERT 以前:品詞・統語情報のタグ [Belinkov+20]、品詞間の依存関 係 [Lepori+20] - BERT 以降:オントロジー [Michael+20] - 既存の流れ2:指定した入力を与えた時の予測結果を確認 - BERT 以前:文法的に正しい・間違った文を与えた時の予測確率 [Marvin+18]、構文構造の理解度 [Linzen+16] - BERT 以降:probing による分析 [Elazar+21] - 著者らの疑問:Fine-tuning 後はどうなる? - 著者らが以前提案したクラスタリングに基づく手法で分析 5

Slide 6

Slide 6 text

手法:知識があるかを確認 [Sajjad+22] - 著者らが以前提案 - クラスタリングを用いて、事前訓練済みモデルが構文情報など を保有しているかを評価 6

Slide 7

Slide 7 text

手法:知識があるかを確認 [Sajjad+22] - 対象のデータを入力し、任意の層の埋め込み空間を獲得 - クラスタリング(階層的、クラスタ数:600〜1000) 7

Slide 8

Slide 8 text

手法:知識があるかを確認 [Sajjad+22] - 獲得したクラスタ C1 と、目的の知識(品詞 / 統語 / 意味ラベ ルなど)の各カテゴリ(例:VB-動詞基本形)に属する単語集合 C2 を比較 8

Slide 9

Slide 9 text

手法:知識があるかを確認 [Sajjad+22] - 獲得したクラスタ C1 に属する J 単語のうち、θ %以上(θ>90) が 対象とするカテゴリの単語集合 C2 に含まれる →クラスタ C1 はカテゴリ C2 と対応 9

Slide 10

Slide 10 text

手法:知識があるかを確認 [Sajjad+22] - 獲得したクラスタ C1 に属する J 単語のうち、θ %以上(θ>90) が 対象とするカテゴリの単語集合 C2 に含まれる →クラスタ C1 はカテゴリ C2 と対応 - 全てのクラスタのうち、カテゴリと対応するクラスタはいくつあ るか?(=どれだけ知識を保有するか) 10

Slide 11

Slide 11 text

以前の論文 [Sajjad+22] との違い - 事前訓練済みだけでなく、fine-tuning 後のモデルも分析 - 下流タスクのラベルも考慮 11 [Sajjad+22] の領域

Slide 12

Slide 12 text

実験設定 - モデル:BERT, XLM-R, ALBERT - Fine-tuning を行う タスク、データ(全て英語) - 評判分析:Stanford sentiment treebank (SST-2) - 差別表現検出: HateXplain (HSD) - 自然言語推論:Multi-Genre Natural Language Inference (MNLI) - Fine-tuning 後のモデルと比較する知識 - 🆕 fine-tuning 前のクラスタリング結果 - 人が定義したもの→先行研究 [Sajjad+22] と同じ - 品詞(POS)、Chunking、意味ラベル(Sem)、CCG - 🆕 下流タスクのラベル 12

Slide 13

Slide 13 text

結果:Fine-tuning 前後の関係 - 色:対応したクラスタの数 / 全クラスタ数 - Fine-tuning 後では入力側(0〜)の情報は変わらないが、出 力側(〜12)の層では情報が変わる(=タスク固有) - ALBERT は層間でパラメタを共有しているため、fine-tuning 後で情報が変わらないのは 0~2 層のみ 13

Slide 14

Slide 14 text

結果:Fine-tuning 前後と人手の知識の関係 (図は品詞だが、統語・意味でも同様) - Fine-tuning後(下段)だと出力層側で情報が消える - 人が定義した 品詞・統語・意味 などの情報は事前訓練では 必要だが、下流タスクでは不要? 14

Slide 15

Slide 15 text

結果:Fine-tuning 前後とタスクの関係 - Fine-tuning をすることで中間層以降(9〜)からタスクのラベ ルに関する情報が出現 - ALBERT は3層目以降から出現(層間パラメタ共有) - 差別表現検出でも同様の結果 15

Slide 16

Slide 16 text

まとめ - Fine-tuning 後の埋め込み空間と様々な知識の関係を分析 - 入力に近い層では fine-tuning 前(=事前訓練)の情報、人手で定義 された知識(品詞・統語・意味ラベル)を保持 - 出力に近い層では上記の知識が消え、タスク固有の知識を獲得 - 感想: - 異なる空間同士、ある空間と人手タグとの関係を調べられて良い - 人手タグ・タスクラベルと一致しない情報は何を表しているのか - 異なる時期の文書に適応する前後 [Luu+22] ではどうなる? - 下流タスクの難易度にも影響されそう - Fine-tuning とタスク(MNLI)の関係が曖昧なまま 16

Slide 17

Slide 17 text

参考文献 - [Sajjad+22] Analyzing Encoded Concepts in Transformer Language Models, NAACL2022 - [Belinkov+20] On the Linguistic Representational Power of Neural Machine Translation Models, CL2020 - [Lepori+20] Picking BERT’s Brain: Probing for Linguistic Dependencies in Contextualized Embeddings Using Representational Similarity Analysis, COLING2020 - [Michael+20] Asking without Telling: Exploring Latent Ontologies in Contextual Representations, EMNLP2020 - [Marvin+18] Targeted Syntactic Evaluation of Language Models, EMNLP2018 - [Linzen+16] Assessing the Ability of LSTMs to Learn Syntax-Sensitive Dependencies, TACL2016 - [Elazar+21] Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals, TACL2021 - [Luu+22] Time Waits for No One! Analysis and Challenges of Temporal Misalignment, NAACL2022 17