文献紹介：On the Transformation of Latent Space in Fine-Tuned NLP Models

Slide 1

Slide 1 text

論文紹介 On the Transformation of Latent Space in Fine-Tuned NLP Models Nadir Durrani, Hassan Sajjad, Fahim Dalvi, Firoj Alam EMNLP2022

Slide 2

Slide 2 text

概要 - 設定：事前訓練済み言語モデルがどのような知識を保有しているか？について分析 - 課題：Fine-tuning による影響、層ごとの分析までは（あまり）行われていない - やったこと：Fine-tuning 後の埋め込み空間と様々な知識との関係について、クラスタリングの結果を使い分析 - クラスタリングを使った分析方法は著者らが以前提案 [Sajjad+22] - 結果：出力側の層ではタスク固有の情報が獲得されて、人が定義した知識は消える 2

Slide 3

Slide 3 text

Slide 4

Slide 4 text

背景：深層モデルと「知識」 - 目的：深層モデルを理解したい！ - 既存の流れ1：モデルの埋め込み表現を使う - BERT 以前：品詞・統語情報のタグ [Belinkov+20]、品詞間の依存関係 [Lepori+20] - BERT 以降：オントロジー [Michael+20] - 既存の流れ2：指定した入力を与えた時の予測結果を確認 - BERT 以前：文法的に正しい・間違った文を与えた時の予測確率 [Marvin+18]、構文構造の理解度 [Linzen+16] - BERT 以降：probing による分析 [Elazar+21] 4

Slide 5

Slide 5 text

Slide 6

Slide 6 text

手法：知識があるかを確認 [Sajjad+22] - 著者らが以前提案 - クラスタリングを用いて、事前訓練済みモデルが構文情報などを保有しているかを評価 6

Slide 7

Slide 7 text

手法：知識があるかを確認 [Sajjad+22] - 対象のデータを入力し、任意の層の埋め込み空間を獲得 - クラスタリング（階層的、クラスタ数：600〜1000） 7

Slide 8

Slide 8 text

手法：知識があるかを確認 [Sajjad+22] - 獲得したクラスタ C1 と、目的の知識（品詞 / 統語 / 意味ラベルなど）の各カテゴリ（例：VB-動詞基本形）に属する単語集合 C2 を比較 8

Slide 9

Slide 9 text

手法：知識があるかを確認 [Sajjad+22] - 獲得したクラスタ C1 に属する J 単語のうち、θ %以上（θ>90）が対象とするカテゴリの単語集合 C2 に含まれる →クラスタ C1 はカテゴリ C2 と対応 9

Slide 10

Slide 10 text

手法：知識があるかを確認 [Sajjad+22] - 獲得したクラスタ C1 に属する J 単語のうち、θ %以上（θ>90）が対象とするカテゴリの単語集合 C2 に含まれる →クラスタ C1 はカテゴリ C2 と対応 - 全てのクラスタのうち、カテゴリと対応するクラスタはいくつあるか？（＝どれだけ知識を保有するか） 10

Slide 11

Slide 11 text

以前の論文 [Sajjad+22] との違い - 事前訓練済みだけでなく、fine-tuning 後のモデルも分析 - 下流タスクのラベルも考慮 11 [Sajjad+22] の領域

Slide 12

Slide 12 text

実験設定 - モデル：BERT, XLM-R, ALBERT - Fine-tuning を行うタスク、データ（全て英語） - 評判分析：Stanford sentiment treebank (SST-2) - 差別表現検出： HateXplain (HSD) - 自然言語推論：Multi-Genre Natural Language Inference (MNLI) - Fine-tuning 後のモデルと比較する知識 - 🆕 fine-tuning 前のクラスタリング結果 - 人が定義したもの→先行研究 [Sajjad+22] と同じ - 品詞（POS）、Chunking、意味ラベル（Sem）、CCG - 🆕 下流タスクのラベル 12

Slide 13

Slide 13 text

結果：Fine-tuning 前後の関係 - 色：対応したクラスタの数 / 全クラスタ数 - Fine-tuning 後では入力側（0〜）の情報は変わらないが、出力側（〜12）の層では情報が変わる（＝タスク固有） - ALBERT は層間でパラメタを共有しているため、fine-tuning 後で情報が変わらないのは 0~2 層のみ 13

Slide 14

Slide 14 text

結果：Fine-tuning 前後と人手の知識の関係（図は品詞だが、統語・意味でも同様） - Fine-tuning後（下段）だと出力層側で情報が消える - 人が定義した品詞・統語・意味などの情報は事前訓練では必要だが、下流タスクでは不要？ 14

Slide 15

Slide 15 text

結果：Fine-tuning 前後とタスクの関係 - Fine-tuning をすることで中間層以降（9〜）からタスクのラベルに関する情報が出現 - ALBERT は3層目以降から出現（層間パラメタ共有） - 差別表現検出でも同様の結果 15

Slide 16

Slide 16 text

まとめ - Fine-tuning 後の埋め込み空間と様々な知識の関係を分析 - 入力に近い層では fine-tuning 前（＝事前訓練）の情報、人手で定義された知識（品詞・統語・意味ラベル）を保持 - 出力に近い層では上記の知識が消え、タスク固有の知識を獲得 - 感想： - 異なる空間同士、ある空間と人手タグとの関係を調べられて良い - 人手タグ・タスクラベルと一致しない情報は何を表しているのか - 異なる時期の文書に適応する前後 [Luu+22] ではどうなる？ - 下流タスクの難易度にも影響されそう - Fine-tuning とタスク（MNLI）の関係が曖昧なまま 16

Slide 17

Slide 17 text

参考文献 - [Sajjad+22] Analyzing Encoded Concepts in Transformer Language Models, NAACL2022 - [Belinkov+20] On the Linguistic Representational Power of Neural Machine Translation Models, CL2020 - [Lepori+20] Picking BERT’s Brain: Probing for Linguistic Dependencies in Contextualized Embeddings Using Representational Similarity Analysis, COLING2020 - [Michael+20] Asking without Telling: Exploring Latent Ontologies in Contextual Representations, EMNLP2020 - [Marvin+18] Targeted Syntactic Evaluation of Language Models, EMNLP2018 - [Linzen+16] Assessing the Ability of LSTMs to Learn Syntax-Sensitive Dependencies, TACL2016 - [Elazar+21] Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals, TACL2021 - [Luu+22] Time Waits for No One! Analysis and Challenges of Temporal Misalignment, NAACL2022 17