文献紹介：Isotropic Representation Can Improve Zero-Shot Cross-Lingual Transfer on Multilingual Language Models

Slide 1

Slide 1 text

論文紹介 Isotropic Representation Can Improve Zero-Shot Cross-Lingual Transfer on Multilingual Language Models Yixin Ji, Jikai Wang, Juntao Li, Hai Ye, Min Zhang Findings of EMNLP2023

Slide 2

Slide 2 text

概要 - Cross-lingual Transfer における2つの課題について言及 - 言語の違い（主に形態情報） - 埋め込み空間の歪み（異方性） - 先行研究では言語の違いしか対処されていないため、埋め込み空間の歪みを対処する手法を提案 - 実験の結果 - Zero-shot cross-lingual transfer の性能を改善 - 歪みをとる際に情報も保持 2

Slide 3

Slide 3 text

Cross-lingual Transfer - 潤沢な資源（データ）のある言語→低資源の言語 - 事前訓練済みの多言語モデルは zero-shot cross-lingual transfer でも効果的 - 異なる言語に対して埋め込み表現を対応させるのが重要 - 先行研究：なんとかして言語間の埋め込み空間を対応させる - 対訳コーパス、対訳の辞書を使う - 形態・統語情報を使用 - 対応されていないことを許容し、より頑強な訓練を提案 →主に言語間の「ずれ」を解消 3

Slide 4

Slide 4 text

Cross-lingual Transfer における課題 - 2つの「ずれ」（misalignment）が存在する - 言語の違いによる「ずれ」（形態情報など）[Ahmad+19] - 歪んだ埋め込み空間（異方性）による「ずれ」[Rajaee+22] 4

Slide 5

Slide 5 text

言語の違いによる「ずれ」[Ahmad+19] - 形態情報（ここでは語順）の違いが大きくなるほど転移の性能が悪化する 5

Slide 6

Slide 6 text

歪んだ埋め込み空間（異方性）による「ずれ」[Rajaee+22] - BERT だけでなく、mBERT も歪んでいる - I Cos ：低いほどよい、ランダムペアの cos の平均（max=1） - I PC ：1に近いほどよい、PCA で変換した後、各軸の中でベクトルの値の総和に着目する。総和が最大となる軸と総和が最小になる軸の比（max=1） 6

Slide 7

Slide 7 text

Cross-lingual Transfer における課題 - 2つの「ずれ」（misalignment）が存在する - 言語の違いによる「ずれ」（形態情報など）[Ahmad+19] →先行研究で対処 - 歪んだ埋め込み空間（異方性）による「ずれ」[Rajaee+22] →？？？？ - 歪みによる「ずれ」は対処されていない！ 7

Slide 8

Slide 8 text

提案手法 8 - ベクトル空間の歪みに対処されていない！ →歪みを直すような損失関数を導入（①） - 無理やり歪みを直すと情報が失われる？ → Code-switching を導入して回避（②）

Slide 9

Slide 9 text

提案手法：①歪みを直す損失関数 ℒiso - 𝒩(0, 1/d 𝑰) のガウス分布に近づける（d = 次元数） - 分布間の距離 Wasserstein distance を損失関数に追加 9

Slide 10

Slide 10 text

歪みを取ることによる影響 - 歪みをとることへの懸念：情報が失われてしまう？ - 通常の fine-tuning では歪みは取れず、後処理的に歪みを取ると性能が悪化する [Rajaee+21] →歪みと情報損失を回避する訓練・fine-tuning が必要（例：白色化＋SimCSE [Zhuo+23]） 10

Slide 11

Slide 11 text

提案手法：②情報損失を回避 ℒreg - Code-switching [Conneau+20] を導入 - 原言語の文中にある単語 𝑥 をランダムに選択し、対訳辞書で目的言語の単語 𝑥’ に置き換える（置換の有無で2つの文ができる） - 置き換え前後の単語の類似度が近くなるような損失関数を追加 11

Slide 12

Slide 12 text

- ベクトル空間の歪みに対処されていない！ →歪みを直すような損失関数を導入（①：ℒiso） - 無理やり歪みを直すと情報が失われる？ → code-switching を導入して回避（②：ℒreg）提案手法 12

Slide 13

Slide 13 text

- 第一段階：Fine-tuning + 歪みをとる - 第二段階：Fine-tuning + 情報損失を防ぐ提案手法 13

Slide 14

Slide 14 text

実験：Zero-shot Cross-lingual Transfer - 歪みをとる＋code-switching は効果がある…？ - Cross-lingual のタスクで実験 - Paraphrase identification (PAWS-X) - Natural language inference (XNLI) - Sentiment classification (MARC) - データ量の問題で訓練データ全体の25％だけ使用 - 多言語の事前訓練済み言語モデル - mBERT - XLM-R large 14

Slide 15

Slide 15 text

実験：Zero-shot Cross-lingual Transfer - 歪みをとる＋code-switching は効果がある！ 15 paraphrase の同定自然言語理解レビュー分類

Slide 16

Slide 16 text

実験：Zero-shot Cross-lingual Transfer - 歪みをとる＋code-switching は効果がある！ - 特に、歪みをとる > code-switching らしい → Cross-lingual Transfer でも歪みをとるのは重要 16

Slide 17

Slide 17 text

分析：多言語の埋め込み空間 - 言語間で同じ意味の単語ベクトルがどれだけ近くにあるか？を評価→提案手法で（少し）改善 17

Slide 18

Slide 18 text

分析：多言語の埋め込み空間 - 通常の空間（左）はかなり偏って（歪んで）いる - 提案手法（右）によって一様に？分布するようになる 18

Slide 19

Slide 19 text

分析：多言語の埋め込み空間 - 提案手法によって、高い性能＋歪みも改善 19 歪みがない（理想的）

Slide 20

Slide 20 text

（再掲）歪みを取ることによる影響 - 歪みをとることへの懸念：情報が失われてしまう？ - 通常の fine-tuning では歪みは取れず、後処理的に歪みを取ると性能が悪化する [Rajaee+21] →歪みと情報損失を回避する訓練・fine-tuning が必要（例：白色化＋SimCSE [Zhuo+23]） - 20

Slide 21

Slide 21 text

分析：歪みを取ることによる影響 - 歪みをとることへの懸念：情報が失われてしまう？ - 統語関係のタスクでも歪みを取ると性能低下 →提案手法ではどうか…？ 21 文脈つき単語ベクトルで依存構造を予測させるタスク（LAS: ラベルあり、UAS: ラベルなし）

Slide 22

Slide 22 text

分析：歪みを取ることによる影響 - 歪みをとることへの懸念：情報が失われてしまう？ - 統語関係のタスクでも歪みを取ると性能低下 →提案手法では性能が低下しない（保持される）！ 22

Slide 23

Slide 23 text

まとめ - Cross-lingual Transfer における2つの課題について言及 - 言語の違い（主に形態情報） - 埋め込み空間の歪み（異方性） - 先行研究では言語の違いしか対処されていないため、埋め込み空間の歪みを対処する手法を提案 - 実験の結果 - Zero-shot cross-lingual transfer の性能を改善 - 歪みをとる際に情報も保持 - WhitenedCSE と近い？ - code-switching を SimCSE に置き換えると… - この方式の手法が色々なタスクで登場？ 23

Slide 24

Slide 24 text

参考文献 - [Ahmad+19] Wasi Ahmad, Zhisong Zhang, Xuezhe Ma, Eduard Hovy, Kai-Wei Chang, Nanyun Peng. “On Difficulties of Cross-Lingual Transfer with Order Differences: A Case Study on Dependency Parsing”, NAACL2019 - [Rajaee+22] Sara Rajaee, Mohammad Taher Pilehvar. “An Isotropy Analysis in the Multilingual BERT Embedding Space”, Findings of ACL2022 - [Rajaee+21] Sara Rajaee, Mohammad Taher Pilehvar. “How Does Fine-tuning Affect the Geometry of Embedding Space: A Case Study on Isotropy”, Findings of EMNLP2021 - [Zhuo+23] Wenjie Zhuo, Yifan Sun, Xiaohan Wang, Linchao Zhu, Yi Yang. “WhitenedCSE: Whitening-based Contrastive Learning of Sentence Embeddings”, ACL2023 - [Conneau+20] Alexis Conneau, Shijie Wu, Haoran Li, Luke Zettlemoyer, Veselin Stoyanov. “Emerging Cross-lingual Structure in Pretrained Language Models”, ACL2020 24