Slide 1

Slide 1 text

論文紹介 Isotropic Representation Can Improve Zero-Shot Cross-Lingual Transfer on Multilingual Language Models Yixin Ji, Jikai Wang, Juntao Li, Hai Ye, Min Zhang Findings of EMNLP2023

Slide 2

Slide 2 text

概要 - Cross-lingual Transfer における2つの課題について言及 - 言語の違い(主に形態情報) - 埋め込み空間の歪み(異方性) - 先行研究では 言語の違い しか対処されていないため、 埋め込み空間の歪み を対処する手法を提案 - 実験の結果 - Zero-shot cross-lingual transfer の性能を改善 - 歪みをとる際に情報も保持 2

Slide 3

Slide 3 text

Cross-lingual Transfer - 潤沢な資源(データ)のある言語→低資源の言語 - 事前訓練済みの多言語モデルは zero-shot cross-lingual transfer でも効果的 - 異なる言語に対して埋め込み表現を対応させるのが重要 - 先行研究:なんとかして言語間の埋め込み空間を対応させる - 対訳コーパス、対訳の辞書を使う - 形態・統語情報を使用 - 対応されていないことを許容し、より頑強な訓練を提案 →主に言語間の「ずれ」を解消 3

Slide 4

Slide 4 text

Cross-lingual Transfer における課題 - 2つの「ずれ」(misalignment)が存在する - 言語の違いによる「ずれ」(形態情報など)[Ahmad+19] - 歪んだ埋め込み空間(異方性)による「ずれ」[Rajaee+22] 4

Slide 5

Slide 5 text

言語の違いによる「ずれ」[Ahmad+19] - 形態情報(ここでは語順)の違いが大きくなるほど転移の性能 が悪化する 5

Slide 6

Slide 6 text

歪んだ埋め込み空間(異方性)による「ずれ」[Rajaee+22] - BERT だけでなく、mBERT も歪んでいる - I Cos :低いほどよい、ランダムペアの cos の平均(max=1) - I PC :1に近いほどよい、PCA で変換した後、各軸の中でベクトルの値 の総和に着目する。総和が最大となる軸 と 総和が最小になる軸 の比 (max=1) 6

Slide 7

Slide 7 text

Cross-lingual Transfer における課題 - 2つの「ずれ」(misalignment)が存在する - 言語の違いによる「ずれ」(形態情報など)[Ahmad+19] →先行研究で対処 - 歪んだ埋め込み空間(異方性)による「ずれ」[Rajaee+22] →???? - 歪みによる「ずれ」は対処されていない! 7

Slide 8

Slide 8 text

提案手法 8 - ベクトル空間の歪みに対処されていない! →歪みを直すような損失関数を導入(①) - 無理やり歪みを直すと情報が失われる? → Code-switching を導入して回避(②)

Slide 9

Slide 9 text

提案手法:①歪みを直す損失関数 ℒiso - 𝒩(0, 1/d 𝑰) のガウス分布に近づける(d = 次元数) - 分布間の距離 Wasserstein distance を損失関数に追加 9

Slide 10

Slide 10 text

歪みを取ることによる影響 - 歪みをとることへの懸念:情報が失われてしまう? - 通常の fine-tuning では歪みは取れず、後処理的に歪みを取 ると性能が悪化する [Rajaee+21] →歪みと情報損失を回避する訓練・fine-tuning が必要 (例:白色化+SimCSE [Zhuo+23]) 10

Slide 11

Slide 11 text

提案手法:②情報損失を回避 ℒreg - Code-switching [Conneau+20] を導入 - 原言語の文中にある単語 𝑥 をランダムに選択し、対訳辞書で目的言 語の単語 𝑥’ に置き換える(置換の有無で2つの文ができる) - 置き換え前後の単語の類似度が近くなるような損失関数を追加 11

Slide 12

Slide 12 text

- ベクトル空間の歪みに対処されていない! →歪みを直すような損失関数を導入(①:ℒiso) - 無理やり歪みを直すと情報が失われる? → code-switching を導入して回避(②:ℒreg) 提案手法 12

Slide 13

Slide 13 text

- 第一段階:Fine-tuning + 歪みをとる - 第二段階:Fine-tuning + 情報損失を防ぐ 提案手法 13

Slide 14

Slide 14 text

実験:Zero-shot Cross-lingual Transfer - 歪みをとる+code-switching は効果がある…? - Cross-lingual のタスクで実験 - Paraphrase identification (PAWS-X) - Natural language inference (XNLI) - Sentiment classification (MARC) - データ量の問題で訓練データ全体の25%だけ使用 - 多言語の事前訓練済み言語モデル - mBERT - XLM-R large 14

Slide 15

Slide 15 text

実験:Zero-shot Cross-lingual Transfer - 歪みをとる+code-switching は効果がある! 15 paraphrase の同定 自然言語理解 レビュー分類

Slide 16

Slide 16 text

実験:Zero-shot Cross-lingual Transfer - 歪みをとる+code-switching は効果がある! - 特に、歪みをとる > code-switching らしい → Cross-lingual Transfer でも歪みをとるのは重要 16

Slide 17

Slide 17 text

分析:多言語の埋め込み空間 - 言語間で同じ意味の単語ベクトルがどれだけ近くにあるか? を評価→提案手法で(少し)改善 17

Slide 18

Slide 18 text

分析:多言語の埋め込み空間 - 通常の空間(左)はかなり偏って(歪んで)いる - 提案手法(右)によって一様に?分布するようになる 18

Slide 19

Slide 19 text

分析:多言語の埋め込み空間 - 提案手法によって、高い性能+歪みも改善 19 歪みがない (理想的)

Slide 20

Slide 20 text

(再掲)歪みを取ることによる影響 - 歪みをとることへの懸念:情報が失われてしまう? - 通常の fine-tuning では歪みは取れず、後処理的に歪みを取 ると性能が悪化する [Rajaee+21] →歪みと情報損失を回避する訓練・fine-tuning が必要 (例:白色化+SimCSE [Zhuo+23]) - 20

Slide 21

Slide 21 text

分析:歪みを取ることによる影響 - 歪みをとることへの懸念:情報が失われてしまう? - 統語関係のタスクでも歪みを取ると性能低下 →提案手法ではどうか…? 21 文脈つき単語ベクトルで依存構造を予測させるタスク (LAS: ラベルあり、UAS: ラベルなし)

Slide 22

Slide 22 text

分析:歪みを取ることによる影響 - 歪みをとることへの懸念:情報が失われてしまう? - 統語関係のタスクでも歪みを取ると性能低下 →提案手法では性能が低下しない(保持される)! 22

Slide 23

Slide 23 text

まとめ - Cross-lingual Transfer における2つの課題について言及 - 言語の違い(主に形態情報) - 埋め込み空間の歪み(異方性) - 先行研究では 言語の違い しか対処されていないため、 埋め込み空間の歪み を対処する手法を提案 - 実験の結果 - Zero-shot cross-lingual transfer の性能を改善 - 歪みをとる際に情報も保持 - WhitenedCSE と近い? - code-switching を SimCSE に置き換えると… - この方式の手法が 色々なタスクで登場? 23

Slide 24

Slide 24 text

参考文献 - [Ahmad+19] Wasi Ahmad, Zhisong Zhang, Xuezhe Ma, Eduard Hovy, Kai-Wei Chang, Nanyun Peng. “On Difficulties of Cross-Lingual Transfer with Order Differences: A Case Study on Dependency Parsing”, NAACL2019 - [Rajaee+22] Sara Rajaee, Mohammad Taher Pilehvar. “An Isotropy Analysis in the Multilingual BERT Embedding Space”, Findings of ACL2022 - [Rajaee+21] Sara Rajaee, Mohammad Taher Pilehvar. “How Does Fine-tuning Affect the Geometry of Embedding Space: A Case Study on Isotropy”, Findings of EMNLP2021 - [Zhuo+23] Wenjie Zhuo, Yifan Sun, Xiaohan Wang, Linchao Zhu, Yi Yang. “WhitenedCSE: Whitening-based Contrastive Learning of Sentence Embeddings”, ACL2023 - [Conneau+20] Alexis Conneau, Shijie Wu, Haoran Li, Luke Zettlemoyer, Veselin Stoyanov. “Emerging Cross-lingual Structure in Pretrained Language Models”, ACL2020 24