Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Isotropic Representation Can Improve Zero-Shot Cross-Lingual Transfer on Multilingual Language Models

Taichi Aida
December 20, 2023

文献紹介:Isotropic Representation Can Improve Zero-Shot Cross-Lingual Transfer on Multilingual Language Models

Taichi Aida

December 20, 2023
Tweet

More Decks by Taichi Aida

Other Decks in Research

Transcript

  1. 論文紹介 Isotropic Representation Can Improve Zero-Shot Cross-Lingual Transfer on Multilingual

    Language Models Yixin Ji, Jikai Wang, Juntao Li, Hai Ye, Min Zhang Findings of EMNLP2023
  2. 概要 - Cross-lingual Transfer における2つの課題について言及 - 言語の違い(主に形態情報) - 埋め込み空間の歪み(異方性) -

    先行研究では 言語の違い しか対処されていないため、 埋め込み空間の歪み を対処する手法を提案 - 実験の結果 - Zero-shot cross-lingual transfer の性能を改善 - 歪みをとる際に情報も保持 2
  3. Cross-lingual Transfer - 潤沢な資源(データ)のある言語→低資源の言語 - 事前訓練済みの多言語モデルは zero-shot cross-lingual transfer でも効果的

    - 異なる言語に対して埋め込み表現を対応させるのが重要 - 先行研究:なんとかして言語間の埋め込み空間を対応させる - 対訳コーパス、対訳の辞書を使う - 形態・統語情報を使用 - 対応されていないことを許容し、より頑強な訓練を提案 →主に言語間の「ずれ」を解消 3
  4. 歪んだ埋め込み空間(異方性)による「ずれ」[Rajaee+22] - BERT だけでなく、mBERT も歪んでいる - I Cos :低いほどよい、ランダムペアの cos

    の平均(max=1) - I PC :1に近いほどよい、PCA で変換した後、各軸の中でベクトルの値 の総和に着目する。総和が最大となる軸 と 総和が最小になる軸 の比 (max=1) 6
  5. 提案手法:②情報損失を回避 ℒreg - Code-switching [Conneau+20] を導入 - 原言語の文中にある単語 𝑥 をランダムに選択し、対訳辞書で目的言

    語の単語 𝑥’ に置き換える(置換の有無で2つの文ができる) - 置き換え前後の単語の類似度が近くなるような損失関数を追加 11
  6. 実験:Zero-shot Cross-lingual Transfer - 歪みをとる+code-switching は効果がある…? - Cross-lingual のタスクで実験 -

    Paraphrase identification (PAWS-X) - Natural language inference (XNLI) - Sentiment classification (MARC) - データ量の問題で訓練データ全体の25%だけ使用 - 多言語の事前訓練済み言語モデル - mBERT - XLM-R large 14
  7. まとめ - Cross-lingual Transfer における2つの課題について言及 - 言語の違い(主に形態情報) - 埋め込み空間の歪み(異方性) -

    先行研究では 言語の違い しか対処されていないため、 埋め込み空間の歪み を対処する手法を提案 - 実験の結果 - Zero-shot cross-lingual transfer の性能を改善 - 歪みをとる際に情報も保持 - WhitenedCSE と近い? - code-switching を SimCSE に置き換えると… - この方式の手法が 色々なタスクで登場? 23
  8. 参考文献 - [Ahmad+19] Wasi Ahmad, Zhisong Zhang, Xuezhe Ma, Eduard

    Hovy, Kai-Wei Chang, Nanyun Peng. “On Difficulties of Cross-Lingual Transfer with Order Differences: A Case Study on Dependency Parsing”, NAACL2019 - [Rajaee+22] Sara Rajaee, Mohammad Taher Pilehvar. “An Isotropy Analysis in the Multilingual BERT Embedding Space”, Findings of ACL2022 - [Rajaee+21] Sara Rajaee, Mohammad Taher Pilehvar. “How Does Fine-tuning Affect the Geometry of Embedding Space: A Case Study on Isotropy”, Findings of EMNLP2021 - [Zhuo+23] Wenjie Zhuo, Yifan Sun, Xiaohan Wang, Linchao Zhu, Yi Yang. “WhitenedCSE: Whitening-based Contrastive Learning of Sentence Embeddings”, ACL2023 - [Conneau+20] Alexis Conneau, Shijie Wu, Haoran Li, Luke Zettlemoyer, Veselin Stoyanov. “Emerging Cross-lingual Structure in Pretrained Language Models”, ACL2020 24