Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文解説] OssCSE: Overcoming Surface Structure Bia...

Reon Kajikawa
April 24, 2024
1

[論文解説] OssCSE: Overcoming Surface Structure Bias in Contrastive Learning for Unsupervised Sentence Embedding

表層構造におけるバイアスを対処するOssCSEを提案

Reon Kajikawa

April 24, 2024
Tweet

Transcript

  1. OssCSE: Overcoming Surface Structure Bias in Contrastive Learning for Unsupervised

    Sentence Embedding Zhan Shi, Guoyin Wang, Ke Bai, Jiwei Li, Xiang Li, Qingjun Cui, Belinda Zeng, Trishul Chilimbi, Xiaodan Zhu EMNLP 2023 URL:https://aclanthology.org/2023.emnlp-main.448/ 発表者:M1 梶川 怜恩
  2. 文の構造 • 深層構造:文の意味 • 表層構造:文の見た目 4 導入:文の構造 I purchased some

    beautiful clothes Some beautiful clothes were bought by me I didn’t purchase some beautiful clothes 見た目は違うが、意味は似ている (言い換え文が該当) 見た目は似ているが、意味は異なる (否定文が該当)
  3. Example: “ Bryan Cranston will return as Walter White for

    breaking bad spin off, report claims. ” • 教師なし学習モデルは、否定文に高い類似度を示す 8 調査:モデルはどの程度バイアスの影響を受けている? 変換手法 UnSup (↑) Sup (↑) MER (↓) Pharaphrase 0.72 0.92 0.73 Negation 0.96 0.75 0.06
  4. 教師なし文埋め込みはバイアスを含む • 言い換え文の意味的類似度 ↓ / 否定文の意味的類似度 ↑ • 言い換え文の意味的類似度 <

    否定文の意味的類似度 9 調査:モデルはどの程度バイアスの影響を受けている? ※ 縦軸をMER(表層的な類似度)、横軸をコサイン類似度(意味的な類似度)
  5. 教師なし対照学習 • 正例:同じ文 • 異なるプロンプトを設定、<mask>を文表現 [1] • “This sentence :

    “𝑠𝑖 ” means <mask>” • “This sentence of “𝑠𝑖 ” means <mask>” • 負例:異なる2文 • バッチ内負例 対照損失 15 対照損失 [1] Jiang et al.: PromptBERT: Improving BERT Sentence Embeddings with Prompts <mask>の隠れ層を利用 ※ Dropoutによる正例ではない
  6. • Oppnデータの性能が低い → 言い換え文と否定文の学習データを拡張 • 言い換え文 𝑠 𝑖 𝑝 •

    逆翻訳モデル(英⇔露、英⇔独) • 否定文 𝑠𝑖 𝑛 • 係り受け解析による自動追加 最大マージン損失 16 最大マージン損失 否定文との類似度 > 無関係な文との類似度 にしたいお気持ち 否定文との類似度 < 言い換え文との類似度 にしたいお気持ち
  7. 2種類の損失関数で学習すると • Oppn (STSB-dev)の性能が低下していく… • 事前学習時に得た知識(単語の意味)が忘却していく「破滅的忘却」 Recall Loss [2] 17

    Recall Loss [2] Chen et al.: Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting 事前学習時に得た知識を思い出させる
  8. 学習 • BERT, RoBERTaベース • 学習データ:Wikipedia100万文 • STSB-devの最高値となるハイパラで評価 タスク •

    STSタスク • 転移学習ベンチマークタスク • テキスト分類などの下流タスク • 文埋め込みを入力とする分類器を訓練、分類性能から文埋め込みの質を評価 19 実験
  9. • 教師なし文埋め込み学習における表層構造のバイアスを調査 • 最大マージン損失、recall lossの導入によるOppnに対する性能改善 限界 • 逆翻訳の品質 • 言い換え、否定以外の文に対して考慮せず学習

    感想 • 最大マージン損失によるSTSタスクの性能改善が微妙… • 否定文との類似度 < 言い換え文との類似度になっているのかが不明瞭 • p.9 のようにプロットしてほしい 27 Conclusion and Limitations