Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最先端NLP2022: Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings

tatHi
September 16, 2022

最先端NLP2022: Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings

tatHi

September 16, 2022
Tweet

More Decks by tatHi

Other Decks in Research

Transcript

  1. Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via

    Adaptive Gradient Gating for Rare Token Embeddings Sangwon Yu, Jongyoon Song, Heeseung Kim, Seongmin Lee, Woo-Jong Ryu, Sungroh Yoon (ACL 2022) Presenter: 平岡 達也 (富⼠通) 2022/9/26 最先端NLP(平岡) 1 実験に関する表と図は論⽂より引⽤。 ⼀部説明のために書き込みを⼊れているため、本資料からの孫引きはしないでください。
  2. 一言でいうと 2022/9/26 最先端NLP(平岡) 2 低頻度語の埋め込みの学習が 埋め込み全体の性質を悪くする 単語の出現頻度に応じて 埋め込みの更新の度合いを調整しよう

  3. Representation Degeneration Problem [1] 2022/9/26 最先端NLP(平岡) 3 [1] Jun Gao,

    Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat 良さそうな埋め込み表現 トークンどうしの意味関係を捉えやすい 各埋め込みどうしの コサイン類似度が⼩さい Aysheaia
  4. Representation Degeneration Problem [1] 2022/9/26 最先端NLP(平岡) 4 [1] Jun Gao,

    Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat Kakapo Cat 良さそうな埋め込み表現 微妙な埋め込み表現 トークンどうしの意味関係を捉えやすい 各埋め込みどうしの コサイン類似度が⼩さい 各埋め込みどうしの コサイン類似度が⼤きい トークンどうしの意味関係を捉えにくい Aysheaia Aysheaia
  5. Representation Degeneration Problem [1] 2022/9/26 最先端NLP(平岡) 5 [1] Jun Gao,

    Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat 微妙な埋め込み表現 各埋め込みどうしの コサイン類似度が⼤きい トークンどうしの意味関係を捉えにくい 特定条件下で微妙な埋め込み表現が 学習されてしまう Aysheaia
  6. Representation Degeneration Problem [1] 2022/9/26 最先端NLP(平岡) 6 [1] Jun Gao,

    Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat 微妙な埋め込み表現 各埋め込みどうしの コサイン類似度が⼤きい トークンどうしの意味関係を捉えにくい 特定条件下で微妙な埋め込み表現が 学習されてしまう 埋め込み層を最終層としても活⽤する場合 (share-input-output-embed設定) Transformer Embedding Embedding <s> John loves John loves 同じ埋め込み層 を利⽤ Aysheaia
  7. 本論文の着眼点 2022/9/26 最先端NLP(平岡) 7 Kakapo Cat 微妙な埋め込み表現 各埋め込みどうしの コサイン類似度が⼤きい トークンどうしの意味関係を捉えにくい

    低頻度語の学習が微妙な埋め込み表現に 繋がっているのでは? Aysheaia
  8. 低頻度語がDegenerationを引き起こしている? 2022/9/26 最先端NLP(平岡) 8 低頻度語の学習が微妙な埋め込み表現に 繋がっているのでは? WikiText-103(⾔語モデルタスク)で試してみると… ⾼(30%) 中(50%) 低(20%)

  9. 低頻度語がDegenerationを引き起こしている? 2022/9/26 最先端NLP(平岡) 9 低頻度語の学習が微妙な埋め込み表現に 繋がっているのでは? ⾼(30%) 中(50%) 低(20%) WikiText-103(⾔語モデルタスク)で試してみると…

  10. 低頻度語がDegenerationを引き起こしている? 2022/9/26 最先端NLP(平岡) 10 低頻度語の学習が微妙な埋め込み表現に 繋がっているのでは? 学習が進むにつれて 低頻度語に⾼頻度語・中頻度語の 分布が引っ張られる ⾼(30%)

    中(50%) 低(20%) WikiText-103(⾔語モデルタスク)で試してみると…
  11. 低頻度語の埋め込みを固定するとどうなる? 2022/9/26 最先端NLP(平岡) 11 低頻度語に引っ張られるなら、 低頻度語を学習しなければいいのでは? ⾼(30%) 中(50%) 低(20%)

  12. 低頻度語の埋め込みを固定して言語モデルを学習 2022/9/26 最先端NLP(平岡) 12 PPL (低いほど良い) 埋め込みの良さ (⾼いほど互いに似てない=良い埋め込み) ⾼頻度 30%

    中頻度 50% 低頻度 20% 全体 ⾼頻度 30% 中頻度 50% 低頻度 20% 全体 普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293 低頻度語の 埋め込みを固定 16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739 ⾔語モデルタスク(WikiText-103、Transformer) 低頻度語の埋め込みを固定すると PPLは変わらず、埋め込みの良さは改善 (Table 1より作成)
  13. 低頻度語の埋め込みを固定して言語モデルを学習 2022/9/26 最先端NLP(平岡) 13 PPL (低いほど良い) 埋め込みの良さ (⾼いほど互いに似てない=良い埋め込み) ⾼頻度 30%

    中頻度 50% 低頻度 20% 全体 ⾼頻度 30% 中頻度 50% 低頻度 20% 全体 普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293 低頻度語の 埋め込みを固定 16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739 埋 め 込 み の 良 さ ⾼ 頻 度 語 ・ 低 頻 度 語 間 の コ サ イ ン 類 似 度 ⾼頻度語の埋め込みの良さ 低頻度語の埋め込みの良さ 低・⾼頻度語間の類似度 (Table 1より作成) 学習step 低頻度の 埋め込みを固定 低頻度語の埋め込みの固定を解除すると 埋め込みの性質が悪くなる ⾔語モデルタスク(WikiText-103、Transformer)
  14. ⾔語モデルタスク(WikiText-103、Transformer) 低頻度語の埋め込みを固定するとどうなる? 2022/9/26 最先端NLP(平岡) 14 PPL (低いほど良い) 埋め込みの良さ (⾼いほど互いに似てない=良い埋め込み) ⾼頻度

    30% 中頻度 50% 低頻度 20% 全体 ⾼頻度 30% 中頻度 50% 低頻度 20% 全体 普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293 低頻度語の 埋め込みを固定 16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739 埋 め 込 み の 良 さ ⾼ 頻 度 語 ・ 低 頻 度 語 間 の コ サ イ ン 類 似 度 ⾼頻度語の埋め込みの良さ 低頻度語の埋め込みの良さ 低・⾼頻度語間の類似度 (Table 1より作成) 学習step 低頻度の 埋め込みを固定 低頻度語の埋め込みの固定を解除すると 埋め込みの性質が悪くなる 低頻度語の学習を うまいこと制御すれば、 良い埋め込みが得られるかも…
  15. ここまでの話の流れ 2022/9/26 最先端NLP(平岡) 15 埋め込み層を出⼒層に転⽤すると埋め込み空間の性質が悪くなる (Representation Degeneration Problem) 低頻度語の埋め込みの学習が悪さの原因か (低頻度語の学習をしなければ埋め込みの性質は良くなる)

    低頻度語の学習をうまいこと制御すれば、 良い埋め込みが得られるかも…
  16. 低頻度語の埋め込みの学習 2022/9/26 最先端NLP(平岡) 16 Transformer Embedding Embedding <s> John loves

    John loves 同じ埋め込み層 を利⽤ 𝑝 ) ≅ <s> John loves × ⽂脈ベクトル (<s> John loves) 埋め込み ( )
  17. 低頻度語の埋め込みの学習 2022/9/26 最先端NLP(平岡) 17 Transformer Embedding Embedding <s> John loves

    John loves 同じ埋め込み層 を利⽤ 𝑝 ) ≅ <s> John loves × ⽂脈ベクトル (<s> John loves) 埋め込み ( ) の埋め込みの更新に注⽬すると… 正解の⽂脈に近づきたい 不正解の⽂脈から離れたい (低頻度語) ⾼頻度語の⽂脈 別の低頻度語の⽂脈
  18. 低頻度語の埋め込みの学習 2022/9/26 最先端NLP(平岡) 18 Transformer Embedding Embedding <s> John loves

    John loves 同じ埋め込み層 を利⽤ 𝑝 ) ≅ <s> John loves × ⽂脈ベクトル (<s> John loves) 埋め込み ( ) の埋め込みの更新に注⽬すると… 正解の⽂脈に近づきたい ⾼頻度語の⽂脈 別の低頻度語の⽂脈 不正解の⽂脈から離れたい ⾼頻度語と低頻度語の埋め込みが 離れるのが良くない (低頻度語)
  19. 低頻度語の埋め込みの学習 2022/9/26 最先端NLP(平岡) 19 Transformer Embedding Embedding <s> John loves

    John loves 同じ埋め込み層 を利⽤ 𝑝 ) ≅ <s> John loves × ⽂脈ベクトル (<s> John loves) 埋め込み ( ) の埋め込みの更新に注⽬すると… 正解の⽂脈に近づきたい ⾼頻度語の⽂脈 別の低頻度語の⽂脈 不正解の⽂脈から離れたい ⾼頻度語と低頻度語の埋め込みが 離れるのが良くない (低頻度語) この更新を 抑えてやると良い
  20. 低頻度語が高頻度語の文脈から離れないようにする 2022/9/26 最先端NLP(平岡) 20 の埋め込みの更新にひと⼯夫 正解の⽂脈に近づきたい ⾼頻度語の⽂脈 別の低頻度語の⽂脈 不正解の⽂脈から離れたい (低頻度語)

    𝑔 Transformer Embedding Embedding <s> John loves John loves 同じ埋め込み層 を利⽤ 𝑝 ) ≅ <s> John loves × ⽂脈ベクトル (<s> John loves) 埋め込み ( ) ⾼頻度語と低頻度語の埋め込みが 離れるのが良くない ⾼頻度語の⽂脈から 低頻度語を離す更新に ゲートgをかける 提案⼿法のコアアイディア
  21. 言語モデルで埋め込みの良さを向上させる 2022/9/26 最先端NLP(平岡) 21 PPL (低いほど良い) 埋め込みの良さ (⾼いほど互いに似てない=良い埋め込み) 普通に学習 15.51

    0.377 低頻度語・⾼頻度語が 離れないようにゲートを追加 (提案⼿法) 15.51 0.813 ⾔語モデルタスク (WikiText-103, GPT-2 from scratch) 普通に学習 したときの埋め込み 低頻度語・⾼頻度語が離れないように ゲートを追加したときの埋め込み Degeneration は起きていない 横に潰れる分布 (Degenerationが 起きている)
  22. 埋め込みの良さが単語類似度・機械翻訳に好影響 2022/9/26 最先端NLP(平岡) 22 タスク: 与えられた2単語の類似度がどの程度 正解と似ているかを当てる。 設定: WikiText-103で学習した埋め込みどうしの コサイン類似度を⽤いて評価。

    単語類似度 機械翻訳 WMT14 En→De データセット 普通の学習 提案⼿法 MEN 33.57 55.13 WS353 47.51 56.54 RG65 35.48 65.45 RW 32.13 36.36 ⼿法 Transformer Base Big 普通の学習 27.30 28.40 提案⼿法 28.70 29.81
  23. まとめ 2022/9/26 最先端NLP(平岡) 23 埋め込み層を出⼒層に転⽤すると埋め込み空間の性質が悪くなる (Representation Degeneration Problem) 低頻度語の埋め込みの学習が悪さの原因か (低頻度語の学習をしなければ埋め込みの性質は良くなる)

    低頻度語と⾼頻度語の埋め込みが離れないように 更新にゲートをかけると◎