最先端NLP2022: Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings

Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via
Adaptive Gradient Gating for Rare Token Embeddings Sangwon Yu, Jongyoon Song, Heeseung Kim, Seongmin Lee, Woo-Jong Ryu, Sungroh Yoon (ACL 2022) Presenter: 平岡達也（富⼠通） 2022/9/26 最先端NLP（平岡） 1 実験に関する表と図は論⽂より引⽤。⼀部説明のために書き込みを⼊れているため、本資料からの孫引きはしないでください。

一言でいうと 2022/9/26 最先端NLP（平岡） 2 低頻度語の埋め込みの学習が埋め込み全体の性質を悪くする単語の出現頻度に応じて埋め込みの更新の度合いを調整しよう

Representation Degeneration Problem [1] 2022/9/26 最先端NLP（平岡） 3 [1] Jun Gao,
Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat 良さそうな埋め込み表現トークンどうしの意味関係を捉えやすい各埋め込みどうしのコサイン類似度が⼩さい Aysheaia

Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat Kakapo Cat 良さそうな埋め込み表現微妙な埋め込み表現トークンどうしの意味関係を捉えやすい各埋め込みどうしのコサイン類似度が⼩さい各埋め込みどうしのコサイン類似度が⼤きいトークンどうしの意味関係を捉えにくい Aysheaia Aysheaia

Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat 微妙な埋め込み表現各埋め込みどうしのコサイン類似度が⼤きいトークンどうしの意味関係を捉えにくい特定条件下で微妙な埋め込み表現が学習されてしまう Aysheaia

Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat 微妙な埋め込み表現各埋め込みどうしのコサイン類似度が⼤きいトークンどうしの意味関係を捉えにくい特定条件下で微妙な埋め込み表現が学習されてしまう埋め込み層を最終層としても活⽤する場合（share-input-output-embed設定） Transformer Embedding Embedding <s> John loves John loves 同じ埋め込み層を利⽤ Aysheaia

本論文の着眼点 2022/9/26 最先端NLP（平岡） 7 Kakapo Cat 微妙な埋め込み表現各埋め込みどうしのコサイン類似度が⼤きいトークンどうしの意味関係を捉えにくい
低頻度語の学習が微妙な埋め込み表現に繋がっているのでは？ Aysheaia

低頻度語がDegenerationを引き起こしている？ 2022/9/26 最先端NLP（平岡） 8 低頻度語の学習が微妙な埋め込み表現に繋がっているのでは？ WikiText-103（⾔語モデルタスク）で試してみると… ⾼(30%) 中(50%) 低(20%)

低頻度語がDegenerationを引き起こしている？ 2022/9/26 最先端NLP（平岡） 9 低頻度語の学習が微妙な埋め込み表現に繋がっているのでは？⾼(30%) 中(50%) 低(20%) WikiText-103（⾔語モデルタスク）で試してみると…

低頻度語がDegenerationを引き起こしている？ 2022/9/26 最先端NLP（平岡） 10 低頻度語の学習が微妙な埋め込み表現に繋がっているのでは？学習が進むにつれて低頻度語に⾼頻度語・中頻度語の分布が引っ張られる⾼(30%)
中(50%) 低(20%) WikiText-103（⾔語モデルタスク）で試してみると…

低頻度語の埋め込みを固定するとどうなる？ 2022/9/26 最先端NLP（平岡） 11 低頻度語に引っ張られるなら、低頻度語を学習しなければいいのでは？⾼(30%) 中(50%) 低(20%)

低頻度語の埋め込みを固定して言語モデルを学習 2022/9/26 最先端NLP（平岡） 12 PPL （低いほど良い）埋め込みの良さ（⾼いほど互いに似てない＝良い埋め込み）⾼頻度 30%
中頻度 50% 低頻度 20% 全体⾼頻度 30% 中頻度 50% 低頻度 20% 全体普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293 低頻度語の埋め込みを固定 16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739 ⾔語モデルタスク（WikiText-103、Transformer）低頻度語の埋め込みを固定すると PPLは変わらず、埋め込みの良さは改善（Table 1より作成）

低頻度語の埋め込みを固定して言語モデルを学習 2022/9/26 最先端NLP（平岡） 13 PPL （低いほど良い）埋め込みの良さ（⾼いほど互いに似てない＝良い埋め込み）⾼頻度 30%
中頻度 50% 低頻度 20% 全体⾼頻度 30% 中頻度 50% 低頻度 20% 全体普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293 低頻度語の埋め込みを固定 16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739 埋め込みの良さ⾼頻度語・低頻度語間のコサイン類似度⾼頻度語の埋め込みの良さ低頻度語の埋め込みの良さ低・⾼頻度語間の類似度（Table 1より作成）学習step 低頻度の埋め込みを固定低頻度語の埋め込みの固定を解除すると埋め込みの性質が悪くなる⾔語モデルタスク（WikiText-103、Transformer）

⾔語モデルタスク（WikiText-103、Transformer）低頻度語の埋め込みを固定するとどうなる？ 2022/9/26 最先端NLP（平岡） 14 PPL （低いほど良い）埋め込みの良さ（⾼いほど互いに似てない＝良い埋め込み）⾼頻度
30% 中頻度 50% 低頻度 20% 全体⾼頻度 30% 中頻度 50% 低頻度 20% 全体普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293 低頻度語の埋め込みを固定 16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739 埋め込みの良さ⾼頻度語・低頻度語間のコサイン類似度⾼頻度語の埋め込みの良さ低頻度語の埋め込みの良さ低・⾼頻度語間の類似度（Table 1より作成）学習step 低頻度の埋め込みを固定低頻度語の埋め込みの固定を解除すると埋め込みの性質が悪くなる低頻度語の学習をうまいこと制御すれば、良い埋め込みが得られるかも…

ここまでの話の流れ 2022/9/26 最先端NLP（平岡） 15 埋め込み層を出⼒層に転⽤すると埋め込み空間の性質が悪くなる (Representation Degeneration Problem) 低頻度語の埋め込みの学習が悪さの原因か（低頻度語の学習をしなければ埋め込みの性質は良くなる）
低頻度語の学習をうまいこと制御すれば、良い埋め込みが得られるかも…

低頻度語の埋め込みの学習 2022/9/26 最先端NLP（平岡） 16 Transformer Embedding Embedding <s> John loves
John loves 同じ埋め込み層を利⽤ 𝑝 ) ≅ <s> John loves × ⽂脈ベクトル (<s> John loves) 埋め込み（）

John loves 同じ埋め込み層を利⽤ 𝑝 ) ≅ <s> John loves × ⽂脈ベクトル (<s> John loves) 埋め込み（）の埋め込みの更新に注⽬すると… 正解の⽂脈に近づきたい不正解の⽂脈から離れたい（低頻度語）⾼頻度語の⽂脈別の低頻度語の⽂脈

John loves 同じ埋め込み層を利⽤ 𝑝 ) ≅ <s> John loves × ⽂脈ベクトル (<s> John loves) 埋め込み（）の埋め込みの更新に注⽬すると… 正解の⽂脈に近づきたい⾼頻度語の⽂脈別の低頻度語の⽂脈不正解の⽂脈から離れたい⾼頻度語と低頻度語の埋め込みが離れるのが良くない（低頻度語）

John loves 同じ埋め込み層を利⽤ 𝑝 ) ≅ <s> John loves × ⽂脈ベクトル (<s> John loves) 埋め込み（）の埋め込みの更新に注⽬すると… 正解の⽂脈に近づきたい⾼頻度語の⽂脈別の低頻度語の⽂脈不正解の⽂脈から離れたい⾼頻度語と低頻度語の埋め込みが離れるのが良くない（低頻度語）この更新を抑えてやると良い

低頻度語が高頻度語の文脈から離れないようにする 2022/9/26 最先端NLP（平岡） 20 の埋め込みの更新にひと⼯夫正解の⽂脈に近づきたい⾼頻度語の⽂脈別の低頻度語の⽂脈不正解の⽂脈から離れたい（低頻度語）
𝑔 Transformer Embedding Embedding <s> John loves John loves 同じ埋め込み層を利⽤ 𝑝 ) ≅ <s> John loves × ⽂脈ベクトル (<s> John loves) 埋め込み（）⾼頻度語と低頻度語の埋め込みが離れるのが良くない⾼頻度語の⽂脈から低頻度語を離す更新にゲートgをかける提案⼿法のコアアイディア

言語モデルで埋め込みの良さを向上させる 2022/9/26 最先端NLP（平岡） 21 PPL （低いほど良い）埋め込みの良さ（⾼いほど互いに似てない＝良い埋め込み）普通に学習 15.51
0.377 低頻度語・⾼頻度語が離れないようにゲートを追加（提案⼿法） 15.51 0.813 ⾔語モデルタスク (WikiText-103, GPT-2 from scratch) 普通に学習したときの埋め込み低頻度語・⾼頻度語が離れないようにゲートを追加したときの埋め込み Degeneration は起きていない横に潰れる分布 (Degenerationが起きている)

埋め込みの良さが単語類似度・機械翻訳に好影響 2022/9/26 最先端NLP（平岡） 22 タスク：与えられた2単語の類似度がどの程度正解と似ているかを当てる。設定： WikiText-103で学習した埋め込みどうしのコサイン類似度を⽤いて評価。
単語類似度機械翻訳 WMT14 En→De データセット普通の学習提案⼿法 MEN 33.57 55.13 WS353 47.51 56.54 RG65 35.48 65.45 RW 32.13 36.36 ⼿法 Transformer Base Big 普通の学習 27.30 28.40 提案⼿法 28.70 29.81

まとめ 2022/9/26 最先端NLP（平岡） 23 埋め込み層を出⼒層に転⽤すると埋め込み空間の性質が悪くなる (Representation Degeneration Problem) 低頻度語の埋め込みの学習が悪さの原因か（低頻度語の学習をしなければ埋め込みの性質は良くなる）
低頻度語と⾼頻度語の埋め込みが離れないように更新にゲートをかけると◎

最先端NLP2022: Rare Tokens Degenerate All Tokens: ...

最先端NLP2022: Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings

tatHi

More Decks by tatHi

Other Decks in Research

Featured

Transcript

Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via

一言でいうと 2022/9/26 最先端NLP（平岡） 2 低頻度語の埋め込みの学習が埋め込み全体の性質を悪くする単語の出現頻度に応じて埋め込みの更新の度合いを調整しよう

Representation Degeneration Problem [1] 2022/9/26 最先端NLP（平岡） 3 [1] Jun Gao,

Representation Degeneration Problem [1] 2022/9/26 最先端NLP（平岡） 4 [1] Jun Gao,

Representation Degeneration Problem [1] 2022/9/26 最先端NLP（平岡） 5 [1] Jun Gao,

Representation Degeneration Problem [1] 2022/9/26 最先端NLP（平岡） 6 [1] Jun Gao,

本論文の着眼点 2022/9/26 最先端NLP（平岡） 7 Kakapo Cat 微妙な埋め込み表現各埋め込みどうしのコサイン類似度が⼤きいトークンどうしの意味関係を捉えにくい

低頻度語がDegenerationを引き起こしている？ 2022/9/26 最先端NLP（平岡） 8 低頻度語の学習が微妙な埋め込み表現に繋がっているのでは？ WikiText-103（⾔語モデルタスク）で試してみると… ⾼(30%) 中(50%) 低(20%)

低頻度語がDegenerationを引き起こしている？ 2022/9/26 最先端NLP（平岡） 9 低頻度語の学習が微妙な埋め込み表現に繋がっているのでは？⾼(30%) 中(50%) 低(20%) WikiText-103（⾔語モデルタスク）で試してみると…

低頻度語がDegenerationを引き起こしている？ 2022/9/26 最先端NLP（平岡） 10 低頻度語の学習が微妙な埋め込み表現に繋がっているのでは？学習が進むにつれて低頻度語に⾼頻度語・中頻度語の分布が引っ張られる⾼(30%)

低頻度語の埋め込みを固定するとどうなる？ 2022/9/26 最先端NLP（平岡） 11 低頻度語に引っ張られるなら、低頻度語を学習しなければいいのでは？⾼(30%) 中(50%) 低(20%)

低頻度語の埋め込みを固定して言語モデルを学習 2022/9/26 最先端NLP（平岡） 12 PPL （低いほど良い）埋め込みの良さ（⾼いほど互いに似てない＝良い埋め込み）⾼頻度 30%

低頻度語の埋め込みを固定して言語モデルを学習 2022/9/26 最先端NLP（平岡） 13 PPL （低いほど良い）埋め込みの良さ（⾼いほど互いに似てない＝良い埋め込み）⾼頻度 30%

⾔語モデルタスク（WikiText-103、Transformer）低頻度語の埋め込みを固定するとどうなる？ 2022/9/26 最先端NLP（平岡） 14 PPL （低いほど良い）埋め込みの良さ（⾼いほど互いに似てない＝良い埋め込み）⾼頻度

低頻度語の埋め込みの学習 2022/9/26 最先端NLP（平岡） 16 Transformer Embedding Embedding <s> John loves

低頻度語の埋め込みの学習 2022/9/26 最先端NLP（平岡） 17 Transformer Embedding Embedding <s> John loves

低頻度語の埋め込みの学習 2022/9/26 最先端NLP（平岡） 18 Transformer Embedding Embedding <s> John loves

低頻度語の埋め込みの学習 2022/9/26 最先端NLP（平岡） 19 Transformer Embedding Embedding <s> John loves

低頻度語が高頻度語の文脈から離れないようにする 2022/9/26 最先端NLP（平岡） 20 の埋め込みの更新にひと⼯夫正解の⽂脈に近づきたい⾼頻度語の⽂脈別の低頻度語の⽂脈不正解の⽂脈から離れたい（低頻度語）

言語モデルで埋め込みの良さを向上させる 2022/9/26 最先端NLP（平岡） 21 PPL （低いほど良い）埋め込みの良さ（⾼いほど互いに似てない＝良い埋め込み）普通に学習 15.51