最先端NLP2022: Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings

Slide 1

Slide 1 text

Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings Sangwon Yu, Jongyoon Song, Heeseung Kim, Seongmin Lee, Woo-Jong Ryu, Sungroh Yoon (ACL 2022) Presenter: 平岡達也（富⼠通） 2022/9/26 最先端NLP（平岡） 1 実験に関する表と図は論⽂より引⽤。⼀部説明のために書き込みを⼊れているため、本資料からの孫引きはしないでください。

Slide 2

Slide 2 text

一言でいうと 2022/9/26 最先端NLP（平岡） 2 低頻度語の埋め込みの学習が埋め込み全体の性質を悪くする単語の出現頻度に応じて埋め込みの更新の度合いを調整しよう

Slide 3

Slide 3 text

Representation Degeneration Problem [1] 2022/9/26 最先端NLP（平岡） 3 [1] Jun Gao, Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat 良さそうな埋め込み表現トークンどうしの意味関係を捉えやすい各埋め込みどうしのコサイン類似度が⼩さい Aysheaia

Slide 4

Slide 4 text

Representation Degeneration Problem [1] 2022/9/26 最先端NLP（平岡） 4 [1] Jun Gao, Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat Kakapo Cat 良さそうな埋め込み表現微妙な埋め込み表現トークンどうしの意味関係を捉えやすい各埋め込みどうしのコサイン類似度が⼩さい各埋め込みどうしのコサイン類似度が⼤きいトークンどうしの意味関係を捉えにくい Aysheaia Aysheaia

Slide 5

Slide 5 text

Representation Degeneration Problem [1] 2022/9/26 最先端NLP（平岡） 5 [1] Jun Gao, Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat 微妙な埋め込み表現各埋め込みどうしのコサイン類似度が⼤きいトークンどうしの意味関係を捉えにくい特定条件下で微妙な埋め込み表現が学習されてしまう Aysheaia

Slide 6

Slide 6 text

Representation Degeneration Problem [1] 2022/9/26 最先端NLP（平岡） 6 [1] Jun Gao, Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat 微妙な埋め込み表現各埋め込みどうしのコサイン類似度が⼤きいトークンどうしの意味関係を捉えにくい特定条件下で微妙な埋め込み表現が学習されてしまう埋め込み層を最終層としても活⽤する場合（share-input-output-embed設定） Transformer Embedding Embedding John loves John loves 同じ埋め込み層を利⽤ Aysheaia

Slide 7

Slide 7 text

本論文の着眼点 2022/9/26 最先端NLP（平岡） 7 Kakapo Cat 微妙な埋め込み表現各埋め込みどうしのコサイン類似度が⼤きいトークンどうしの意味関係を捉えにくい低頻度語の学習が微妙な埋め込み表現に繋がっているのでは？ Aysheaia

Slide 8

Slide 8 text

低頻度語がDegenerationを引き起こしている？ 2022/9/26 最先端NLP（平岡） 8 低頻度語の学習が微妙な埋め込み表現に繋がっているのでは？ WikiText-103（⾔語モデルタスク）で試してみると… ⾼(30%) 中(50%) 低(20%)

Slide 9

Slide 9 text

低頻度語がDegenerationを引き起こしている？ 2022/9/26 最先端NLP（平岡） 9 低頻度語の学習が微妙な埋め込み表現に繋がっているのでは？⾼(30%) 中(50%) 低(20%) WikiText-103（⾔語モデルタスク）で試してみると…

Slide 10

Slide 10 text

低頻度語がDegenerationを引き起こしている？ 2022/9/26 最先端NLP（平岡） 10 低頻度語の学習が微妙な埋め込み表現に繋がっているのでは？学習が進むにつれて低頻度語に⾼頻度語・中頻度語の分布が引っ張られる⾼(30%) 中(50%) 低(20%) WikiText-103（⾔語モデルタスク）で試してみると…

Slide 11

Slide 11 text

低頻度語の埋め込みを固定するとどうなる？ 2022/9/26 最先端NLP（平岡） 11 低頻度語に引っ張られるなら、低頻度語を学習しなければいいのでは？⾼(30%) 中(50%) 低(20%)

Slide 12

Slide 12 text

低頻度語の埋め込みを固定して言語モデルを学習 2022/9/26 最先端NLP（平岡） 12 PPL （低いほど良い）埋め込みの良さ（⾼いほど互いに似てない＝良い埋め込み）⾼頻度 30% 中頻度 50% 低頻度 20% 全体⾼頻度 30% 中頻度 50% 低頻度 20% 全体普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293 低頻度語の埋め込みを固定 16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739 ⾔語モデルタスク（WikiText-103、Transformer）低頻度語の埋め込みを固定すると PPLは変わらず、埋め込みの良さは改善（Table 1より作成）

Slide 13

Slide 13 text

低頻度語の埋め込みを固定して言語モデルを学習 2022/9/26 最先端NLP（平岡） 13 PPL （低いほど良い）埋め込みの良さ（⾼いほど互いに似てない＝良い埋め込み）⾼頻度 30% 中頻度 50% 低頻度 20% 全体⾼頻度 30% 中頻度 50% 低頻度 20% 全体普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293 低頻度語の埋め込みを固定 16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739 埋め込みの良さ⾼頻度語・低頻度語間のコサイン類似度⾼頻度語の埋め込みの良さ低頻度語の埋め込みの良さ低・⾼頻度語間の類似度（Table 1より作成）学習step 低頻度の埋め込みを固定低頻度語の埋め込みの固定を解除すると埋め込みの性質が悪くなる⾔語モデルタスク（WikiText-103、Transformer）

Slide 14

Slide 14 text

⾔語モデルタスク（WikiText-103、Transformer）低頻度語の埋め込みを固定するとどうなる？ 2022/9/26 最先端NLP（平岡） 14 PPL （低いほど良い）埋め込みの良さ（⾼いほど互いに似てない＝良い埋め込み）⾼頻度 30% 中頻度 50% 低頻度 20% 全体⾼頻度 30% 中頻度 50% 低頻度 20% 全体普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293 低頻度語の埋め込みを固定 16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739 埋め込みの良さ⾼頻度語・低頻度語間のコサイン類似度⾼頻度語の埋め込みの良さ低頻度語の埋め込みの良さ低・⾼頻度語間の類似度（Table 1より作成）学習step 低頻度の埋め込みを固定低頻度語の埋め込みの固定を解除すると埋め込みの性質が悪くなる低頻度語の学習をうまいこと制御すれば、良い埋め込みが得られるかも…

Slide 15

Slide 15 text

ここまでの話の流れ 2022/9/26 最先端NLP（平岡） 15 埋め込み層を出⼒層に転⽤すると埋め込み空間の性質が悪くなる (Representation Degeneration Problem) 低頻度語の埋め込みの学習が悪さの原因か（低頻度語の学習をしなければ埋め込みの性質は良くなる）低頻度語の学習をうまいこと制御すれば、良い埋め込みが得られるかも…

Slide 16

Slide 16 text

低頻度語の埋め込みの学習 2022/9/26 最先端NLP（平岡） 16 Transformer Embedding Embedding John loves John loves 同じ埋め込み層を利⽤ 𝑝 ) ≅ John loves × ⽂脈ベクトル ( John loves) 埋め込み（）

Slide 17

Slide 17 text

低頻度語の埋め込みの学習 2022/9/26 最先端NLP（平岡） 17 Transformer Embedding Embedding John loves John loves 同じ埋め込み層を利⽤ 𝑝 ) ≅ John loves × ⽂脈ベクトル ( John loves) 埋め込み（）の埋め込みの更新に注⽬すると… 正解の⽂脈に近づきたい不正解の⽂脈から離れたい（低頻度語）⾼頻度語の⽂脈別の低頻度語の⽂脈

Slide 18

Slide 18 text

低頻度語の埋め込みの学習 2022/9/26 最先端NLP（平岡） 18 Transformer Embedding Embedding John loves John loves 同じ埋め込み層を利⽤ 𝑝 ) ≅ John loves × ⽂脈ベクトル ( John loves) 埋め込み（）の埋め込みの更新に注⽬すると… 正解の⽂脈に近づきたい⾼頻度語の⽂脈別の低頻度語の⽂脈不正解の⽂脈から離れたい⾼頻度語と低頻度語の埋め込みが離れるのが良くない（低頻度語）

Slide 19

Slide 19 text

低頻度語の埋め込みの学習 2022/9/26 最先端NLP（平岡） 19 Transformer Embedding Embedding John loves John loves 同じ埋め込み層を利⽤ 𝑝 ) ≅ John loves × ⽂脈ベクトル ( John loves) 埋め込み（）の埋め込みの更新に注⽬すると… 正解の⽂脈に近づきたい⾼頻度語の⽂脈別の低頻度語の⽂脈不正解の⽂脈から離れたい⾼頻度語と低頻度語の埋め込みが離れるのが良くない（低頻度語）この更新を抑えてやると良い

Slide 20

Slide 20 text

低頻度語が高頻度語の文脈から離れないようにする 2022/9/26 最先端NLP（平岡） 20 の埋め込みの更新にひと⼯夫正解の⽂脈に近づきたい⾼頻度語の⽂脈別の低頻度語の⽂脈不正解の⽂脈から離れたい（低頻度語） 𝑔 Transformer Embedding Embedding John loves John loves 同じ埋め込み層を利⽤ 𝑝 ) ≅ John loves × ⽂脈ベクトル ( John loves) 埋め込み（）⾼頻度語と低頻度語の埋め込みが離れるのが良くない⾼頻度語の⽂脈から低頻度語を離す更新にゲートgをかける提案⼿法のコアアイディア

Slide 21

Slide 21 text

言語モデルで埋め込みの良さを向上させる 2022/9/26 最先端NLP（平岡） 21 PPL （低いほど良い）埋め込みの良さ（⾼いほど互いに似てない＝良い埋め込み）普通に学習 15.51 0.377 低頻度語・⾼頻度語が離れないようにゲートを追加（提案⼿法） 15.51 0.813 ⾔語モデルタスク (WikiText-103, GPT-2 from scratch) 普通に学習したときの埋め込み低頻度語・⾼頻度語が離れないようにゲートを追加したときの埋め込み Degeneration は起きていない横に潰れる分布 (Degenerationが起きている)

Slide 22

Slide 22 text

埋め込みの良さが単語類似度・機械翻訳に好影響 2022/9/26 最先端NLP（平岡） 22 タスク：与えられた2単語の類似度がどの程度正解と似ているかを当てる。設定： WikiText-103で学習した埋め込みどうしのコサイン類似度を⽤いて評価。単語類似度機械翻訳 WMT14 En→De データセット普通の学習提案⼿法 MEN 33.57 55.13 WS353 47.51 56.54 RG65 35.48 65.45 RW 32.13 36.36 ⼿法 Transformer Base Big 普通の学習 27.30 28.40 提案⼿法 28.70 29.81

Slide 23

Slide 23 text

まとめ 2022/9/26 最先端NLP（平岡） 23 埋め込み層を出⼒層に転⽤すると埋め込み空間の性質が悪くなる (Representation Degeneration Problem) 低頻度語の埋め込みの学習が悪さの原因か（低頻度語の学習をしなければ埋め込みの性質は良くなる）低頻度語と⾼頻度語の埋め込みが離れないように更新にゲートをかけると◎