Slide 1

Slide 1 text

Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings Sangwon Yu, Jongyoon Song, Heeseung Kim, Seongmin Lee, Woo-Jong Ryu, Sungroh Yoon (ACL 2022) Presenter: 平岡 達也 (富⼠通) 2022/9/26 最先端NLP(平岡) 1 実験に関する表と図は論⽂より引⽤。 ⼀部説明のために書き込みを⼊れているため、本資料からの孫引きはしないでください。

Slide 2

Slide 2 text

一言でいうと 2022/9/26 最先端NLP(平岡) 2 低頻度語の埋め込みの学習が 埋め込み全体の性質を悪くする 単語の出現頻度に応じて 埋め込みの更新の度合いを調整しよう

Slide 3

Slide 3 text

Representation Degeneration Problem [1] 2022/9/26 最先端NLP(平岡) 3 [1] Jun Gao, Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat 良さそうな埋め込み表現 トークンどうしの意味関係を捉えやすい 各埋め込みどうしの コサイン類似度が⼩さい Aysheaia

Slide 4

Slide 4 text

Representation Degeneration Problem [1] 2022/9/26 最先端NLP(平岡) 4 [1] Jun Gao, Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat Kakapo Cat 良さそうな埋め込み表現 微妙な埋め込み表現 トークンどうしの意味関係を捉えやすい 各埋め込みどうしの コサイン類似度が⼩さい 各埋め込みどうしの コサイン類似度が⼤きい トークンどうしの意味関係を捉えにくい Aysheaia Aysheaia

Slide 5

Slide 5 text

Representation Degeneration Problem [1] 2022/9/26 最先端NLP(平岡) 5 [1] Jun Gao, Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat 微妙な埋め込み表現 各埋め込みどうしの コサイン類似度が⼤きい トークンどうしの意味関係を捉えにくい 特定条件下で微妙な埋め込み表現が 学習されてしまう Aysheaia

Slide 6

Slide 6 text

Representation Degeneration Problem [1] 2022/9/26 最先端NLP(平岡) 6 [1] Jun Gao, Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019. Kakapo Cat 微妙な埋め込み表現 各埋め込みどうしの コサイン類似度が⼤きい トークンどうしの意味関係を捉えにくい 特定条件下で微妙な埋め込み表現が 学習されてしまう 埋め込み層を最終層としても活⽤する場合 (share-input-output-embed設定) Transformer Embedding Embedding John loves John loves 同じ埋め込み層 を利⽤ Aysheaia

Slide 7

Slide 7 text

本論文の着眼点 2022/9/26 最先端NLP(平岡) 7 Kakapo Cat 微妙な埋め込み表現 各埋め込みどうしの コサイン類似度が⼤きい トークンどうしの意味関係を捉えにくい 低頻度語の学習が微妙な埋め込み表現に 繋がっているのでは? Aysheaia

Slide 8

Slide 8 text

低頻度語がDegenerationを引き起こしている? 2022/9/26 最先端NLP(平岡) 8 低頻度語の学習が微妙な埋め込み表現に 繋がっているのでは? WikiText-103(⾔語モデルタスク)で試してみると… ⾼(30%) 中(50%) 低(20%)

Slide 9

Slide 9 text

低頻度語がDegenerationを引き起こしている? 2022/9/26 最先端NLP(平岡) 9 低頻度語の学習が微妙な埋め込み表現に 繋がっているのでは? ⾼(30%) 中(50%) 低(20%) WikiText-103(⾔語モデルタスク)で試してみると…

Slide 10

Slide 10 text

低頻度語がDegenerationを引き起こしている? 2022/9/26 最先端NLP(平岡) 10 低頻度語の学習が微妙な埋め込み表現に 繋がっているのでは? 学習が進むにつれて 低頻度語に⾼頻度語・中頻度語の 分布が引っ張られる ⾼(30%) 中(50%) 低(20%) WikiText-103(⾔語モデルタスク)で試してみると…

Slide 11

Slide 11 text

低頻度語の埋め込みを固定するとどうなる? 2022/9/26 最先端NLP(平岡) 11 低頻度語に引っ張られるなら、 低頻度語を学習しなければいいのでは? ⾼(30%) 中(50%) 低(20%)

Slide 12

Slide 12 text

低頻度語の埋め込みを固定して言語モデルを学習 2022/9/26 最先端NLP(平岡) 12 PPL (低いほど良い) 埋め込みの良さ (⾼いほど互いに似てない=良い埋め込み) ⾼頻度 30% 中頻度 50% 低頻度 20% 全体 ⾼頻度 30% 中頻度 50% 低頻度 20% 全体 普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293 低頻度語の 埋め込みを固定 16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739 ⾔語モデルタスク(WikiText-103、Transformer) 低頻度語の埋め込みを固定すると PPLは変わらず、埋め込みの良さは改善 (Table 1より作成)

Slide 13

Slide 13 text

低頻度語の埋め込みを固定して言語モデルを学習 2022/9/26 最先端NLP(平岡) 13 PPL (低いほど良い) 埋め込みの良さ (⾼いほど互いに似てない=良い埋め込み) ⾼頻度 30% 中頻度 50% 低頻度 20% 全体 ⾼頻度 30% 中頻度 50% 低頻度 20% 全体 普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293 低頻度語の 埋め込みを固定 16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739 埋 め 込 み の 良 さ ⾼ 頻 度 語 ・ 低 頻 度 語 間 の コ サ イ ン 類 似 度 ⾼頻度語の埋め込みの良さ 低頻度語の埋め込みの良さ 低・⾼頻度語間の類似度 (Table 1より作成) 学習step 低頻度の 埋め込みを固定 低頻度語の埋め込みの固定を解除すると 埋め込みの性質が悪くなる ⾔語モデルタスク(WikiText-103、Transformer)

Slide 14

Slide 14 text

⾔語モデルタスク(WikiText-103、Transformer) 低頻度語の埋め込みを固定するとどうなる? 2022/9/26 最先端NLP(平岡) 14 PPL (低いほど良い) 埋め込みの良さ (⾼いほど互いに似てない=良い埋め込み) ⾼頻度 30% 中頻度 50% 低頻度 20% 全体 ⾼頻度 30% 中頻度 50% 低頻度 20% 全体 普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293 低頻度語の 埋め込みを固定 16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739 埋 め 込 み の 良 さ ⾼ 頻 度 語 ・ 低 頻 度 語 間 の コ サ イ ン 類 似 度 ⾼頻度語の埋め込みの良さ 低頻度語の埋め込みの良さ 低・⾼頻度語間の類似度 (Table 1より作成) 学習step 低頻度の 埋め込みを固定 低頻度語の埋め込みの固定を解除すると 埋め込みの性質が悪くなる 低頻度語の学習を うまいこと制御すれば、 良い埋め込みが得られるかも…

Slide 15

Slide 15 text

ここまでの話の流れ 2022/9/26 最先端NLP(平岡) 15 埋め込み層を出⼒層に転⽤すると埋め込み空間の性質が悪くなる (Representation Degeneration Problem) 低頻度語の埋め込みの学習が悪さの原因か (低頻度語の学習をしなければ埋め込みの性質は良くなる) 低頻度語の学習をうまいこと制御すれば、 良い埋め込みが得られるかも…

Slide 16

Slide 16 text

低頻度語の埋め込みの学習 2022/9/26 最先端NLP(平岡) 16 Transformer Embedding Embedding John loves John loves 同じ埋め込み層 を利⽤ 𝑝 ) ≅ John loves × ⽂脈ベクトル ( John loves) 埋め込み ( )

Slide 17

Slide 17 text

低頻度語の埋め込みの学習 2022/9/26 最先端NLP(平岡) 17 Transformer Embedding Embedding John loves John loves 同じ埋め込み層 を利⽤ 𝑝 ) ≅ John loves × ⽂脈ベクトル ( John loves) 埋め込み ( ) の埋め込みの更新に注⽬すると… 正解の⽂脈に近づきたい 不正解の⽂脈から離れたい (低頻度語) ⾼頻度語の⽂脈 別の低頻度語の⽂脈

Slide 18

Slide 18 text

低頻度語の埋め込みの学習 2022/9/26 最先端NLP(平岡) 18 Transformer Embedding Embedding John loves John loves 同じ埋め込み層 を利⽤ 𝑝 ) ≅ John loves × ⽂脈ベクトル ( John loves) 埋め込み ( ) の埋め込みの更新に注⽬すると… 正解の⽂脈に近づきたい ⾼頻度語の⽂脈 別の低頻度語の⽂脈 不正解の⽂脈から離れたい ⾼頻度語と低頻度語の埋め込みが 離れるのが良くない (低頻度語)

Slide 19

Slide 19 text

低頻度語の埋め込みの学習 2022/9/26 最先端NLP(平岡) 19 Transformer Embedding Embedding John loves John loves 同じ埋め込み層 を利⽤ 𝑝 ) ≅ John loves × ⽂脈ベクトル ( John loves) 埋め込み ( ) の埋め込みの更新に注⽬すると… 正解の⽂脈に近づきたい ⾼頻度語の⽂脈 別の低頻度語の⽂脈 不正解の⽂脈から離れたい ⾼頻度語と低頻度語の埋め込みが 離れるのが良くない (低頻度語) この更新を 抑えてやると良い

Slide 20

Slide 20 text

低頻度語が高頻度語の文脈から離れないようにする 2022/9/26 最先端NLP(平岡) 20 の埋め込みの更新にひと⼯夫 正解の⽂脈に近づきたい ⾼頻度語の⽂脈 別の低頻度語の⽂脈 不正解の⽂脈から離れたい (低頻度語) 𝑔 Transformer Embedding Embedding John loves John loves 同じ埋め込み層 を利⽤ 𝑝 ) ≅ John loves × ⽂脈ベクトル ( John loves) 埋め込み ( ) ⾼頻度語と低頻度語の埋め込みが 離れるのが良くない ⾼頻度語の⽂脈から 低頻度語を離す更新に ゲートgをかける 提案⼿法のコアアイディア

Slide 21

Slide 21 text

言語モデルで埋め込みの良さを向上させる 2022/9/26 最先端NLP(平岡) 21 PPL (低いほど良い) 埋め込みの良さ (⾼いほど互いに似てない=良い埋め込み) 普通に学習 15.51 0.377 低頻度語・⾼頻度語が 離れないようにゲートを追加 (提案⼿法) 15.51 0.813 ⾔語モデルタスク (WikiText-103, GPT-2 from scratch) 普通に学習 したときの埋め込み 低頻度語・⾼頻度語が離れないように ゲートを追加したときの埋め込み Degeneration は起きていない 横に潰れる分布 (Degenerationが 起きている)

Slide 22

Slide 22 text

埋め込みの良さが単語類似度・機械翻訳に好影響 2022/9/26 最先端NLP(平岡) 22 タスク: 与えられた2単語の類似度がどの程度 正解と似ているかを当てる。 設定: WikiText-103で学習した埋め込みどうしの コサイン類似度を⽤いて評価。 単語類似度 機械翻訳 WMT14 En→De データセット 普通の学習 提案⼿法 MEN 33.57 55.13 WS353 47.51 56.54 RG65 35.48 65.45 RW 32.13 36.36 ⼿法 Transformer Base Big 普通の学習 27.30 28.40 提案⼿法 28.70 29.81

Slide 23

Slide 23 text

まとめ 2022/9/26 最先端NLP(平岡) 23 埋め込み層を出⼒層に転⽤すると埋め込み空間の性質が悪くなる (Representation Degeneration Problem) 低頻度語の埋め込みの学習が悪さの原因か (低頻度語の学習をしなければ埋め込みの性質は良くなる) 低頻度語と⾼頻度語の埋め込みが離れないように 更新にゲートをかけると◎