Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最先端NLP2022: Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings

tatHi
September 16, 2022

最先端NLP2022: Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings

tatHi

September 16, 2022
Tweet

More Decks by tatHi

Other Decks in Research

Transcript

  1. Rare Tokens Degenerate All Tokens:
    Improving Neural Text Generation
    via Adaptive Gradient Gating for Rare Token Embeddings
    Sangwon Yu, Jongyoon Song, Heeseung Kim,
    Seongmin Lee, Woo-Jong Ryu, Sungroh Yoon
    (ACL 2022)
    Presenter: 平岡 達也 (富⼠通)
    2022/9/26 最先端NLP(平岡) 1
    実験に関する表と図は論⽂より引⽤。
    ⼀部説明のために書き込みを⼊れているため、本資料からの孫引きはしないでください。

    View Slide

  2. 一言でいうと
    2022/9/26 最先端NLP(平岡) 2
    低頻度語の埋め込みの学習が
    埋め込み全体の性質を悪くする
    単語の出現頻度に応じて
    埋め込みの更新の度合いを調整しよう

    View Slide

  3. Representation Degeneration Problem [1]
    2022/9/26 最先端NLP(平岡) 3
    [1] Jun Gao, Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019.
    Kakapo
    Cat
    良さそうな埋め込み表現
    トークンどうしの意味関係を捉えやすい
    各埋め込みどうしの
    コサイン類似度が⼩さい
    Aysheaia

    View Slide

  4. Representation Degeneration Problem [1]
    2022/9/26 最先端NLP(平岡) 4
    [1] Jun Gao, Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019.
    Kakapo
    Cat
    Kakapo
    Cat
    良さそうな埋め込み表現 微妙な埋め込み表現
    トークンどうしの意味関係を捉えやすい
    各埋め込みどうしの
    コサイン類似度が⼩さい
    各埋め込みどうしの
    コサイン類似度が⼤きい
    トークンどうしの意味関係を捉えにくい
    Aysheaia
    Aysheaia

    View Slide

  5. Representation Degeneration Problem [1]
    2022/9/26 最先端NLP(平岡) 5
    [1] Jun Gao, Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019.
    Kakapo
    Cat
    微妙な埋め込み表現
    各埋め込みどうしの
    コサイン類似度が⼤きい
    トークンどうしの意味関係を捉えにくい
    特定条件下で微妙な埋め込み表現が
    学習されてしまう
    Aysheaia

    View Slide

  6. Representation Degeneration Problem [1]
    2022/9/26 最先端NLP(平岡) 6
    [1] Jun Gao, Di He, Xu Tan, Tao Qin, Liwei Wang, and TieYan Liu. Representation degeneration problem in training natural language generation models. ICLR 2019.
    Kakapo
    Cat
    微妙な埋め込み表現
    各埋め込みどうしの
    コサイン類似度が⼤きい
    トークンどうしの意味関係を捉えにくい
    特定条件下で微妙な埋め込み表現が
    学習されてしまう
    埋め込み層を最終層としても活⽤する場合
    (share-input-output-embed設定)
    Transformer
    Embedding
    Embedding
    John loves
    John loves
    同じ埋め込み層
    を利⽤
    Aysheaia

    View Slide

  7. 本論文の着眼点
    2022/9/26 最先端NLP(平岡) 7
    Kakapo
    Cat
    微妙な埋め込み表現
    各埋め込みどうしの
    コサイン類似度が⼤きい
    トークンどうしの意味関係を捉えにくい
    低頻度語の学習が微妙な埋め込み表現に
    繋がっているのでは?
    Aysheaia

    View Slide

  8. 低頻度語がDegenerationを引き起こしている?
    2022/9/26 最先端NLP(平岡) 8
    低頻度語の学習が微妙な埋め込み表現に
    繋がっているのでは?
    WikiText-103(⾔語モデルタスク)で試してみると…
    ⾼(30%) 中(50%) 低(20%)

    View Slide

  9. 低頻度語がDegenerationを引き起こしている?
    2022/9/26 最先端NLP(平岡) 9
    低頻度語の学習が微妙な埋め込み表現に
    繋がっているのでは?
    ⾼(30%) 中(50%) 低(20%)
    WikiText-103(⾔語モデルタスク)で試してみると…

    View Slide

  10. 低頻度語がDegenerationを引き起こしている?
    2022/9/26 最先端NLP(平岡) 10
    低頻度語の学習が微妙な埋め込み表現に
    繋がっているのでは?
    学習が進むにつれて
    低頻度語に⾼頻度語・中頻度語の
    分布が引っ張られる
    ⾼(30%) 中(50%) 低(20%)
    WikiText-103(⾔語モデルタスク)で試してみると…

    View Slide

  11. 低頻度語の埋め込みを固定するとどうなる?
    2022/9/26 最先端NLP(平岡) 11
    低頻度語に引っ張られるなら、
    低頻度語を学習しなければいいのでは?
    ⾼(30%) 中(50%) 低(20%)

    View Slide

  12. 低頻度語の埋め込みを固定して言語モデルを学習
    2022/9/26 最先端NLP(平岡) 12
    PPL
    (低いほど良い)
    埋め込みの良さ
    (⾼いほど互いに似てない=良い埋め込み)
    ⾼頻度
    30%
    中頻度
    50%
    低頻度
    20%
    全体 ⾼頻度
    30%
    中頻度
    50%
    低頻度
    20%
    全体
    普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293
    低頻度語の
    埋め込みを固定
    16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739
    ⾔語モデルタスク(WikiText-103、Transformer)
    低頻度語の埋め込みを固定すると
    PPLは変わらず、埋め込みの良さは改善
    (Table 1より作成)

    View Slide

  13. 低頻度語の埋め込みを固定して言語モデルを学習
    2022/9/26 最先端NLP(平岡) 13
    PPL
    (低いほど良い)
    埋め込みの良さ
    (⾼いほど互いに似てない=良い埋め込み)
    ⾼頻度
    30%
    中頻度
    50%
    低頻度
    20%
    全体 ⾼頻度
    30%
    中頻度
    50%
    低頻度
    20%
    全体
    普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293
    低頻度語の
    埋め込みを固定
    16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739

























    ⾼頻度語の埋め込みの良さ
    低頻度語の埋め込みの良さ
    低・⾼頻度語間の類似度
    (Table 1より作成)
    学習step
    低頻度の
    埋め込みを固定
    低頻度語の埋め込みの固定を解除すると
    埋め込みの性質が悪くなる
    ⾔語モデルタスク(WikiText-103、Transformer)

    View Slide

  14. ⾔語モデルタスク(WikiText-103、Transformer)
    低頻度語の埋め込みを固定するとどうなる?
    2022/9/26 最先端NLP(平岡) 14
    PPL
    (低いほど良い)
    埋め込みの良さ
    (⾼いほど互いに似てない=良い埋め込み)
    ⾼頻度
    30%
    中頻度
    50%
    低頻度
    20%
    全体 ⾼頻度
    30%
    中頻度
    50%
    低頻度
    20%
    全体
    普通に学習 16.58 224.24 813.76 20.77 0.426 0.286 0.198 0.293
    低頻度語の
    埋め込みを固定
    16.48 233.92 3017.53 20.78 0.840 0.651 0.831 0.739

























    ⾼頻度語の埋め込みの良さ
    低頻度語の埋め込みの良さ
    低・⾼頻度語間の類似度
    (Table 1より作成)
    学習step
    低頻度の
    埋め込みを固定
    低頻度語の埋め込みの固定を解除すると
    埋め込みの性質が悪くなる
    低頻度語の学習を
    うまいこと制御すれば、
    良い埋め込みが得られるかも…

    View Slide

  15. ここまでの話の流れ
    2022/9/26 最先端NLP(平岡) 15
    埋め込み層を出⼒層に転⽤すると埋め込み空間の性質が悪くなる
    (Representation Degeneration Problem)
    低頻度語の埋め込みの学習が悪さの原因か
    (低頻度語の学習をしなければ埋め込みの性質は良くなる)
    低頻度語の学習をうまいこと制御すれば、
    良い埋め込みが得られるかも…

    View Slide

  16. 低頻度語の埋め込みの学習
    2022/9/26 最先端NLP(平岡) 16
    Transformer
    Embedding
    Embedding
    John loves
    John loves
    同じ埋め込み層
    を利⽤
    𝑝 ) ≅
    John loves
    ×
    ⽂脈ベクトル
    ( John loves)
    埋め込み
    ( )

    View Slide

  17. 低頻度語の埋め込みの学習
    2022/9/26 最先端NLP(平岡) 17
    Transformer
    Embedding
    Embedding
    John loves
    John loves
    同じ埋め込み層
    を利⽤
    𝑝 ) ≅
    John loves
    ×
    ⽂脈ベクトル
    ( John loves)
    埋め込み
    ( )
    の埋め込みの更新に注⽬すると…
    正解の⽂脈に近づきたい
    不正解の⽂脈から離れたい
    (低頻度語)
    ⾼頻度語の⽂脈
    別の低頻度語の⽂脈

    View Slide

  18. 低頻度語の埋め込みの学習
    2022/9/26 最先端NLP(平岡) 18
    Transformer
    Embedding
    Embedding
    John loves
    John loves
    同じ埋め込み層
    を利⽤
    𝑝 ) ≅
    John loves
    ×
    ⽂脈ベクトル
    ( John loves)
    埋め込み
    ( )
    の埋め込みの更新に注⽬すると…
    正解の⽂脈に近づきたい
    ⾼頻度語の⽂脈
    別の低頻度語の⽂脈
    不正解の⽂脈から離れたい
    ⾼頻度語と低頻度語の埋め込みが
    離れるのが良くない
    (低頻度語)

    View Slide

  19. 低頻度語の埋め込みの学習
    2022/9/26 最先端NLP(平岡) 19
    Transformer
    Embedding
    Embedding
    John loves
    John loves
    同じ埋め込み層
    を利⽤
    𝑝 ) ≅
    John loves
    ×
    ⽂脈ベクトル
    ( John loves)
    埋め込み
    ( )
    の埋め込みの更新に注⽬すると…
    正解の⽂脈に近づきたい
    ⾼頻度語の⽂脈
    別の低頻度語の⽂脈
    不正解の⽂脈から離れたい
    ⾼頻度語と低頻度語の埋め込みが
    離れるのが良くない
    (低頻度語)
    この更新を
    抑えてやると良い

    View Slide

  20. 低頻度語が高頻度語の文脈から離れないようにする
    2022/9/26 最先端NLP(平岡) 20
    の埋め込みの更新にひと⼯夫
    正解の⽂脈に近づきたい
    ⾼頻度語の⽂脈
    別の低頻度語の⽂脈
    不正解の⽂脈から離れたい
    (低頻度語)
    𝑔
    Transformer
    Embedding
    Embedding
    John loves
    John loves
    同じ埋め込み層
    を利⽤
    𝑝 ) ≅
    John loves
    ×
    ⽂脈ベクトル
    ( John loves)
    埋め込み
    ( )
    ⾼頻度語と低頻度語の埋め込みが
    離れるのが良くない
    ⾼頻度語の⽂脈から
    低頻度語を離す更新に
    ゲートgをかける
    提案⼿法のコアアイディア

    View Slide

  21. 言語モデルで埋め込みの良さを向上させる
    2022/9/26 最先端NLP(平岡) 21
    PPL
    (低いほど良い)
    埋め込みの良さ
    (⾼いほど互いに似てない=良い埋め込み)
    普通に学習 15.51 0.377
    低頻度語・⾼頻度語が
    離れないようにゲートを追加
    (提案⼿法)
    15.51 0.813
    ⾔語モデルタスク (WikiText-103, GPT-2 from scratch)
    普通に学習
    したときの埋め込み
    低頻度語・⾼頻度語が離れないように
    ゲートを追加したときの埋め込み
    Degeneration
    は起きていない
    横に潰れる分布
    (Degenerationが
    起きている)

    View Slide

  22. 埋め込みの良さが単語類似度・機械翻訳に好影響
    2022/9/26 最先端NLP(平岡) 22
    タスク:
    与えられた2単語の類似度がどの程度
    正解と似ているかを当てる。
    設定:
    WikiText-103で学習した埋め込みどうしの
    コサイン類似度を⽤いて評価。
    単語類似度
    機械翻訳
    WMT14 En→De
    データセット 普通の学習 提案⼿法
    MEN 33.57 55.13
    WS353 47.51 56.54
    RG65 35.48 65.45
    RW 32.13 36.36
    ⼿法
    Transformer
    Base Big
    普通の学習 27.30 28.40
    提案⼿法 28.70 29.81

    View Slide

  23. まとめ
    2022/9/26 最先端NLP(平岡) 23
    埋め込み層を出⼒層に転⽤すると埋め込み空間の性質が悪くなる
    (Representation Degeneration Problem)
    低頻度語の埋め込みの学習が悪さの原因か
    (低頻度語の学習をしなければ埋め込みの性質は良くなる)
    低頻度語と⾼頻度語の埋め込みが離れないように
    更新にゲートをかけると◎

    View Slide