Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最先端NLP2020: Dice Loss for Data-imbalanced NLP Tasks

tatHi
September 25, 2020

最先端NLP2020: Dice Loss for Data-imbalanced NLP Tasks

Japanese presentation introducing "Dice Loss for Data-imbalanced NLP Tasks".

tatHi

September 25, 2020
Tweet

More Decks by tatHi

Other Decks in Research

Transcript

  1. Dice Loss for
    Data-imbalanced NLP Tasks
    Xiaoya Li, Xiaofei Sun, Yuxian Meng, Junjun Liang, Fei Wu,
    Jiwei Li
    (ACL2020)
    Presenter: 平岡達也(東⼯⼤岡崎研D2)
    2020/9/21 最先端NLP2020 1

    View full-size slide

  2. まとめると
    • 問題:
    • (1) NLPタスクにおけるラベルの偏りがもたらす性能低下
    • (2) easy-exampleに偏った学習を⾏うことによる性能低下
    • →これらは⼀般的に使⽤されるCross Entropy Lossでは考慮できない
    • 解決⽅策:
    • (1) Dice係数に基づくロス(Dice Loss)を導⼊し,
    ラベルの偏りを考慮した学習を⾏う.
    • (2) Focal Lossを応⽤することで,
    easy-exampleに学習が偏らない損失関数へとDice Lossを拡張
    • 結果:
    • 複数のタスクで性能向上に寄与
    • POS, NER, Reading comprehension, Paraphrase identification
    2020/9/21 最先端NLP2020 2

    View full-size slide

  3. NLPタスクにおける偏ったラベル⽐
    • POS
    • ほとんどがNOUN
    • NER
    • ほとんどがOタグ
    • Sentiment
    • ほとんどがpositive
    2020/9/21 最先端NLP2020 3

    View full-size slide

  4. 偏ったラベル⽐が引き起こす⼆つの問題
    1. 学習と評価の乖離
    • 学習時は各サンプルをCross Entropy Lossで学習するため,サンプル
    数の多いラベルに予測が傾く.
    • 評価ではF1値を⽤いるため,偏った予測に対するペナルティがある.
    2. Easy negative exampleを重点的に学習
    • 特定のラベルに偏ったデータではeasy-exampleが多くなる
    • 偏ったラベルの中の特に簡単なサンプルを重点的に学習してしまう
    2020/9/21 最先端NLP2020 4

    View full-size slide

  5. 偏ったラベル⽐が引き起こす⼆つの問題
    1. 学習と評価の乖離
    • 学習時は各サンプルをCross Entropy Lossで学習するため,サンプル
    数の多いラベルに予測が傾く.
    • 評価ではF1値を⽤いるため,偏った予測に対するペナルティがある.
    • →(1) F1 scoreに関係する損失(Dice loss)で学習する
    2. Easy negative exampleを重点的に学習
    • 特定のラベルに偏ったデータではeasy-exampleが多くなる
    • 偏ったラベルの中の特に簡単なサンプルを重点的に学習してしまう
    • →(2) ⾃信を持って正解できる事例の損失に重みをつける
    (Focal lossに由来)
    2020/9/21 最先端NLP2020 5

    View full-size slide

  6. (1) Dice Loss [1/3]
    • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める
    • ⽅法:F1 scoreに基づいた損失を設計
    • Dice Similarity Coefficient (DSC)
    • ※⼆値分類の場合
    A: モデルが正と予測した
    事例の集合
    B: 実際の正例の集合
    と考えると
    2020/9/21 最先端NLP2020 6

    View full-size slide

  7. (1) Dice Loss [2/3]
    • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める
    • ⽅法:F1 scoreに基づいた損失を設計
    • Dice Similarity Coefficient (DSC)
    • ※⼆値分類の場合
    A: モデルが正と予測した
    事例の集合
    B: 実際の正例の集合
    と考えると
    A B
    AとBが完全に重なるときに
    (, )が最⼤
    →負例に偏った予測をしていると
    ペナルティがある
    2020/9/21 最先端NLP2020 7

    View full-size slide

  8. (1) Dice Loss [3/3]
    • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める
    • ⽅法:F1 scoreに基づいた損失を設計
    • Dice Loss (DL)
    事例!
    が正例ラベル1である予測確率
    事例!
    が正例である時に1,その他で0
    ⼀つの事例!
    についてのDSC データ全体でのDice Loss
    (!
    )をデータ全体で計算.
    !"
    # , !"
    # は学習が早くなるテクニック
    2020/9/21 最先端NLP2020 8

    View full-size slide

  9. (2) Self-adjusting Dice Loss [1/2]
    • 問題:easy-exampleに学習が偏る
    • 現象:
    • ⼆値分類の場合,正負のラベルを予測するためにはラベルの予測確率
    が0.5より少しでも⼤きいか・⼩さければ良い.
    • Easy-example(例えばeasy-negative)が多い場合,予測確率が0に
    なるようにどんどん学習されてしまう
    • 例えば正例確率が0.1で⼗分に分類できているにもかかわらず,0.0に確率を近
    づけるような損失が働く
    • →0.5付近の予測が0側に引っ張られてしまい,識別が難しくなる
    • (hard-negative, positiveの分類が難しくなる)
    • Easy-exampleはラベルが⼤きく偏っている場合に発⽣する
    2020/9/21 最先端NLP2020 9

    View full-size slide

  10. (2) Self-adjusting Dice Loss [2/2]
    • ⽬的:easy-exampleに学習が偏ることを防ぐ
    • ⽅法:モデルの予測確率でロスに重みをつけ,
    ⾃信を持って予測できる事例の損失を下げる
    • 正例に対して,最低限の
    !"
    = 0.5を予測できるようする
    2020/9/21 最先端NLP2020 10
    DL
    DSC

    View full-size slide

  11. Experiments (POS)
    • 中国語のPOSタグ付データセット
    • 他にもNER・読解・分類タスクで性能向上を確認
    2020/9/25 最先端NLP2020 11

    View full-size slide

  12. vs. Data augmentation
    • Paraphrase identification dataset QQP (⼆値分類)
    • データ拡張・縮⼩を⾏ったデータセットで実験
    • ラベルが均等になるようなデータ拡張を⾏わなくとも,
    DSCだけでそこそこの性能向上が得られる
    訓練事例数 363,871 458,477 458,477 269,165 458,477(?)
    pos/neg⽐ 37% 63% 50% 50% 21% 79% 50% 50% 50% 50%
    2020/9/21 最先端NLP2020 12

    View full-size slide

  13. まとめ
    • ラベルが偏ったデータを学習するためにDiceLossを提案
    • 評価で使⽤されるF1 scoreと同様の⽬的関数によりギャップを無くす
    • Focal Lossを応⽤し,easy-exampleの影響を減らす
    • POSタグ付,NERなどの多値分類タスクで性能向上
    • Data Augmentationせずとも,ラベルの偏りの影響を軽減した
    学習が可能
    • Generationタスクに応⽤できるか?
    • ラベル数(語彙)が⼤きすぎて難しい?
    2020/9/21 最先端NLP2020 13

    View full-size slide