Japanese presentation introducing "Dice Loss for Data-imbalanced NLP Tasks".
Dice Loss forData-imbalanced NLP TasksXiaoya Li, Xiaofei Sun, Yuxian Meng, Junjun Liang, Fei Wu,Jiwei Li(ACL2020)Presenter: 平岡達也(東⼯⼤岡崎研D2)2020/9/21 最先端NLP2020 1
View Slide
まとめると• 問題:• (1) NLPタスクにおけるラベルの偏りがもたらす性能低下• (2) easy-exampleに偏った学習を⾏うことによる性能低下• →これらは⼀般的に使⽤されるCross Entropy Lossでは考慮できない• 解決⽅策:• (1) Dice係数に基づくロス(Dice Loss)を導⼊し,ラベルの偏りを考慮した学習を⾏う.• (2) Focal Lossを応⽤することで,easy-exampleに学習が偏らない損失関数へとDice Lossを拡張• 結果:• 複数のタスクで性能向上に寄与• POS, NER, Reading comprehension, Paraphrase identification2020/9/21 最先端NLP2020 2
NLPタスクにおける偏ったラベル⽐• POS• ほとんどがNOUN• NER• ほとんどがOタグ• Sentiment• ほとんどがpositive2020/9/21 最先端NLP2020 3
偏ったラベル⽐が引き起こす⼆つの問題1. 学習と評価の乖離• 学習時は各サンプルをCross Entropy Lossで学習するため,サンプル数の多いラベルに予測が傾く.• 評価ではF1値を⽤いるため,偏った予測に対するペナルティがある.2. Easy negative exampleを重点的に学習• 特定のラベルに偏ったデータではeasy-exampleが多くなる• 偏ったラベルの中の特に簡単なサンプルを重点的に学習してしまう2020/9/21 最先端NLP2020 4
偏ったラベル⽐が引き起こす⼆つの問題1. 学習と評価の乖離• 学習時は各サンプルをCross Entropy Lossで学習するため,サンプル数の多いラベルに予測が傾く.• 評価ではF1値を⽤いるため,偏った予測に対するペナルティがある.• →(1) F1 scoreに関係する損失(Dice loss)で学習する2. Easy negative exampleを重点的に学習• 特定のラベルに偏ったデータではeasy-exampleが多くなる• 偏ったラベルの中の特に簡単なサンプルを重点的に学習してしまう• →(2) ⾃信を持って正解できる事例の損失に重みをつける(Focal lossに由来)2020/9/21 最先端NLP2020 5
(1) Dice Loss [1/3]• ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める• ⽅法:F1 scoreに基づいた損失を設計• Dice Similarity Coefficient (DSC)• ※⼆値分類の場合A: モデルが正と予測した事例の集合B: 実際の正例の集合と考えると2020/9/21 最先端NLP2020 6
(1) Dice Loss [2/3]• ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める• ⽅法:F1 scoreに基づいた損失を設計• Dice Similarity Coefficient (DSC)• ※⼆値分類の場合A: モデルが正と予測した事例の集合B: 実際の正例の集合と考えるとA BAとBが完全に重なるときに(, )が最⼤→負例に偏った予測をしているとペナルティがある2020/9/21 最先端NLP2020 7
(1) Dice Loss [3/3]• ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める• ⽅法:F1 scoreに基づいた損失を設計• Dice Loss (DL)事例!が正例ラベル1である予測確率事例!が正例である時に1,その他で0⼀つの事例!についてのDSC データ全体でのDice Loss(!)をデータ全体で計算.!"# , !"# は学習が早くなるテクニック2020/9/21 最先端NLP2020 8
(2) Self-adjusting Dice Loss [1/2]• 問題:easy-exampleに学習が偏る• 現象:• ⼆値分類の場合,正負のラベルを予測するためにはラベルの予測確率が0.5より少しでも⼤きいか・⼩さければ良い.• Easy-example(例えばeasy-negative)が多い場合,予測確率が0になるようにどんどん学習されてしまう• 例えば正例確率が0.1で⼗分に分類できているにもかかわらず,0.0に確率を近づけるような損失が働く• →0.5付近の予測が0側に引っ張られてしまい,識別が難しくなる• (hard-negative, positiveの分類が難しくなる)• Easy-exampleはラベルが⼤きく偏っている場合に発⽣する2020/9/21 最先端NLP2020 9
(2) Self-adjusting Dice Loss [2/2]• ⽬的:easy-exampleに学習が偏ることを防ぐ• ⽅法:モデルの予測確率でロスに重みをつけ,⾃信を持って予測できる事例の損失を下げる• 正例に対して,最低限の!"= 0.5を予測できるようする2020/9/21 最先端NLP2020 10DLDSC
Experiments (POS)• 中国語のPOSタグ付データセット• 他にもNER・読解・分類タスクで性能向上を確認2020/9/25 最先端NLP2020 11
vs. Data augmentation• Paraphrase identification dataset QQP (⼆値分類)• データ拡張・縮⼩を⾏ったデータセットで実験• ラベルが均等になるようなデータ拡張を⾏わなくとも,DSCだけでそこそこの性能向上が得られる訓練事例数 363,871 458,477 458,477 269,165 458,477(?)pos/neg⽐ 37% 63% 50% 50% 21% 79% 50% 50% 50% 50%2020/9/21 最先端NLP2020 12
まとめ• ラベルが偏ったデータを学習するためにDiceLossを提案• 評価で使⽤されるF1 scoreと同様の⽬的関数によりギャップを無くす• Focal Lossを応⽤し,easy-exampleの影響を減らす• POSタグ付,NERなどの多値分類タスクで性能向上• Data Augmentationせずとも,ラベルの偏りの影響を軽減した学習が可能• Generationタスクに応⽤できるか?• ラベル数(語彙)が⼤きすぎて難しい?2020/9/21 最先端NLP2020 13