Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
最先端NLP2020: Dice Loss for Data-imbalanced NLP ...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tatHi
September 25, 2020
Research
2k
0
Share
最先端NLP2020: Dice Loss for Data-imbalanced NLP Tasks
Japanese presentation introducing "Dice Loss for Data-imbalanced NLP Tasks".
tatHi
September 25, 2020
More Decks by tatHi
See All by tatHi
SNLP2023: From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding
tathi
0
520
最長一致法のためのサブワード正則化手法(MaxMatch-Dropout)とその周辺の話
tathi
1
720
最先端NLP2022: Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings
tathi
1
730
テキストベクトルの重み付けを用いたタスクに対する単語分割の最適化
tathi
1
1k
要点を聞いてもらえるプレゼンを作ろう
tathi
14
7k
Task-Oriented Word Segmentation (Presentation for Doctoral Dissertation)
tathi
3
680
論文紹介: Fast WordPiece Tokenization
tathi
0
630
最先端NLP2021: How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models
tathi
0
730
文系的な興味を理系的な達成目標に変換する
tathi
7
4.8k
Other Decks in Research
See All in Research
SoftMatcha 2: 1兆語規模コーパスの超高速かつ柔らかい検索
e869120_sub
6
3.4k
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
shunk031
4
970
NLP colloquium: AI Safety Survey
kanekomasahiro
0
490
「車1割削減、渋滞半減、公共交通2倍」を 熊本から岡山へ@RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
1
1.1k
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
7
4.5k
YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
satai
3
760
「AIとWhyを深堀る」をAIと深堀る
iflection
0
440
はじまりの クエスチョンブック —余暇と豊かさにあふれた社会とは?
culturaltransition
PRO
0
470
ペットのかわいい瞬間を撮影する オートシャッターAIアプリへの スマートラベリングの適用
mssmkmr
0
500
R&Dチームを起ち上げる
shibuiwilliam
1
260
Scalable dynamic origin-destination demand estimation enhanced by high-resolution satellite imagery data
satai
2
230
LLM の Attention 機構まとめ — 数式・計算量・メモリ
puwaer
7
2k
Featured
See All Featured
Making Projects Easy
brettharned
120
6.7k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
570
How to train your dragon (web standard)
notwaldorf
97
6.6k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
160
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
160
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
120
The SEO identity crisis: Don't let AI make you average
varn
0
480
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.2k
Six Lessons from altMBA
skipperchong
29
4.3k
Writing Fast Ruby
sferik
630
63k
Mobile First: as difficult as doing things right
swwweet
225
10k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
Transcript
Dice Loss for Data-imbalanced NLP Tasks Xiaoya Li, Xiaofei Sun,
Yuxian Meng, Junjun Liang, Fei Wu, Jiwei Li (ACL2020) Presenter: 平岡達也(東⼯⼤岡崎研D2) 2020/9/21 最先端NLP2020 1
まとめると • 問題: • (1) NLPタスクにおけるラベルの偏りがもたらす性能低下 • (2) easy-exampleに偏った学習を⾏うことによる性能低下 •
→これらは⼀般的に使⽤されるCross Entropy Lossでは考慮できない • 解決⽅策: • (1) Dice係数に基づくロス(Dice Loss)を導⼊し, ラベルの偏りを考慮した学習を⾏う. • (2) Focal Lossを応⽤することで, easy-exampleに学習が偏らない損失関数へとDice Lossを拡張 • 結果: • 複数のタスクで性能向上に寄与 • POS, NER, Reading comprehension, Paraphrase identification 2020/9/21 最先端NLP2020 2
NLPタスクにおける偏ったラベル⽐ • POS • ほとんどがNOUN • NER • ほとんどがOタグ •
Sentiment • ほとんどがpositive 2020/9/21 最先端NLP2020 3
偏ったラベル⽐が引き起こす⼆つの問題 1. 学習と評価の乖離 • 学習時は各サンプルをCross Entropy Lossで学習するため,サンプル 数の多いラベルに予測が傾く. • 評価ではF1値を⽤いるため,偏った予測に対するペナルティがある.
2. Easy negative exampleを重点的に学習 • 特定のラベルに偏ったデータではeasy-exampleが多くなる • 偏ったラベルの中の特に簡単なサンプルを重点的に学習してしまう 2020/9/21 最先端NLP2020 4
偏ったラベル⽐が引き起こす⼆つの問題 1. 学習と評価の乖離 • 学習時は各サンプルをCross Entropy Lossで学習するため,サンプル 数の多いラベルに予測が傾く. • 評価ではF1値を⽤いるため,偏った予測に対するペナルティがある.
• →(1) F1 scoreに関係する損失(Dice loss)で学習する 2. Easy negative exampleを重点的に学習 • 特定のラベルに偏ったデータではeasy-exampleが多くなる • 偏ったラベルの中の特に簡単なサンプルを重点的に学習してしまう • →(2) ⾃信を持って正解できる事例の損失に重みをつける (Focal lossに由来) 2020/9/21 最先端NLP2020 5
(1) Dice Loss [1/3] • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める • ⽅法:F1 scoreに基づいた損失を設計
• Dice Similarity Coefficient (DSC) • ※⼆値分類の場合 A: モデルが正と予測した 事例の集合 B: 実際の正例の集合 と考えると 2020/9/21 最先端NLP2020 6
(1) Dice Loss [2/3] • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める • ⽅法:F1 scoreに基づいた損失を設計
• Dice Similarity Coefficient (DSC) • ※⼆値分類の場合 A: モデルが正と予測した 事例の集合 B: 実際の正例の集合 と考えると A B AとBが完全に重なるときに (, )が最⼤ →負例に偏った予測をしていると ペナルティがある 2020/9/21 最先端NLP2020 7
(1) Dice Loss [3/3] • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める • ⽅法:F1 scoreに基づいた損失を設計
• Dice Loss (DL) 事例! が正例ラベル1である予測確率 事例! が正例である時に1,その他で0 ⼀つの事例! についてのDSC データ全体でのDice Loss (! )をデータ全体で計算. !" # , !" # は学習が早くなるテクニック 2020/9/21 最先端NLP2020 8
(2) Self-adjusting Dice Loss [1/2] • 問題:easy-exampleに学習が偏る • 現象: •
⼆値分類の場合,正負のラベルを予測するためにはラベルの予測確率 が0.5より少しでも⼤きいか・⼩さければ良い. • Easy-example(例えばeasy-negative)が多い場合,予測確率が0に なるようにどんどん学習されてしまう • 例えば正例確率が0.1で⼗分に分類できているにもかかわらず,0.0に確率を近 づけるような損失が働く • →0.5付近の予測が0側に引っ張られてしまい,識別が難しくなる • (hard-negative, positiveの分類が難しくなる) • Easy-exampleはラベルが⼤きく偏っている場合に発⽣する 2020/9/21 最先端NLP2020 9
(2) Self-adjusting Dice Loss [2/2] • ⽬的:easy-exampleに学習が偏ることを防ぐ • ⽅法:モデルの予測確率でロスに重みをつけ, ⾃信を持って予測できる事例の損失を下げる
• 正例に対して,最低限の !" = 0.5を予測できるようする 2020/9/21 最先端NLP2020 10 DL DSC
Experiments (POS) • 中国語のPOSタグ付データセット • 他にもNER・読解・分類タスクで性能向上を確認 2020/9/25 最先端NLP2020 11
vs. Data augmentation • Paraphrase identification dataset QQP (⼆値分類) •
データ拡張・縮⼩を⾏ったデータセットで実験 • ラベルが均等になるようなデータ拡張を⾏わなくとも, DSCだけでそこそこの性能向上が得られる 訓練事例数 363,871 458,477 458,477 269,165 458,477(?) pos/neg⽐ 37% 63% 50% 50% 21% 79% 50% 50% 50% 50% 2020/9/21 最先端NLP2020 12
まとめ • ラベルが偏ったデータを学習するためにDiceLossを提案 • 評価で使⽤されるF1 scoreと同様の⽬的関数によりギャップを無くす • Focal Lossを応⽤し,easy-exampleの影響を減らす •
POSタグ付,NERなどの多値分類タスクで性能向上 • Data Augmentationせずとも,ラベルの偏りの影響を軽減した 学習が可能 • Generationタスクに応⽤できるか? • ラベル数(語彙)が⼤きすぎて難しい? 2020/9/21 最先端NLP2020 13