Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_201911_EDA: Easy Data Augmentation Techniq...
Search
T.Tada
November 28, 2019
Technology
0
210
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
T.Tada
November 28, 2019
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
59
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
150
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
160
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
150
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
63
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
95
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
94
文献紹介201905_Context-Aware Cross-Lingual Mapping
tad
0
94
Other Decks in Technology
See All in Technology
United airlines®️ USA Contact Numbers: Complete 2025 Support Guide
unitedflyhelp
0
340
CDK Toolkit Libraryにおけるテストの考え方
smt7174
1
450
Rethinking Incident Response: Context-Aware AI in Practice
rrreeeyyy
1
390
ポストコロナ時代の SaaS におけるコスト削減の意義
izzii
1
260
american aa airlines®️ USA Contact Numbers: Complete 2025 Support Guide
aaguide
0
500
データ基盤からデータベースまで?広がるユースケースのDatabricksについて教えるよ!
akuwano
3
160
SREの次のキャリアの道しるべ 〜SREがマネジメントレイヤーに挑戦して、 気づいたこととTips〜
coconala_engineer
1
1k
【あのMCPって、どんな処理してるの?】 AWS CDKでの開発で便利なAWS MCP Servers特集
yoshimi0227
6
730
推し書籍📚 / Books and a QA Engineer
ak1210
0
120
How to Quickly Call American Airlines®️ U.S. Customer Care : Full Guide
flyaahelpguide
0
240
「クラウドコスト絶対削減」を支える技術—FinOpsを超えた徹底的なクラウドコスト削減の実践論
delta_tech
4
190
VGGT: Visual Geometry Grounded Transformer
peisuke
1
620
Featured
See All Featured
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Making the Leap to Tech Lead
cromwellryan
134
9.4k
Art, The Web, and Tiny UX
lynnandtonic
299
21k
We Have a Design System, Now What?
morganepeng
53
7.7k
Fireside Chat
paigeccino
37
3.5k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Visualization
eitanlees
146
16k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
How to Ace a Technical Interview
jacobian
278
23k
Side Projects
sachag
455
42k
How GitHub (no longer) Works
holman
314
140k
Testing 201, or: Great Expectations
jmmastey
43
7.6k
Transcript
- 文献紹介 2019 Nov. 28 - EDA: Easy Data Augmentation
Techniques for Boosting Performance on Text Classification Tasks 長岡技術科学大学 自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference:
Abstract ・EDA: Easy Data Augmentation を提案 ・文に4種類の編集を行ないデータを拡張 ・ローリソース(データセットが小規模)なタスクに対して強力 ・トレーニングセット100%使用時の精度を50%のデータ+EDAで達成 3
Introduction ・テキスト分類の精度は、トレーニングデータのサイズと質に依存している ・データの拡張により、より堅牢なモデルを得られる ・折り返し翻訳、ノイズを加える、言語モデルを使った同義語置換などがある →有効だがコストが高い ・シンプルかつ言語を問わないデータ拡張を提案 4
EDA 5 トレーニングデータの特定の文に以下4つのいずれかの操作をランダムに実施 ・Synonym Replacement (SR): 文からn単語(ストップワードでない)をランダムで選択 各単語をランダムに選ばれた同義語と置き換え ・Random Insertion
(RI): 文中のランダムな単語(ストップワードでない)のランダムな同義語を取得 文のランダムな位置に挿入 この作業をn回行なう これは先行研究でやってる
EDA 6 トレーニングデータの特定の文に以下4つのいずれかの操作をランダムに実施 ・Random Swap (RS): 文からランダムに2単語を選択し入れ替え この作業をn回行なう ・Random Deletion
(RD): 確率pで文の各単語を削除(pの値は後述)
EDA 7 長い文は多くのノイズを含む可能性がある バランスをとるため変更する単語数nを定める α:文内の変更する単語の割合を示すパラメータ(RDのp=a) l :文の長さ n = αl
EDA 8
Experimental Setup 9 5つのテキスト分類のベンチマークタスクで実験 EDAは小規模なデータセットでより役立つと想定される →トレーニングデータの量を変更し実験(LSTMとCNNを使用)
Results -EDA Makes Gains- 10 トレーニングデータを変更し実験 ・full set →平均0.8ポイント向上 ・500
→平均3.0ポイント向上
Results -Training Set Sizing- 11
Results -Training Set Sizing- 12 小規模なトレーニングデータで大幅に精度向上
Results -Training Set Sizing- 13 50%のトレーニングデータ + EDAの精度で、 トレーニングデータを全て使用した場合の精度を達成
Results -Does EDA conserve true labels?- 14 操作をして拡張した文の分類クラスは変わらない? ・データの拡張をしない状態のPCタスク(2値)でLSTMをトレーニング ・EDAでテストデータの各文に対し、9つ拡張文を生成し実験
Results -Does EDA conserve true labels?- 15 ほとんど場合で拡張された文が元のラベルと同じ
Results -Ablation Study: EDA Decomposed- 16 それぞれの文操作の効果を確認
Results -Ablation Study: EDA Decomposed- 17 それぞれの文操作の効果を確認 どの操作も小規模なデータセットで効果大、α = 0.1
がいい感じ
Results -How much augmentation?- 18 どのくらい文を増やすべきか
Results -How much augmentation?- 19 どのくらい文を増やすべきか このくらいが良いらしい
Comparison with Related Work 20 EDAは言語モデルも外部データも必要としない
Discussion and Limitations 21 EDAの限界 ・データの量が十分な場合に精度の向上はわずか ・pre-train モデルを使用する場合、大幅な貢献はもたらさない しかし、NNモデルを大きく複雑にしていく高コストな手法は避けたい
Conclusions 22 ・シンプルかつ低コストなデータ拡張手法を提案 ・5つの分類タスクで精度向上 ・小規模なトレーニングセットでは精度の貢献も大きく、過学習を避けられる