Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_201911_EDA: Easy Data Augmentation Techniq...
Search
T.Tada
November 28, 2019
Technology
230
0
Share
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
T.Tada
November 28, 2019
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
72
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
190
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
180
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
110
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
170
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
73
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
110
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
110
文献紹介201905_Context-Aware Cross-Lingual Mapping
tad
0
110
Other Decks in Technology
See All in Technology
もりもり新機能を一挙紹介! AgentCoreに入門して、AWS上にAIエージェントを構築しよう
minorun365
PRO
6
750
Oracle Cloud Infrastructure IaaS 新機能アップデート 2026/3 - 2026/5
oracle4engineer
PRO
1
180
Ruby::Boxでできること、Refinementsでできること
joker1007
3
380
AI駆動開発が変える、大規模開発の前提 ーHuman in the Loop から Human on the Loop へ / AIE2026
visional_engineering_and_design
5
3.5k
Strands Agents超入門
kintotechdev
1
160
サプライチェーンセキュリティの空白地帯 - 信頼できる”依存性”の未来を考える
rung
PRO
2
680
Diagnosing performance problems without the guesswork
elenatanasoiu
0
160
新アーキテクチャ「TiDB X」解説とDedicated比較 TiDB Cloud Premiumのゲーム運用活用を検証
staffrecruiter
0
110
実装は速くなった、レビューはどうする? ― 自身のレビューをAIで再現させるサーヴァントエンジニアリングのすゝめ / Implementation got faster. So what about reviews? — An invitation to Servant Engineering: Recreating your own code reviews with AI
nrslib
6
3.6k
さきさん文庫の書籍ができるまで
sakiengineer
0
350
「気づいたら仕事が終わっている」バクラクAIエージェント本番運用の裏側 / layerx-bakuraku-aie2026
yuya4
18
9.8k
運用を見据えたAIエージェント設計実践
amacbee
1
2.7k
Featured
See All Featured
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
190
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
150
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.5k
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
2
1.5k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
130
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
200
Done Done
chrislema
186
16k
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
410
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
160
4 Signs Your Business is Dying
shpigford
187
22k
How to make the Groovebox
asonas
2
2.2k
We Are The Robots
honzajavorek
0
240
Transcript
- 文献紹介 2019 Nov. 28 - EDA: Easy Data Augmentation
Techniques for Boosting Performance on Text Classification Tasks 長岡技術科学大学 自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference:
Abstract ・EDA: Easy Data Augmentation を提案 ・文に4種類の編集を行ないデータを拡張 ・ローリソース(データセットが小規模)なタスクに対して強力 ・トレーニングセット100%使用時の精度を50%のデータ+EDAで達成 3
Introduction ・テキスト分類の精度は、トレーニングデータのサイズと質に依存している ・データの拡張により、より堅牢なモデルを得られる ・折り返し翻訳、ノイズを加える、言語モデルを使った同義語置換などがある →有効だがコストが高い ・シンプルかつ言語を問わないデータ拡張を提案 4
EDA 5 トレーニングデータの特定の文に以下4つのいずれかの操作をランダムに実施 ・Synonym Replacement (SR): 文からn単語(ストップワードでない)をランダムで選択 各単語をランダムに選ばれた同義語と置き換え ・Random Insertion
(RI): 文中のランダムな単語(ストップワードでない)のランダムな同義語を取得 文のランダムな位置に挿入 この作業をn回行なう これは先行研究でやってる
EDA 6 トレーニングデータの特定の文に以下4つのいずれかの操作をランダムに実施 ・Random Swap (RS): 文からランダムに2単語を選択し入れ替え この作業をn回行なう ・Random Deletion
(RD): 確率pで文の各単語を削除(pの値は後述)
EDA 7 長い文は多くのノイズを含む可能性がある バランスをとるため変更する単語数nを定める α:文内の変更する単語の割合を示すパラメータ(RDのp=a) l :文の長さ n = αl
EDA 8
Experimental Setup 9 5つのテキスト分類のベンチマークタスクで実験 EDAは小規模なデータセットでより役立つと想定される →トレーニングデータの量を変更し実験(LSTMとCNNを使用)
Results -EDA Makes Gains- 10 トレーニングデータを変更し実験 ・full set →平均0.8ポイント向上 ・500
→平均3.0ポイント向上
Results -Training Set Sizing- 11
Results -Training Set Sizing- 12 小規模なトレーニングデータで大幅に精度向上
Results -Training Set Sizing- 13 50%のトレーニングデータ + EDAの精度で、 トレーニングデータを全て使用した場合の精度を達成
Results -Does EDA conserve true labels?- 14 操作をして拡張した文の分類クラスは変わらない? ・データの拡張をしない状態のPCタスク(2値)でLSTMをトレーニング ・EDAでテストデータの各文に対し、9つ拡張文を生成し実験
Results -Does EDA conserve true labels?- 15 ほとんど場合で拡張された文が元のラベルと同じ
Results -Ablation Study: EDA Decomposed- 16 それぞれの文操作の効果を確認
Results -Ablation Study: EDA Decomposed- 17 それぞれの文操作の効果を確認 どの操作も小規模なデータセットで効果大、α = 0.1
がいい感じ
Results -How much augmentation?- 18 どのくらい文を増やすべきか
Results -How much augmentation?- 19 どのくらい文を増やすべきか このくらいが良いらしい
Comparison with Related Work 20 EDAは言語モデルも外部データも必要としない
Discussion and Limitations 21 EDAの限界 ・データの量が十分な場合に精度の向上はわずか ・pre-train モデルを使用する場合、大幅な貢献はもたらさない しかし、NNモデルを大きく複雑にしていく高コストな手法は避けたい
Conclusions 22 ・シンプルかつ低コストなデータ拡張手法を提案 ・5つの分類タスクで精度向上 ・小規模なトレーニングセットでは精度の貢献も大きく、過学習を避けられる