Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_201911_EDA: Easy Data Augmentation Techniq...
Search
T.Tada
November 28, 2019
Technology
220
0
Share
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
T.Tada
November 28, 2019
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
67
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
180
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
170
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
110
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
160
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
70
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
110
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
100
文献紹介201905_Context-Aware Cross-Lingual Mapping
tad
0
100
Other Decks in Technology
See All in Technology
Databricks Appsで実現する社内向けAIアプリ開発の効率化
r_miura
0
160
LLMに何を任せ、何を任せないか
cap120
11
6.7k
15年メンテしてきたdotfilesから開発トレンドを振り返る 2011 - 2026
giginet
PRO
2
250
FlutterでPiP再生を実装した話
s9a17
0
240
VSCode中心だった自分がターミナル沼に入門した話
sanogemaru
0
870
Cursor Subagentsはいいぞ
yug1224
2
120
やさしいとこから始めるGitHubリポジトリのセキュリティ
tsubakimoto_s
3
2.1k
出版記念イベントin大阪「書籍紹介&私がよく使うMCPサーバー3選と社内で安全に活用する方法」
kintotechdev
0
120
AI時代のオンプレ-クラウドキャリアチェンジ考
yuu0w0yuu
0
670
CREがSLOを握ると 何が変わるのか
nekomaho
0
320
Network Firewall Proxyで 自前プロキシを消し去ることができるのか
gusandayo
0
140
FastMCP OAuth Proxy with Cognito
hironobuiga
3
230
Featured
See All Featured
Designing for Timeless Needs
cassininazir
0
180
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.9k
The Invisible Side of Design
smashingmag
302
51k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.6k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.4k
What's in a price? How to price your products and services
michaelherold
247
13k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.5k
WCS-LA-2024
lcolladotor
0
500
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
990
Paper Plane (Part 1)
katiecoart
PRO
0
6.2k
Site-Speed That Sticks
csswizardry
13
1.1k
Transcript
- 文献紹介 2019 Nov. 28 - EDA: Easy Data Augmentation
Techniques for Boosting Performance on Text Classification Tasks 長岡技術科学大学 自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference:
Abstract ・EDA: Easy Data Augmentation を提案 ・文に4種類の編集を行ないデータを拡張 ・ローリソース(データセットが小規模)なタスクに対して強力 ・トレーニングセット100%使用時の精度を50%のデータ+EDAで達成 3
Introduction ・テキスト分類の精度は、トレーニングデータのサイズと質に依存している ・データの拡張により、より堅牢なモデルを得られる ・折り返し翻訳、ノイズを加える、言語モデルを使った同義語置換などがある →有効だがコストが高い ・シンプルかつ言語を問わないデータ拡張を提案 4
EDA 5 トレーニングデータの特定の文に以下4つのいずれかの操作をランダムに実施 ・Synonym Replacement (SR): 文からn単語(ストップワードでない)をランダムで選択 各単語をランダムに選ばれた同義語と置き換え ・Random Insertion
(RI): 文中のランダムな単語(ストップワードでない)のランダムな同義語を取得 文のランダムな位置に挿入 この作業をn回行なう これは先行研究でやってる
EDA 6 トレーニングデータの特定の文に以下4つのいずれかの操作をランダムに実施 ・Random Swap (RS): 文からランダムに2単語を選択し入れ替え この作業をn回行なう ・Random Deletion
(RD): 確率pで文の各単語を削除(pの値は後述)
EDA 7 長い文は多くのノイズを含む可能性がある バランスをとるため変更する単語数nを定める α:文内の変更する単語の割合を示すパラメータ(RDのp=a) l :文の長さ n = αl
EDA 8
Experimental Setup 9 5つのテキスト分類のベンチマークタスクで実験 EDAは小規模なデータセットでより役立つと想定される →トレーニングデータの量を変更し実験(LSTMとCNNを使用)
Results -EDA Makes Gains- 10 トレーニングデータを変更し実験 ・full set →平均0.8ポイント向上 ・500
→平均3.0ポイント向上
Results -Training Set Sizing- 11
Results -Training Set Sizing- 12 小規模なトレーニングデータで大幅に精度向上
Results -Training Set Sizing- 13 50%のトレーニングデータ + EDAの精度で、 トレーニングデータを全て使用した場合の精度を達成
Results -Does EDA conserve true labels?- 14 操作をして拡張した文の分類クラスは変わらない? ・データの拡張をしない状態のPCタスク(2値)でLSTMをトレーニング ・EDAでテストデータの各文に対し、9つ拡張文を生成し実験
Results -Does EDA conserve true labels?- 15 ほとんど場合で拡張された文が元のラベルと同じ
Results -Ablation Study: EDA Decomposed- 16 それぞれの文操作の効果を確認
Results -Ablation Study: EDA Decomposed- 17 それぞれの文操作の効果を確認 どの操作も小規模なデータセットで効果大、α = 0.1
がいい感じ
Results -How much augmentation?- 18 どのくらい文を増やすべきか
Results -How much augmentation?- 19 どのくらい文を増やすべきか このくらいが良いらしい
Comparison with Related Work 20 EDAは言語モデルも外部データも必要としない
Discussion and Limitations 21 EDAの限界 ・データの量が十分な場合に精度の向上はわずか ・pre-train モデルを使用する場合、大幅な貢献はもたらさない しかし、NNモデルを大きく複雑にしていく高コストな手法は避けたい
Conclusions 22 ・シンプルかつ低コストなデータ拡張手法を提案 ・5つの分類タスクで精度向上 ・小規模なトレーニングセットでは精度の貢献も大きく、過学習を避けられる