文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

- 文献紹介 2019 Nov. 28 - EDA: Easy Data Augmentation
Techniques for Boosting Performance on Text Classification Tasks 長岡技術科学大学  自然言語処理研究室  多田太郎 

About the paper 2 Authors： Conference：　

Abstract ・EDA: Easy Data Augmentation を提案・文に4種類の編集を行ないデータを拡張・ローリソース（データセットが小規模）なタスクに対して強力・トレーニングセット100%使用時の精度を50%のデータ+EDAで達成 3

Introduction ・テキスト分類の精度は、トレーニングデータのサイズと質に依存している・データの拡張により、より堅牢なモデルを得られる・折り返し翻訳、ノイズを加える、言語モデルを使った同義語置換などがある　→有効だがコストが高い・シンプルかつ言語を問わないデータ拡張を提案 4

EDA 5 トレーニングデータの特定の文に以下４つのいずれかの操作をランダムに実施・Synonym Replacement (SR): 　文からn単語（ストップワードでない）をランダムで選択　各単語をランダムに選ばれた同義語と置き換え・Random Insertion
(RI): 　文中のランダムな単語（ストップワードでない）のランダムな同義語を取得　文のランダムな位置に挿入　この作業をn回行なうこれは先行研究でやってる

EDA 6 トレーニングデータの特定の文に以下４つのいずれかの操作をランダムに実施・Random Swap (RS): 　文からランダムに2単語を選択し入れ替え　この作業をn回行なう・Random Deletion
(RD): 　確率pで文の各単語を削除（pの値は後述）

EDA 7 長い文は多くのノイズを含む可能性があるバランスをとるため変更する単語数nを定める α：文内の変更する単語の割合を示すパラメータ(RDのp=a) l :文の長さ n = αl

Experimental Setup 9 5つのテキスト分類のベンチマークタスクで実験 EDAは小規模なデータセットでより役立つと想定される　→トレーニングデータの量を変更し実験（LSTMとCNNを使用）

Results -EDA Makes Gains- 10 トレーニングデータを変更し実験・full set 　→平均0.8ポイント向上・500
　→平均3.0ポイント向上

Results -Training Set Sizing- 11

Results -Training Set Sizing- 12 小規模なトレーニングデータで大幅に精度向上

Results -Training Set Sizing- 13 50%のトレーニングデータ + EDAの精度で、トレーニングデータを全て使用した場合の精度を達成

Results -Does EDA conserve true labels?- 14 操作をして拡張した文の分類クラスは変わらない？　・データの拡張をしない状態のPCタスク（2値）でLSTMをトレーニング　・EDAでテストデータの各文に対し、9つ拡張文を生成し実験

Results -Does EDA conserve true labels?- 15 ほとんど場合で拡張された文が元のラベルと同じ

Results -Ablation Study: EDA Decomposed- 16 それぞれの文操作の効果を確認

Results -Ablation Study: EDA Decomposed- 17 それぞれの文操作の効果を確認どの操作も小規模なデータセットで効果大、α = 0.1
がいい感じ

Results -How much augmentation?- 18 どのくらい文を増やすべきか

Results -How much augmentation?- 19 どのくらい文を増やすべきかこのくらいが良いらしい

Comparison with Related Work 20 EDAは言語モデルも外部データも必要としない

Discussion and Limitations 21 EDAの限界　・データの量が十分な場合に精度の向上はわずか　・pre-train モデルを使用する場合、大幅な貢献はもたらさない　しかし、NNモデルを大きく複雑にしていく高コストな手法は避けたい

Conclusions 22 ・シンプルかつ低コストなデータ拡張手法を提案・５つの分類タスクで精度向上・小規模なトレーニングセットでは精度の貢献も大きく、過学習を避けられる

文献紹介_201911_EDA: Easy Data Augmentation Techniq...

文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

T.Tada

More Decks by T.Tada

Other Decks in Technology

Featured

Transcript

- 文献紹介 2019 Nov. 28 - EDA: Easy Data Augmentation