$30 off During Our Annual Pro Sale. View Details »

文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

T.Tada
November 28, 2019

文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

T.Tada

November 28, 2019
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. - 文献紹介 2019 Nov. 28 - EDA: Easy Data Augmentation

    Techniques for Boosting Performance on Text Classification Tasks 長岡技術科学大学
 自然言語処理研究室
 多田太郎

  2. About the paper 2 Authors: Conference:  

  3. Abstract ・EDA: Easy Data Augmentation を提案 ・文に4種類の編集を行ないデータを拡張 ・ローリソース(データセットが小規模)なタスクに対して強力 ・トレーニングセット100%使用時の精度を50%のデータ+EDAで達成 3

  4. Introduction ・テキスト分類の精度は、トレーニングデータのサイズと質に依存している ・データの拡張により、より堅牢なモデルを得られる ・折り返し翻訳、ノイズを加える、言語モデルを使った同義語置換などがある  →有効だがコストが高い ・シンプルかつ言語を問わないデータ拡張を提案 4

  5. EDA 5 トレーニングデータの特定の文に以下4つのいずれかの操作をランダムに実施 ・Synonym Replacement (SR):  文からn単語(ストップワードでない)をランダムで選択  各単語をランダムに選ばれた同義語と置き換え ・Random Insertion

    (RI):  文中のランダムな単語(ストップワードでない)のランダムな同義語を取得  文のランダムな位置に挿入  この作業をn回行なう これは先行研究でやってる
  6. EDA 6 トレーニングデータの特定の文に以下4つのいずれかの操作をランダムに実施 ・Random Swap (RS):  文からランダムに2単語を選択し入れ替え  この作業をn回行なう ・Random Deletion

    (RD):  確率pで文の各単語を削除(pの値は後述)
  7. EDA 7 長い文は多くのノイズを含む可能性がある バランスをとるため変更する単語数nを定める α:文内の変更する単語の割合を示すパラメータ(RDのp=a) l :文の長さ n = αl

  8. EDA 8

  9. Experimental Setup 9 5つのテキスト分類のベンチマークタスクで実験 EDAは小規模なデータセットでより役立つと想定される  →トレーニングデータの量を変更し実験(LSTMとCNNを使用)

  10. Results -EDA Makes Gains- 10 トレーニングデータを変更し実験 ・full set  →平均0.8ポイント向上 ・500

     →平均3.0ポイント向上
  11. Results -Training Set Sizing- 11

  12. Results -Training Set Sizing- 12 小規模なトレーニングデータで大幅に精度向上

  13. Results -Training Set Sizing- 13 50%のトレーニングデータ + EDAの精度で、 トレーニングデータを全て使用した場合の精度を達成

  14. Results -Does EDA conserve true labels?- 14 操作をして拡張した文の分類クラスは変わらない?  ・データの拡張をしない状態のPCタスク(2値)でLSTMをトレーニング  ・EDAでテストデータの各文に対し、9つ拡張文を生成し実験

  15. Results -Does EDA conserve true labels?- 15 ほとんど場合で拡張された文が元のラベルと同じ

  16. Results -Ablation Study: EDA Decomposed- 16 それぞれの文操作の効果を確認

  17. Results -Ablation Study: EDA Decomposed- 17 それぞれの文操作の効果を確認 どの操作も小規模なデータセットで効果大、α = 0.1

    がいい感じ
  18. Results -How much augmentation?- 18 どのくらい文を増やすべきか

  19. Results -How much augmentation?- 19 どのくらい文を増やすべきか このくらいが良いらしい

  20. Comparison with Related Work 20 EDAは言語モデルも外部データも必要としない

  21. Discussion and Limitations 21 EDAの限界  ・データの量が十分な場合に精度の向上はわずか  ・pre-train モデルを使用する場合、大幅な貢献はもたらさない  しかし、NNモデルを大きく複雑にしていく高コストな手法は避けたい

  22. Conclusions 22 ・シンプルかつ低コストなデータ拡張手法を提案 ・5つの分類タスクで精度向上 ・小規模なトレーニングセットでは精度の貢献も大きく、過学習を避けられる