$30 off During Our Annual Pro Sale. View Details »

文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

T.Tada
November 28, 2019

文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

T.Tada

November 28, 2019
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. - 文献紹介 2019 Nov. 28 -
    EDA: Easy Data Augmentation Techniques for Boosting
    Performance on Text Classification Tasks
    長岡技術科学大学

    自然言語処理研究室

    多田太郎


    View Slide

  2. About the paper
    2
    Authors:
    Conference:
     

    View Slide

  3. Abstract
    ・EDA: Easy Data Augmentation を提案
    ・文に4種類の編集を行ないデータを拡張
    ・ローリソース(データセットが小規模)なタスクに対して強力
    ・トレーニングセット100%使用時の精度を50%のデータ+EDAで達成
    3

    View Slide

  4. Introduction
    ・テキスト分類の精度は、トレーニングデータのサイズと質に依存している
    ・データの拡張により、より堅牢なモデルを得られる
    ・折り返し翻訳、ノイズを加える、言語モデルを使った同義語置換などがある
     →有効だがコストが高い
    ・シンプルかつ言語を問わないデータ拡張を提案
    4

    View Slide

  5. EDA
    5
    トレーニングデータの特定の文に以下4つのいずれかの操作をランダムに実施
    ・Synonym Replacement (SR):
     文からn単語(ストップワードでない)をランダムで選択
     各単語をランダムに選ばれた同義語と置き換え
    ・Random Insertion (RI):
     文中のランダムな単語(ストップワードでない)のランダムな同義語を取得
     文のランダムな位置に挿入
     この作業をn回行なう
    これは先行研究でやってる

    View Slide

  6. EDA
    6
    トレーニングデータの特定の文に以下4つのいずれかの操作をランダムに実施
    ・Random Swap (RS):
     文からランダムに2単語を選択し入れ替え
     この作業をn回行なう
    ・Random Deletion (RD):
     確率pで文の各単語を削除(pの値は後述)

    View Slide

  7. EDA
    7
    長い文は多くのノイズを含む可能性がある
    バランスをとるため変更する単語数nを定める
    α:文内の変更する単語の割合を示すパラメータ(RDのp=a)
    l :文の長さ
    n = αl

    View Slide

  8. EDA
    8

    View Slide

  9. Experimental Setup
    9
    5つのテキスト分類のベンチマークタスクで実験
    EDAは小規模なデータセットでより役立つと想定される
     →トレーニングデータの量を変更し実験(LSTMとCNNを使用)

    View Slide

  10. Results -EDA Makes Gains-
    10
    トレーニングデータを変更し実験
    ・full set
     →平均0.8ポイント向上
    ・500
     →平均3.0ポイント向上

    View Slide

  11. Results -Training Set Sizing-
    11

    View Slide

  12. Results -Training Set Sizing-
    12
    小規模なトレーニングデータで大幅に精度向上

    View Slide

  13. Results -Training Set Sizing-
    13
    50%のトレーニングデータ + EDAの精度で、
    トレーニングデータを全て使用した場合の精度を達成

    View Slide

  14. Results -Does EDA conserve true labels?-
    14
    操作をして拡張した文の分類クラスは変わらない?
     ・データの拡張をしない状態のPCタスク(2値)でLSTMをトレーニング
     ・EDAでテストデータの各文に対し、9つ拡張文を生成し実験

    View Slide

  15. Results -Does EDA conserve true labels?-
    15
    ほとんど場合で拡張された文が元のラベルと同じ

    View Slide

  16. Results -Ablation Study: EDA Decomposed-
    16
    それぞれの文操作の効果を確認

    View Slide

  17. Results -Ablation Study: EDA Decomposed-
    17
    それぞれの文操作の効果を確認
    どの操作も小規模なデータセットで効果大、α = 0.1 がいい感じ

    View Slide

  18. Results -How much augmentation?-
    18
    どのくらい文を増やすべきか

    View Slide

  19. Results -How much augmentation?-
    19
    どのくらい文を増やすべきか
    このくらいが良いらしい

    View Slide

  20. Comparison with Related Work
    20
    EDAは言語モデルも外部データも必要としない

    View Slide

  21. Discussion and Limitations
    21
    EDAの限界
     ・データの量が十分な場合に精度の向上はわずか
     ・pre-train モデルを使用する場合、大幅な貢献はもたらさない
     しかし、NNモデルを大きく複雑にしていく高コストな手法は避けたい

    View Slide

  22. Conclusions
    22
    ・シンプルかつ低コストなデータ拡張手法を提案
    ・5つの分類タスクで精度向上
    ・小規模なトレーニングセットでは精度の貢献も大きく、過学習を避けられる

    View Slide