$30 off During Our Annual Pro Sale. View Details »

SNLP2020_mixtext

Sho Takase
September 16, 2020
250

 SNLP2020_mixtext

Sho Takase

September 16, 2020
Tweet

Transcript

  1. MixText: Linguistically-Informed
    Interpolation of Hidden Space for
    Semi-Supervised Text Classification
    Jiaao Chen, Zichao Yang, Diyi Yang
    ACL 2020
    発表者︓⾼瀬 翔(東京⼯業⼤学)
    2020/9/25
    1
    結果やモデルの図・表は論⽂より引⽤

    View Slide

  2. 概要
    • Mixup [Zhang+ 17] を⾔語に拡張(TMix)
    – Mixup: 画像処理でのデータ拡張⼿法,⼊⼒と出⼒ラベルを混ぜ,新規
    の訓練事例とする
    • Self-training でラベルなしデータにラベルを付与し学習データ増量
    – Self-training と TMix をあわせたものが MixText
    • ⽂書分類で効果を確認
    – ベースラインよりも性能は⾼い
    – 既存のデータ拡張よりも良いかは謎に思える
    – TMix の貢献が⼤きいかどうかも怪しい気が…
    • 論⽂内の主張がたまに⼤きすぎる気が…
    – 任意の⼿法に使⽤可能(ただし実験は⽂書分類のみ)
    – 無限に訓練データを増やせる
    2
    0.3 × + 0.7 × = 0.3 × リス + 0.7 × レッサーパンダ

    View Slide

  3. TMix(連続値の学習データ拡張)
    • 隠れ層を混ぜ,混合したラベルを予測
    3
    エンコーダ(BERT)に⼊⼒,
    m 層⽬までそれぞれ計算する
    隠れ層を混ぜ,m + 1層⽬に⼊⼒
    エンコーダの最終層まで計算
    MLP でラベル予測
    混合したラベルを出⼒するよう学習

    View Slide

  4. Self-training で学習データ拡張
    4
    ラウンドトリップ翻訳で
    ラベルなしデータを増やす
    (例︓英 → 独 → 英)
    ここの処理をずっと
    Back-translation と
    呼んでいるのが気になるが…
    各データにラベルを付与して
    重み付き平均を計算
    分布を
    シャープに
    構築したデータをラベルつきデータと同等に教師データとして利⽤

    View Slide

  5. 実験設定
    • ⽂書分類の4つのデータで実験
    • BERT-base をベースに実装
    • ⽐較⼿法
    – BERT︓データ拡張なしの fine-tuning
    – UDA︓BERT base + 教師なしデータ拡張
    [Xie+ 19] でデータ拡張
    5

    View Slide

  6. 結果
    • 既存研究よりも良い
    6

    View Slide

  7. Ablation study
    • 要素を抜いていったときの正解率の変化
    7
    ラベルなしデータを
    抜いたときの性能低下が⼤きい
    TMix を⼊れた状態で
    ラベルなしデータを抜いた
    結果が⾒たいが……

    View Slide

  8. まとめ
    • Mixup [Zhang+ 17] を⾔語に拡張(TMix)
    – エンコーダの隠れ層を混合
    – ラベルを混合し,教師データとして利⽤
    • Self-training でラベルなしデータにラベルを
    付与,学習データ増量
    – ラウンドトリップ翻訳でラベルなし⼊⼒を増量
    – ラベルなしデータにモデルの予測を付与
    • ⽂書分類で効果を確認
    – ベースラインよりも性能は⾼い
    – 既存のデータ拡張よりも良いかは謎に思える
    8

    View Slide