Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification Jiaao Chen, Zichao Yang, Diyi Yang ACL 2020 発表者︓⾼瀬 翔(東京⼯業⼤学) 2020/9/25 1 結果やモデルの図・表は論⽂より引⽤
Slide 2
Slide 2 text
概要 • Mixup [Zhang+ 17] を⾔語に拡張(TMix) – Mixup: 画像処理でのデータ拡張⼿法,⼊⼒と出⼒ラベルを混ぜ,新規 の訓練事例とする • Self-training でラベルなしデータにラベルを付与し学習データ増量 – Self-training と TMix をあわせたものが MixText • ⽂書分類で効果を確認 – ベースラインよりも性能は⾼い – 既存のデータ拡張よりも良いかは謎に思える – TMix の貢献が⼤きいかどうかも怪しい気が… • 論⽂内の主張がたまに⼤きすぎる気が… – 任意の⼿法に使⽤可能(ただし実験は⽂書分類のみ) – 無限に訓練データを増やせる 2 0.3 × + 0.7 × = 0.3 × リス + 0.7 × レッサーパンダ
Slide 3
Slide 3 text
TMix(連続値の学習データ拡張) • 隠れ層を混ぜ,混合したラベルを予測 3 エンコーダ(BERT)に⼊⼒, m 層⽬までそれぞれ計算する 隠れ層を混ぜ,m + 1層⽬に⼊⼒ エンコーダの最終層まで計算 MLP でラベル予測 混合したラベルを出⼒するよう学習
Slide 4
Slide 4 text
Self-training で学習データ拡張 4 ラウンドトリップ翻訳で ラベルなしデータを増やす (例︓英 → 独 → 英) ここの処理をずっと Back-translation と 呼んでいるのが気になるが… 各データにラベルを付与して 重み付き平均を計算 分布を シャープに 構築したデータをラベルつきデータと同等に教師データとして利⽤
Slide 5
Slide 5 text
実験設定 • ⽂書分類の4つのデータで実験 • BERT-base をベースに実装 • ⽐較⼿法 – BERT︓データ拡張なしの fine-tuning – UDA︓BERT base + 教師なしデータ拡張 [Xie+ 19] でデータ拡張 5
Slide 6
Slide 6 text
結果 • 既存研究よりも良い 6
Slide 7
Slide 7 text
Ablation study • 要素を抜いていったときの正解率の変化 7 ラベルなしデータを 抜いたときの性能低下が⼤きい TMix を⼊れた状態で ラベルなしデータを抜いた 結果が⾒たいが……
Slide 8
Slide 8 text
まとめ • Mixup [Zhang+ 17] を⾔語に拡張(TMix) – エンコーダの隠れ層を混合 – ラベルを混合し,教師データとして利⽤ • Self-training でラベルなしデータにラベルを 付与,学習データ増量 – ラウンドトリップ翻訳でラベルなし⼊⼒を増量 – ラベルなしデータにモデルの予測を付与 • ⽂書分類で効果を確認 – ベースラインよりも性能は⾼い – 既存のデータ拡張よりも良いかは謎に思える 8