MixText: Linguistically-InformedInterpolation of Hidden Space forSemi-Supervised Text ClassificationJiaao Chen, Zichao Yang, Diyi YangACL 2020発表者︓⾼瀬 翔(東京⼯業⼤学)2020/9/251結果やモデルの図・表は論⽂より引⽤
View Slide
概要• Mixup [Zhang+ 17] を⾔語に拡張(TMix)– Mixup: 画像処理でのデータ拡張⼿法,⼊⼒と出⼒ラベルを混ぜ,新規の訓練事例とする• Self-training でラベルなしデータにラベルを付与し学習データ増量– Self-training と TMix をあわせたものが MixText• ⽂書分類で効果を確認– ベースラインよりも性能は⾼い– 既存のデータ拡張よりも良いかは謎に思える– TMix の貢献が⼤きいかどうかも怪しい気が…• 論⽂内の主張がたまに⼤きすぎる気が…– 任意の⼿法に使⽤可能(ただし実験は⽂書分類のみ)– 無限に訓練データを増やせる20.3 × + 0.7 × = 0.3 × リス + 0.7 × レッサーパンダ
TMix(連続値の学習データ拡張)• 隠れ層を混ぜ,混合したラベルを予測3エンコーダ(BERT)に⼊⼒,m 層⽬までそれぞれ計算する隠れ層を混ぜ,m + 1層⽬に⼊⼒エンコーダの最終層まで計算MLP でラベル予測混合したラベルを出⼒するよう学習
Self-training で学習データ拡張4ラウンドトリップ翻訳でラベルなしデータを増やす(例︓英 → 独 → 英)ここの処理をずっとBack-translation と呼んでいるのが気になるが…各データにラベルを付与して重み付き平均を計算分布をシャープに構築したデータをラベルつきデータと同等に教師データとして利⽤
実験設定• ⽂書分類の4つのデータで実験• BERT-base をベースに実装• ⽐較⼿法– BERT︓データ拡張なしの fine-tuning– UDA︓BERT base + 教師なしデータ拡張[Xie+ 19] でデータ拡張5
結果• 既存研究よりも良い6
Ablation study• 要素を抜いていったときの正解率の変化7ラベルなしデータを抜いたときの性能低下が⼤きいTMix を⼊れた状態でラベルなしデータを抜いた結果が⾒たいが……
まとめ• Mixup [Zhang+ 17] を⾔語に拡張(TMix)– エンコーダの隠れ層を混合– ラベルを混合し,教師データとして利⽤• Self-training でラベルなしデータにラベルを付与,学習データ増量– ラウンドトリップ翻訳でラベルなし⼊⼒を増量– ラベルなしデータにモデルの予測を付与• ⽂書分類で効果を確認– ベースラインよりも性能は⾼い– 既存のデータ拡張よりも良いかは謎に思える8