論文紹介2020前期_UNDERSTANDING KNOLEDGE DISTILLATION IN NON-AUTOREGRESSIVEMACHINE TRANSLATION

紹介者: B4 今藤誠⼀郎 2020/7/8 @論⽂紹介

概要既存の⾮⾃⼰回帰モデル(NAT)は知識蒸留を⽤いたモデルになっている知識蒸留というものが経験的にNATの正解率の向上に有効であることが確認されているがその理由は明らかになっていない知識蒸留がなぜNATモデルの学習に重要なのかを実験 →データの複雑さを軽減し、出⼒データをモデル化するのに役⽴つ＋NATモデルの性能と知識蒸留後のデータの複雑さに強い相関関係 NATモデルの性能を向上させるためにデータセットの複雑さを変化させられるいくつかのアプローチを提案

導⼊知識蒸留とは... 訓練データのターゲット⽂を事前訓練済みのATモデルの出⼒に置き換えるほぼ全ての既存NATモデルの学習における重要な要素の⼀つとなっている →訓練データのモード(⼊⼒に対する出⼒の種類)の削減がNATの訓練にいいのではないかという仮定 →直感的なイメージに過ぎず、厳密に検証されていない

導⼊検証が不⼗分ゆえの3つの重要な未解決問題・どのようにモードが削減されていて、どのようにその削減を量的に計測できるのか、そしてなぜ削減がNATモデルの性能を引き上げるのか？・NAT(⽣徒モデル)とAT(教師モデル)の関係はどうなっているのか？NAT モデルによって蒸留データの種類を変える⽅がいいのか？・知識蒸留を⾏う上でNATの性能は教師モデルであるATの選択に⼤きく左右されるが、標準的なATモデルとの性能差をさらに縮める⽅法はないのか

導⼊様々な種類のAT, NATの分析を⾏い、知識蒸留の理解を深めるために３つの貢献・⼈⼿のデータセット上で蒸留によってどのようモードが減少するのかを明⽰的に可視化するデータセットの複雑さや忠実さを測定するメトリクスも提案する・4つの教師モデルと6つの⽣徒モデルに対して様々なアーキテクチャを持つ体系的な解析を⾏った・モデルの能⼒に適合する蒸留データの複雑さをさらに調整するアプロー
チを提案

背景標準的な⾮⾃⼰回帰モデルは⼀度デコーダーを通すだけで⽂を⽣成する →単⼀の⼊⼒⽂に対して複数の翻訳があるため出⼒トークン間の依存関係系を補⾜できない(先⾏研究でマルチモーダル問題と呼ばれる) →トークンを何度も出⼒するなどのミスをする傾向にある処理能⼒を向上させるためNATには様々なアプローチが取り⼊れられている →ATと競えるような性能を達成しているものはいづれの場合も事前学習を⾏ったATモデルの蒸留データを本来のトレーニングセットの代わりに使っている

実験知識蒸留がどのようにNATの精度を上げているのか学習データに複数のモードを明⽰的に含めたデータセットを⽤いて出⼒データにおけるマルチモダリティによるNATの難しさを調査データセット・Europarl parallel corpusよりEn-De, En-Fr, En-Es
の3つの⾔語ペア・すべての⾔語にアラインメントされた⽂を抽出し、En-De/Fr/Esコーパスを作成 →3つの明⽰的な出⼒モードが形成される・翻訳する際にどの⾔語に翻訳するかという信号を付加しない

実験知識蒸留がどのようにNATの精度を上げているのかモデル・データセットをコンキャットしてATとNATを学習させて⽐較・AT: 標準的なTransformerモデル(Vaswani et al, 2017) ・NAT:
(Gu et al, 2018)のモデルを単純にしたもの (デコーダーの⼊⼒はエンコーダーの⼊⼒を単純にコピー、⽂⻑を予測出来るように学習) 両モデル300,000ステップで最尤推定を⽤いて学習した後、英⽂を検証、テストセットとする

結果各出⼒がどの⾔語類に属しているかの確率をプロット⾔語クラスliの中で単語yの出現頻度⼀様分布に従うと仮定

並列データの複雑さ(Complexity)と忠実さ(faithfulness)を⽰す尺度の提案・翻訳の複雑さの尺度

並列データの複雑さと忠実さを⽰す尺度の提案・翻訳の忠実さの尺度 C(d)はマルチモダリティの尺度を⽰しており、よりシンプルなデータセットがNATの学習に有利なことを⽰している →バリエーションを持たない簡単なデータセットを作ればC(d)は⼩さくなるがこれは明らかにトレーニングに有効とは⾔えない →実データ分布にどれだけ忠実かを測定する必要あり元の並列データセットと変更後の並列データセットのKLダイバージェンスを⽤いて測定する real
parallel data set altered parallel data set

実験知識蒸留がNATモデルにどのように影響するのか異なる教師モデルから得られたデータで学習したNATモデルを⽐較データセット：WMT14 English-German (En-De) 検証セットにnewstest2013 テストセットにnewstest2014 BPE(Sennrich et
al., 2016)でトークナイズされた37,000語を学習 ATモデル tiny, small, base, bigの4種類を⽤いるいづれもTransformerに基づいたものでパラメータを変えている⼩さい⽅が弱い教師モデルといえるトレーニングにはAdam optimizer (Kingma & Ba, 2014)を⽤いる訓練後にビームサイズ5で訓練セットをデコードして新しい並列コーパスを作成

実験知識蒸留がNATモデルにどのように影響するのか NATモデル 6種類を⽤いる

結果知識蒸留によって得られたデータセットの⽐較

結果知識蒸留の⽅法に関する分析教師モデル：baseのAT ⽣徒モデル：vanillaのNAT 同じATモデルでもデコーディング⽅法によってNATの精度が異なるビームサーチや貪欲なサーチが⾼い忠実さを維持しながら複雑さも低減できている

結果 ATとNATの組み合わせ

蒸留データをNATモデルの性能に適合させる⼿法の提案性能の低い⽣徒モデルのためにデータセットをより簡素にする⼿法・Born-Again neworks (BANs) ・Mixture-of-Experts(MoE)

蒸留データをNATモデルの性能に適合させる⼿法の提案性能の⾼い⽣徒モデルのためにデータセットの忠実さを上げる⼿法・Sequence-Level Interpolation

Conclusion 知識蒸留がNATの性能を⼤きく上げるのはデータセットの複雑さ、マルチモダリティを削減していることによるものであることを系統的に⽰した性能の異なるATモデル、広範なNATモデルを⽤いて実験をし、さらにデータセットの複雑さを定量的に測定するメトリクスを定義した →より⾼性能なNATほどより複雑な蒸留データを必要とし、より良い性能が引き出せるより良いパフォーマンスを引き出せるように、NATの性能に合った蒸留データの複雑さを調整するテクニックを紹介

論文紹介2020前期_UNDERSTANDING KNOLEDGE DISTILLATION ...

論文紹介2020前期_UNDERSTANDING KNOLEDGE DISTILLATION IN NON-AUTOREGRESSIVEMACHINE TRANSLATION

maskcott

More Decks by maskcott

Other Decks in Research

Featured

Transcript