Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介2020前期_UNDERSTANDING KNOLEDGE DISTILLATION ...
Search
maskcott
July 08, 2020
Research
0
7
論文紹介2020前期_UNDERSTANDING KNOLEDGE DISTILLATION IN NON-AUTOREGRESSIVEMACHINE TRANSLATION
maskcott
July 08, 2020
Tweet
Share
More Decks by maskcott
See All by maskcott
論文紹介2022後期(EMNLP2022)_Towards Opening the Black Box of Neural Machine Translation: Source and Target Interpretations of the Transformer
maskcott
0
46
論文紹介2022後期(ACL2022)_DEEP: DEnoising Entity Pre-training for Neural Machine Translation
maskcott
0
23
PACLIC2022_Japanese Named Entity Recognition from Automatic Speech Recognition Using Pre-trained Models
maskcott
0
12
WAT2022_TMU NMT System with Automatic Post-Editing by Multi-Source Levenshtein Transformer for the Restricted Translation Task of WAT 2022
maskcott
0
28
論文紹介2022前期_Redistributing Low Frequency Words: Making the Most of Monolingual Data in Non-Autoregressive Translation
maskcott
0
34
論文紹介2021後期_Analyzing the Source and Target Contributions to Predictions in Neural Machine Translation
maskcott
0
58
WAT2021_Machine Translation with Pre-specified Target-side Words Using a Semi-autoregressive Model
maskcott
0
23
NAACL/EACL読み会2021_NEUROLOGIC DECDING: (Un)supervised Neural Text Generation with Predicate Logic Constraints
maskcott
0
28
論文紹介2021前期_Bilingual Dictionary Based Neural Machine Translation without Using Parallel Sentences
maskcott
0
26
Other Decks in Research
See All in Research
ニューラルネットワークの損失地形
joisino
PRO
35
17k
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
3
670
EBPMにおける生成AI活用について
daimoriwaki
0
210
機械学習による言語パフォーマンスの評価
langstat
6
760
LiDARとカメラのセンサーフュージョンによる点群からのノイズ除去
kentaitakura
0
150
テキストマイニングことはじめー基本的な考え方からメディアディスコース研究への応用まで
langstat
1
140
大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案 【MIRU 2024】
kentosasaki
2
530
SNLP2024:Planning Like Human: A Dual-process Framework for Dialogue Planning
yukizenimoto
1
340
秘伝:脆弱性診断をうまく活用してセキュリティを確保するには
okdt
PRO
3
760
Weekly AI Agents News! 10月号 プロダクト/ニュースのアーカイブ
masatoto
1
130
Physics of Language Models: Part 3.1, Knowledge Storage and Extraction
sosk
1
960
20241115都市交通決起集会 趣旨説明・熊本事例紹介
trafficbrain
0
380
Featured
See All Featured
XXLCSS - How to scale CSS and keep your sanity
sugarenia
247
1.3M
What's new in Ruby 2.0
geeforr
343
31k
BBQ
matthewcrist
85
9.3k
Designing for Performance
lara
604
68k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
The Power of CSS Pseudo Elements
geoffreycrofte
73
5.3k
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
A Philosophy of Restraint
colly
203
16k
Reflections from 52 weeks, 52 projects
jeffersonlam
346
20k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
470
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
1
220
Transcript
紹介者: B4 今藤 誠⼀郎 2020/7/8 @論⽂紹介
概要 既存の⾮⾃⼰回帰モデル(NAT)は知識蒸留を⽤いたモデルになっている 知識蒸留というものが経験的にNATの正解率の向上に有効であることが確 認されているがその理由は明らかになっていない 知識蒸留がなぜNATモデルの学習に重要なのかを実験 →データの複雑さを軽減し、出⼒データをモデル化するのに役⽴つ +NATモデルの性能と知識蒸留後のデータの複雑さに強い相関関係 NATモデルの性能を向上させるためにデータセットの複雑さを変化させら れるいくつかのアプローチを提案
導⼊ 知識蒸留とは... 訓練データのターゲット⽂を事前訓練済みのATモデルの出⼒に置き換える ほぼ全ての既存NATモデルの学習における重要な要素の⼀つとなっている →訓練データのモード(⼊⼒に対する出⼒の種類)の削減がNATの訓練にい いのではないかという仮定 →直感的なイメージに過ぎず、厳密に検証されていない
導⼊ 検証が不⼗分ゆえの3つの重要な未解決問題 ・どのようにモードが削減されていて、どのようにその削減を量的に計測 できるのか、そしてなぜ削減がNATモデルの性能を引き上げるのか? ・NAT(⽣徒モデル)とAT(教師モデル)の関係はどうなっているのか?NAT モデルによって蒸留データの種類を変える⽅がいいのか? ・知識蒸留を⾏う上でNATの性能は教師モデルであるATの選択に⼤きく左 右されるが、標準的なATモデルとの性能差をさらに縮める⽅法はないのか
導⼊ 様々な種類のAT, NATの分析を⾏い、知識蒸留の理解を深めるために3つ の貢献 ・⼈⼿のデータセット上で蒸留によってどのようモードが減少するのかを 明⽰的に可視化する データセットの複雑さや忠実さを測定するメトリクスも提案する ・4つの教師モデルと6つの⽣徒モデルに対して様々なアーキテクチャを持 つ体系的な解析を⾏った ・モデルの能⼒に適合する蒸留データの複雑さをさらに調整するアプロー
チを提案
背景 標準的な⾮⾃⼰回帰モデルは⼀度デコーダーを通すだけで⽂を⽣成する →単⼀の⼊⼒⽂に対して複数の翻訳があるため出⼒トークン間の依存関係 系を補⾜できない(先⾏研究でマルチモーダル問題と呼ばれる) →トークンを何度も出⼒するなどのミスをする傾向にある 処理能⼒を向上させるためNATには様々なアプローチが取り⼊れられてい る →ATと競えるような性能を達成しているものはいづれの場合も事前学習を ⾏ったATモデルの蒸留データを本来のトレーニングセットの代わりに使っ ている
実験 知識蒸留がどのようにNATの精度を上げているのか 学習データに複数のモードを明⽰的に含めたデータセットを⽤いて出⼒ データにおけるマルチモダリティによるNATの難しさを調査 データセット ・Europarl parallel corpusよりEn-De, En-Fr, En-Es
の3つの⾔語ペア ・すべての⾔語にアラインメントされた⽂を抽出し、En-De/Fr/Esコーパ スを作成 →3つの明⽰的な出⼒モードが形成される ・翻訳する際にどの⾔語に翻訳するかという信号を付加しない
実験 知識蒸留がどのようにNATの精度を上げているのか モデル ・データセットをコンキャットしてATとNATを学習させて⽐較 ・AT: 標準的なTransformerモデル(Vaswani et al, 2017) ・NAT:
(Gu et al, 2018)のモデルを単純にしたもの (デコーダーの⼊⼒はエンコーダーの⼊⼒を単純にコピー、 ⽂⻑を予測出来るように学習) 両モデル300,000ステップで最尤推定を⽤いて学習した後、英⽂を検証、 テストセットとする
結果 各出⼒がどの⾔語類に属しているかの確率をプロット ⾔語クラスliの中で単語yの出現頻度 ⼀様分布に従うと仮定
並列データの複雑さ(Complexity)と忠実さ(faithfulness)を⽰す尺度の提案 ・翻訳の複雑さの尺度
並列データの複雑さと忠実さを⽰す尺度の提案 ・翻訳の忠実さの尺度 C(d)はマルチモダリティの尺度を⽰しており、よりシンプルなデータセッ トがNATの学習に有利なことを⽰している →バリエーションを持たない簡単なデータセットを作ればC(d)は⼩さくな るがこれは明らかにトレーニングに有効とは⾔えない →実データ分布にどれだけ忠実かを測定する必要あり 元の並列データセットと変更後の並列データセットのKLダイバージェンス を⽤いて測定する real
parallel data set altered parallel data set
実験 知識蒸留がNATモデルにどのように影響するのか 異なる教師モデルから得られたデータで学習したNATモデルを⽐較 データセット:WMT14 English-German (En-De) 検証セットにnewstest2013 テストセットにnewstest2014 BPE(Sennrich et
al., 2016)でトークナイズされた37,000語を学習 ATモデル tiny, small, base, bigの4種類を⽤いる いづれもTransformerに基づいたものでパラメータを変えている ⼩さい⽅が弱い教師モデルといえる トレーニングにはAdam optimizer (Kingma & Ba, 2014)を⽤いる 訓練後にビームサイズ5で訓練セットをデコードして 新しい並列コーパスを作成
実験 知識蒸留がNATモデルにどのように影響するのか NATモデル 6種類を⽤いる
結果 知識蒸留によって得られたデータセットの⽐較
結果 知識蒸留の⽅法に関する分析 教師モデル:baseのAT ⽣徒モデル:vanillaのNAT 同じATモデルでもデコーディング⽅法によってNATの精度が異なる ビームサーチや貪欲なサーチが⾼い忠実さを維持しながら複雑さも低減できている
結果 ATとNATの組み合わせ
蒸留データをNATモデルの性能に適合させる⼿法の提案 性能の低い⽣徒モデルのためにデータセットをより簡素にする⼿法 ・Born-Again neworks (BANs) ・Mixture-of-Experts(MoE)
蒸留データをNATモデルの性能に適合させる⼿法の提案 性能の⾼い⽣徒モデルのためにデータセットの忠実さを上げる⼿法 ・Sequence-Level Interpolation
Conclusion 知識蒸留がNATの性能を⼤きく上げるのはデータセットの複雑さ、マルチモダリティを削 減していることによるものであることを系統的に⽰した 性能の異なるATモデル、広範なNATモデルを⽤いて実験をし、さらにデータセットの複雑 さを定量的に測定するメトリクスを定義した →より⾼性能なNATほどより複雑な蒸留データを必要とし、より良い性能が引き出せる より良いパフォーマンスを引き出せるように、NATの性能に合った蒸留データの複雑さを 調整するテクニックを紹介