Slide 39
Slide 39 text
Masked LMの精緻化
XLNet [Zhilin Yang et al.]
● Permutation LM çXLNet
⼊⼒系列の順番はそのままで,トークンの予測順序を⼊れ替え(Permutation)
20タスクでBERTを超え,18タスクでSOTAを達成
簡略化したイメージ図(実際はTwo-stream attentionなどのテクニックが組み込まれるのでもっと複雑)
39
全ての可能な予測順序を考慮することで双⽅向の⽂脈を組み込める
Zhilin Yang, et al. “Xlnet: Generalized autoregressive pretraining for language understanding.” NeurIPS2019, slide p.7を参考に具体例で書き直したもの
Zhilin Yang, et al. "Xlnet: Generalized autoregressive pretraining for language understanding." NeurIPS2019.
(⼊⼒系列)New, York, is, a, city (予測順序)4à2à1à3à0 (city, is, York, a, New)
à J⾃⼰回帰モデルとBERTの良いところどりをしたモデル