From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding Li Sun, Florian Luisier, Kayhan Batmanghelich, Dinei Florencio, Cha Zhang (ACL2023) Presenter: 平岡 達也 @7a7hi 2023/08/28 最先端NLP(平岡) 1
Character-levelな構造 2023/08/28 最先端NLP(平岡) 4 Word-level hello wrld h e l l o w r l d Character-level Word-level Transformer Char-level Transformer [output] [output] Character-levelに⽐べて ⼊⼒が⻑くならない 未知語やタイポに弱い Pros Cons 未知語やタイポに強い (open-vocab) Word-levelに⽐べて ⼊⼒系列が⻑くなる Pros Cons OOV 10 tokens
Hierarchicalな構造 2023/08/28 最先端NLP(平岡) 5 Word-level hello wrld h e l l o w r l d Character-level Hierarchical Word-level Transformer Char-level Transformer [output] Char-level Char-level Word-level Transformer [output] h e l l o w r l d [output] Character-levelに⽐べて ⼊⼒が⻑くならない 未知語やタイポに弱い Pros Cons 未知語やタイポに強い (open-vocab) Word-levelに⽐べて ⼊⼒系列が⻑くなる Pros Cons 未知語やタイポに強い (open-vocab) & ⼊⼒も⻑くならない Pros OOV 10 tokens LSTM時代ではLing+(2015), Ballesteros+(2015), Lample+(2016)が有名
Hierarchicalな構造 2023/08/28 最先端NLP(平岡) 6 Word-level hello wrld h e l l o w r l d Character-level Hierarchical Word-level Transformer Char-level Transformer [output] Char-level Char-level Word-level Transformer [output] h e l l o w r l d [output] Character-levelに⽐べて ⼊⼒が⻑くならない 未知語やタイポに弱い Pros Cons 未知語やタイポに強い (open-vocab) Word-levelに⽐べて ⼊⼒系列が⻑くなる Pros Cons 未知語やタイポに強い (open-vocab) & ⼊⼒も⻑くならない Pros OOV 10 tokens LSTM時代ではLing+(2015), Ballesteros+(2015), Lample+(2016)が有名 こういう構造でpre-training したら強いのでは? …という話
提案手法:構造 2023/08/28 最先端NLP(平岡) 7 Word-level Transformer [WORD_CLS] h e l l o [WORD_CLS] w r l d [output] Char-level Transformer Char-level Transformer 単語表現の作り⽅ Acc on MRPC 各⽂字のAve-Pooling 82.1 各⽂字のMax-Pooling 83.6 [WORD_CLS] 86.0 hello wrld 単語表現は[WORD_CLS]に 対応する出⼒を利⽤ (イマドキ…) • 単語表現を⽂字表現からcompositionalに作成する階層的構造 Poolingで単語表現を作る よくある⽅法は微妙らしい 12層 4層
Word-level Transformer 提案手法:学習 • Character-level Masked Language Modelとして事前学習 • Wikipedia & BookCorpus 2023/08/28 最先端NLP(平岡) 8 [WORD_CLS] h e l l o [WORD_CLS] w r l d hello wrld Prediction Head (Single Transformer Layer) 12層 Char-level Transformer Char-level Transformer 4層 [WORD_CLS] h e l l o [WORD_CLS] w r l d Finetuning・推論では ここだけ使う
実験:ドメインシフトにも強い 2023/08/28 最先端NLP(平岡) 19 事前学習データはWikipedia & BookCorpus Biomedical NER Social Media NER BERTよりは良い Character-levelの 他の⼿法が弱すぎる (なぜ?) Subword-levelなモデルは サブワード分割が壊れると 失敗しがち →提案⼿法は⽂字を⾒てるので頑健