SNLP2023: From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding

Slide 1

Slide 1 text

From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding Li Sun, Florian Luisier, Kayhan Batmanghelich, Dinei Florencio, Cha Zhang (ACL2023) Presenter: 平岡達也 @7a7hi 2023/08/28 最先端NLP（平岡） 1

Slide 2

Slide 2 text

一言でまとめると 2023/08/28 最先端NLP（平岡） 2 ⽂字情報と単語情報を階層的に扱えるTransformer構造を提案⽂字情報を扱えるため、Typoや未知語に強い事前学習済みモデルを作成可能実際に、NLUタスクで強く、⼈⼯的な⼊⼒ノイズやドメインシフトに強い

Slide 3

Slide 3 text

Word-levelな構造 2023/08/28 最先端NLP（平岡） 3 Word-level hello wrld Word-level Transformer [output] Character-levelに⽐べて⼊⼒が⻑くならない未知語やタイポに弱い Pros Cons OOV

Slide 4

Slide 4 text

Character-levelな構造 2023/08/28 最先端NLP（平岡） 4 Word-level hello wrld h e l l o w r l d Character-level Word-level Transformer Char-level Transformer [output] [output] Character-levelに⽐べて⼊⼒が⻑くならない未知語やタイポに弱い Pros Cons 未知語やタイポに強い (open-vocab) Word-levelに⽐べて⼊⼒系列が⻑くなる Pros Cons OOV 10 tokens

Slide 5

Slide 5 text

Hierarchicalな構造 2023/08/28 最先端NLP（平岡） 5 Word-level hello wrld h e l l o w r l d Character-level Hierarchical Word-level Transformer Char-level Transformer [output] Char-level Char-level Word-level Transformer [output] h e l l o w r l d [output] Character-levelに⽐べて⼊⼒が⻑くならない未知語やタイポに弱い Pros Cons 未知語やタイポに強い (open-vocab) Word-levelに⽐べて⼊⼒系列が⻑くなる Pros Cons 未知語やタイポに強い (open-vocab) & ⼊⼒も⻑くならない Pros OOV 10 tokens LSTM時代ではLing+(2015), Ballesteros+(2015), Lample+(2016)が有名

Slide 6

Slide 6 text

Hierarchicalな構造 2023/08/28 最先端NLP（平岡） 6 Word-level hello wrld h e l l o w r l d Character-level Hierarchical Word-level Transformer Char-level Transformer [output] Char-level Char-level Word-level Transformer [output] h e l l o w r l d [output] Character-levelに⽐べて⼊⼒が⻑くならない未知語やタイポに弱い Pros Cons 未知語やタイポに強い (open-vocab) Word-levelに⽐べて⼊⼒系列が⻑くなる Pros Cons 未知語やタイポに強い (open-vocab) & ⼊⼒も⻑くならない Pros OOV 10 tokens LSTM時代ではLing+(2015), Ballesteros+(2015), Lample+(2016)が有名こういう構造でpre-training したら強いのでは？ …という話

Slide 7

Slide 7 text

提案手法：構造 2023/08/28 最先端NLP（平岡） 7 Word-level Transformer [WORD_CLS] h e l l o [WORD_CLS] w r l d [output] Char-level Transformer Char-level Transformer 単語表現の作り⽅ Acc on MRPC 各⽂字のAve-Pooling 82.1 各⽂字のMax-Pooling 83.6 [WORD_CLS] 86.0 hello wrld 単語表現は[WORD_CLS]に対応する出⼒を利⽤（イマドキ…） • 単語表現を⽂字表現からcompositionalに作成する階層的構造 Poolingで単語表現を作るよくある⽅法は微妙らしい 12層 4層

Slide 8

Slide 8 text

Word-level Transformer 提案手法：学習 • Character-level Masked Language Modelとして事前学習 • Wikipedia & BookCorpus 2023/08/28 最先端NLP（平岡） 8 [WORD_CLS] h e l l o [WORD_CLS] w r l d hello wrld Prediction Head (Single Transformer Layer) 12層 Char-level Transformer Char-level Transformer 4層 [WORD_CLS] h e l l o [WORD_CLS] w r l d Finetuning・推論ではここだけ使う

Slide 9

Slide 9 text

実験：GLUE Tasks 2023/08/28 最先端NLP（平岡） 9 subword-level byte-level char-level word&char (CNN) word&char (GRU) word&char (Transformer) • Subword-levelなモデルよりも性能が良さげ • Character/byte-levelなモデルと⽐較すると安定して性能が良い • 既存のCharacter/word双⽅の情報を⽤いる⼿法と⽐べても性能が良い • CharacterBERTはCNNで⽂字情報から単語表現を作るHierarchicalな⼿法 • CharBERTはGRUで読み込んだ⽂字情報を追加で使うParallelな⼿法

Slide 10

Slide 10 text

実験：GLUE Tasks 2023/08/28 最先端NLP（平岡） 10 subword-level byte-level char-level word&char (CNN) word&char (GRU) word&char (Transformer) • Subword-levelなモデルよりも性能が良さげ • Character/byte-levelなモデルと⽐較すると安定して性能が良い • 既存のCharacter/word双⽅の情報を⽤いる⼿法と⽐べても性能が良い • CharacterBERTはCNNで⽂字情報から単語表現を作るHierarchicalな⼿法 • CharBERTはGRUで読み込んだ⽂字情報を追加で使うParallelな⼿法

Slide 11

Slide 11 text

実験：GLUE Tasks 2023/08/28 最先端NLP（平岡） 11 subword-level byte-level char-level word&char (CNN) word&char (GRU) word&char (Transformer) • Subword-levelなモデルよりも性能が良さげ • Character/byte-levelなモデルと⽐較すると安定して性能が良い • 既存のCharacter/word双⽅の情報を⽤いる⼿法と⽐べても性能が良い • CharacterBERTはCNNで⽂字情報から単語表現を作るHierarchicalな⼿法 • CharBERTはGRUで読み込んだ⽂字情報を追加で使うParallelな⼿法

Slide 12

Slide 12 text

実験：GLUE Tasks 2023/08/28 最先端NLP（平岡） 12 subword-level byte-level char-level word&char (CNN) word&char (GRU) word&char (Transformer) • Subword-levelなモデルよりも性能が良さげ • Character/byte-levelなモデルと⽐較すると安定して性能が良い • 既存のCharacter/word双⽅の情報を⽤いる⼿法と⽐べても性能が良い • CharacterBERTはCNNで⽂字情報から単語表現を作るHierarchicalな⼿法 • CharBERTはGRUで読み込んだ⽂字情報を追加で使うParallelな⼿法

Slide 13

Slide 13 text

実験：人工ノイズに対して頑健 2023/08/28 最先端NLP（平岡） 13 ランダムに10%の⽂字を削除 Finetuning/evaluationデータに対するランダムに選択した 20%の⽂字を 1〜3回リピート各⽂字をランダムに⼩/⼤⽂字に変換

Slide 14

Slide 14 text

実験：人工ノイズに対して頑健 2023/08/28 最先端NLP（平岡） 14 ランダムに10%の⽂字を削除 Finetuning/evaluationデータに対するランダムに選択した 20%の⽂字を 1〜3回リピート各⽂字をランダムに⼩/⼤⽂字に変換 Subword-levelはノイズにとても弱い

Slide 15

Slide 15 text

実験：人工ノイズに対して頑健 2023/08/28 最先端NLP（平岡） 15 ランダムに10%の⽂字を削除 Finetuning/evaluationデータに対するランダムに選択した 20%の⽂字を 1〜3回リピート各⽂字をランダムに⼩/⼤⽂字に変換 Subword-levelはノイズにとても弱い Character-levelを使う⼿法ははノイズに頑健提案⼿法は安定して良い

Slide 16

Slide 16 text

実験：人工ノイズに対して頑健 2023/08/28 最先端NLP（平岡） 16 ランダムに10%の⽂字を削除 Finetuning/evaluationデータに対するランダムに選択した 20%の⽂字を 1〜3回リピート各⽂字をランダムに⼩/⼤⽂字に変換 Subword-levelはノイズにとても弱い Character-levelを使う⼿法ははノイズに頑健提案⼿法は安定して良い • Subword-level (BERT) はノイズにとても弱い • Character-levelな情報を使う⼿法はノイズによる性能の下がり幅が⼩さい • 提案⼿法とCANINEはノイズに特に頑健だが、提案⼿法のほうが全体的に性能が良い性能が良い性能が悪いノイズが強いノイズが弱い

Slide 17

Slide 17 text

実験：ドメインシフトにも強い 2023/08/28 最先端NLP（平岡） 17 事前学習データはWikipedia & BookCorpus Biomedical NER Social Media NER

Slide 18

Slide 18 text

実験：ドメインシフトにも強い 2023/08/28 最先端NLP（平岡） 18 事前学習データはWikipedia & BookCorpus Biomedical NER Social Media NER BERTよりは良い Character-levelの他の⼿法が弱すぎる（なぜ？）

Slide 19

Slide 19 text

実験：ドメインシフトにも強い 2023/08/28 最先端NLP（平岡） 19 事前学習データはWikipedia & BookCorpus Biomedical NER Social Media NER BERTよりは良い Character-levelの他の⼿法が弱すぎる（なぜ？） Subword-levelなモデルはサブワード分割が壊れると失敗しがち →提案⼿法は⽂字を⾒てるので頑健

Slide 20

Slide 20 text

まとめ • 偉い点 • ⽂字情報から単語表現を作る⽅法についてちゃんと検討している • Character-levelな⼿法と⽐較している • ⼀部の実験はCharacter-levelの性能が異常に低く評価が怪しいような…？ • ⼈⼯ノイズやドメインシフト、NERなど、この⼿の⼿法で気になる評価をしっかり取り扱っている • 使い道 • 汚いデータでの利⽤を想定したLLMを作るなら役に⽴つかも • Character-levelな⼿法よりは速いらしいです（ほんとに？） • 感想 • これのTransformerバージョン、まだやられてなかったんだ… 2023/08/28 最先端NLP（平岡） 20 ⽂字情報と単語情報を階層的に扱えるTransformer構造を提案⽂字情報を扱えるため、Typoや未知語に強い事前学習済みモデルを作成可能