Slide 14
Slide 14 text
事前学習のデータ量
検証②” Tokenizerが原因?
2021/9/17 最先端NLP(東⼯⼤:平岡) 14
82
84
86
88
90
92
AR EN FI ID JA KO RU TR ZH
NER, SA, QA, UDP, POSのスコア平均
Monolingual
mBERT
Tokenizer
※値が⼤きいほどOver Tokenizationが起きている
• 仮説
• Multilingual BERTのトークナイザーは
対象⾔語に適していない
→Over Tokenizationが起きている
• 検証⽅法
• Subword Fertilityを⽐較
• 単語がいくつのサブワードに分割されるか
• Hello → 1.0,He ##llo → 2.0
• 結果
• AR, EN, FI, KO, RU, TRは関係ありそう