How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models Phillip Rust, Jonas Pfeiffer, Ivan Vulić, Sebastian Ruder, Iryna Gurevych ACL2021 Presenter: 平岡 達也 (東⼯⼤岡崎研D3) 2021/9/17 最先端NLP(東⼯⼤:平岡) 1
データ量とTokenizerの両方が性能に関係してそう 2021/9/17 最先端NLP(東⼯⼤:平岡) 16 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizerと性能に関係がありそう 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT データ量と性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている
データ量とTokenizerの両方が性能に関係してそう 2021/9/17 最先端NLP(東⼯⼤:平岡) 17 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizerと性能に関係がありそう 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT データ量と性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている Tokenizerの影響 だけを調べたいな
データ量とTokenizerの両方が性能に関係してそう 2021/9/17 最先端NLP(東⼯⼤:平岡) 18 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizerと性能に関係がありそう 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT データ量と性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている Tokenizerの影響 だけを調べたいな Mono/Multi Tokenizer でBERTを学習し直せば ええやん!