最先端NLP2021: How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models

How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models Phillip Rust, Jonas Pfeiffer, Ivan Vulić, Sebastian Ruder, Iryna Gurevych ACL2021 Presenter: 平岡達也（東⼯⼤岡崎研D3） 2021/9/17 最先端NLP（東⼯⼤：平岡） 1

2021/9/17 最先端NLP（東⼯⼤：平岡） 2 Multilingual BERT Monolingual BERT

どんな研究？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 3 Multilingual vs Monolingual BERT 本当に性能差があるのか？ Multilingual
vs Monolingual BERTの性能差は何に由来するのか？複数⾔語・複数タスクで Monolingualが強い事前学習のデータ量 Tokenizer ⾔語ごとに適切なTokenizerを使うと Multilingual BERTの性能向上が得られる Monolingualタスクにおいて

問題意識: Multi < Mono –lingual BERT? 2021/9/17 最先端NLP（東⼯⼤：平岡） 4 Monolingual
BERTの⽅が Multilingual BERTよりも性能が良い Virtanen+ 2019, Antoun+ 2020, Martin+ 2020

BERTの⽅が Multilingual BERTよりも性能が良い Virtanen+ 2019, Antoun+ 2020, Martin+ 2020 著者ら語族やタスクが偏った実験ばかりだからなんとも⾔えない

BERTの⽅が Multilingual BERTよりも性能が良い Virtanen+ 2019, Antoun+ 2020, Martin+ 2020 著者ら語族やタスクが偏った実験ばかりだからなんとも⾔えない Monolingualが強い理由は何？

BERTの⽅が Multilingual BERTよりも性能が良い Virtanen+ 2019, Antoun+ 2020, Martin+ 2020 著者ら語族やタスクが偏った実験ばかりだからなんとも⾔えない Monolingualが強い理由は何？ →複数⾔語・タスクで実験

検証① Multi < Monoなのか？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 8 82 84 86
88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT アフロアジア印欧印欧チュルクウラルオーストロネシア⽇琉朝鮮シナチベット • 語族・タスクに関わらずMonolingual BERTの性能が良い • IDはMonolingual BERTがそもそも弱いっぽい ←multilingual （例外）

88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT アフロアジア印欧印欧チュルクウラルオーストロネシア⽇琉朝鮮シナチベット • 語族・タスクに関わらずMonolingual BERTの性能が良い • IDはMonolingual BERTがそもそも弱いっぽい ←multilingual （例外） Monolingual BERT Multilingual BERT

88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT アフロアジア印欧印欧チュルクウラルオーストロネシア⽇琉朝鮮シナチベット • 語族・タスクに関わらずMonolingual BERTの性能が良い • IDはMonolingual BERTがそもそも弱いっぽい ←multilingual （例外） Monolingualが強い理由は何？著者ら

検証② Multi/Monoの性能差の原因は何？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 11 著者ら事前学習のデータ量 Tokenizer ⼆つの要因に着眼 Monolingualが強い理由は何？

82 84 86 88 90 92 AR EN FI ID
JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizer 検証②’ 事前学習のデータ量の差が原因？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 12 事前学習のデータ量 • 仮説 • 事前学習のデータ量の差と後段タスクの性能差に関係がある • 検証⽅法 • Multi/Mono BERTの学習に使⽤したデータ量を⽐較 • 実際に⾒⽐べると • AR, FI, KO, RU, TRは関係がありそう

Tokenizer 検証②’ 事前学習のデータ量の差が原因？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 13 82 84 86 88
90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT 事前学習のデータ量データ量と性能に関係がありそう • 仮説 • 事前学習のデータ量の差と後段タスクの性能差に関係がある • 検証⽅法 • Multi/Mono BERTの学習に使⽤したデータ量を⽐較 • 実際に⾒⽐べると • AR, FI, KO, RU, TRは関係がありそう

事前学習のデータ量検証②” Tokenizerが原因？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 14 82 84 86 88
90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizer ※値が⼤きいほどOver Tokenizationが起きている • 仮説 • Multilingual BERTのトークナイザーは対象⾔語に適していない →Over Tokenizationが起きている • 検証⽅法 • Subword Fertilityを⽐較 • 単語がいくつのサブワードに分割されるか • Hello → 1.0，He ##llo → 2.0 • 結果 • AR, EN, FI, KO, RU, TRは関係ありそう

事前学習のデータ量検証②” Tokenizerが原因？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 15 82 84 86 88
90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizer Tokenizerと性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている • 仮説 • Multilingual BERTのトークナイザーは対象⾔語に適していない →Over Tokenizationが起きている • 検証⽅法 • Subword Fertilityを⽐較 • 単語がいくつのサブワードに分割されるか • Hello → 1.0，He ##llo → 2.0 • 結果 • AR, EN, FI, KO, RU, TRは関係ありそう

データ量とTokenizerの両方が性能に関係してそう 2021/9/17 最先端NLP（東⼯⼤：平岡） 16 82 84 86 88 90 92
AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizerと性能に関係がありそう 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT データ量と性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている

AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizerと性能に関係がありそう 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT データ量と性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている Tokenizerの影響だけを調べたいな

AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizerと性能に関係がありそう 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT データ量と性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている Tokenizerの影響だけを調べたいな Mono/Multi Tokenizer でBERTを学習し直せばええやん！

検証③ Tokenizerの影響 (Mono-BERT) • 同じデータで2つのMonolingual BERTを作り直す • Monolingual BERTのTokenizerを使ったもの •
mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP（東⼯⼤：平岡） 19 Transformer Layers Embedding Monolingual Tokenizer Transformer Layers Embedding mBERTʼs Tokenizer Monolingual Wikipedia Corpus Tokenizerによって性能が変わるはず BERT BERT

mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP（東⼯⼤：平岡） 20 Tokenizerによって性能が変わるはず →Tokenizerの質が後段タスクの性能に影響 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 Mono (Original) Mono-Mono_tknzr Mono-mBERT_tknzr • Monolingual Tokenizer ( ) > mBERTʼs Tokenizer ( )

mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP（東⼯⼤：平岡） 21 Tokenizerによって性能が変わるはず →Tokenizerの質が後段タスクの性能に影響 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 Mono (Original) Mono-Mono_tknzr Mono-mBERT_tknzr • Monolingual Tokenizer ( ) > mBERTʼs Tokenizer ( )

mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP（東⼯⼤：平岡） 22 Tokenizerによって性能が変わるはず →Tokenizerの質が後段タスクの性能に影響 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 Mono (Original) Mono-Mono_tknzr Mono-mBERT_tknzr • Monolingual Tokenizer ( ) > mBERTʼs Tokenizer ( ) もしかしてmBERTも Tokenizerを挿げ替えれば性能が向上する？

BERT BERT 検証③’ Tokenizerの影響 (mBERT) • 同じデータで2つのmBERTのEmbeddingを再学習 • Monolingual BERTのTokenizerを使ったもの
• mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP（東⼯⼤：平岡） 23 mBERTʼs Transformer Layers New Embedding Monolingual Tokenizer mBERTʼs Transformer Layers New Embedding mBERTʼs Tokenizer Monolingual Wikipedia Corpus Tokenizerによって性能が変わるはず Frozen Frozen

検証③’ Tokenizerの影響 (mBERT) • 同じデータで2つのmBERTのEmbeddingを再学習 • Monolingual BERTのTokenizerを使ったもの • mBERTのTokenizerを使ったもの
2021/9/17 最先端NLP（東⼯⼤：平岡） 24 Tokenizerによって性能が変わるはず 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 mBERT (Original) mBERT-Mono_tknzr mBERT-mBERT_tknzr • Mono-Tokenizer ( ) > mBERT-Tokenizer ( ) > Original mBERT ( ) →Monolingual Tokenizerを使うと既存のmBERTの性能向上が可能

検証③’ Tokenizerの影響 (mBERT) • 同じデータで2つのmBERTのEmbeddingを再学習 • Monolingual BERTのTokenizerを使ったもの • mBERTのTokenizerを使ったもの
2021/9/17 最先端NLP（東⼯⼤：平岡） 25 Tokenizerによって性能が変わるはず 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 mBERT (Original) mBERT-Mono_tknzr mBERT-mBERT_tknzr • Mono-Tokenizer ( ) > mBERT-Tokenizer ( ) > Original mBERT ( ) →Monolingual Tokenizerを使うと既存のmBERTの性能向上が可能

話をまとめると 2021/9/17 最先端NLP（東⼯⼤：平岡） 26 Multilingual vs Monolingual BERT 本当に性能差があるのか？ Multilingual
vs Monolingual BERTの性能差は何に由来するのか？複数⾔語・複数タスクで性能差あり事前学習のデータ量 Tokenizer ひらおか TokenizerというよりVocab Sizeの問題では？ →各⾔語の語彙の規模をバランスした多⾔語BERTを作ると良い感じになる？⾔語ごとに適切なTokenizerを使うと Multilingual BERTの性能向上が得られる Monolingualタスクにおいて

最先端NLP2021: How Good is Your Tokenizer? On the ...

最先端NLP2021: How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models

tatHi

More Decks by tatHi

Other Decks in Research

Featured

Transcript

How Good is Your Tokenizer? On the Monolingual Performance of

2021/9/17 最先端NLP（東⼯⼤：平岡） 2 Multilingual BERT Monolingual BERT

どんな研究？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 3 Multilingual vs Monolingual BERT 本当に性能差があるのか？ Multilingual

問題意識: Multi < Mono –lingual BERT? 2021/9/17 最先端NLP（東⼯⼤：平岡） 4 Monolingual

問題意識: Multi < Mono –lingual BERT? 2021/9/17 最先端NLP（東⼯⼤：平岡） 5 Monolingual

問題意識: Multi < Mono –lingual BERT? 2021/9/17 最先端NLP（東⼯⼤：平岡） 6 Monolingual

問題意識: Multi < Mono –lingual BERT? 2021/9/17 最先端NLP（東⼯⼤：平岡） 7 Monolingual

検証① Multi < Monoなのか？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 8 82 84 86

検証① Multi < Monoなのか？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 9 82 84 86

検証① Multi < Monoなのか？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 10 82 84 86

検証② Multi/Monoの性能差の原因は何？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 11 著者ら事前学習のデータ量 Tokenizer ⼆つの要因に着眼 Monolingualが強い理由は何？

82 84 86 88 90 92 AR EN FI ID

Tokenizer 検証②’ 事前学習のデータ量の差が原因？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 13 82 84 86 88

事前学習のデータ量検証②” Tokenizerが原因？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 14 82 84 86 88

事前学習のデータ量検証②” Tokenizerが原因？ 2021/9/17 最先端NLP（東⼯⼤：平岡） 15 82 84 86 88

データ量とTokenizerの両方が性能に関係してそう 2021/9/17 最先端NLP（東⼯⼤：平岡） 16 82 84 86 88 90 92

データ量とTokenizerの両方が性能に関係してそう 2021/9/17 最先端NLP（東⼯⼤：平岡） 17 82 84 86 88 90 92

データ量とTokenizerの両方が性能に関係してそう 2021/9/17 最先端NLP（東⼯⼤：平岡） 18 82 84 86 88 90 92

検証③ Tokenizerの影響 (Mono-BERT) • 同じデータで2つのMonolingual BERTを作り直す • Monolingual BERTのTokenizerを使ったもの •

検証③ Tokenizerの影響 (Mono-BERT) • 同じデータで2つのMonolingual BERTを作り直す • Monolingual BERTのTokenizerを使ったもの •

検証③ Tokenizerの影響 (Mono-BERT) • 同じデータで2つのMonolingual BERTを作り直す • Monolingual BERTのTokenizerを使ったもの •

検証③ Tokenizerの影響 (Mono-BERT) • 同じデータで2つのMonolingual BERTを作り直す • Monolingual BERTのTokenizerを使ったもの •

BERT BERT 検証③’ Tokenizerの影響 (mBERT) • 同じデータで2つのmBERTのEmbeddingを再学習 • Monolingual BERTのTokenizerを使ったもの

検証③’ Tokenizerの影響 (mBERT) • 同じデータで2つのmBERTのEmbeddingを再学習 • Monolingual BERTのTokenizerを使ったもの • mBERTのTokenizerを使ったもの

検証③’ Tokenizerの影響 (mBERT) • 同じデータで2つのmBERTのEmbeddingを再学習 • Monolingual BERTのTokenizerを使ったもの • mBERTのTokenizerを使ったもの

話をまとめると 2021/9/17 最先端NLP（東⼯⼤：平岡） 26 Multilingual vs Monolingual BERT 本当に性能差があるのか？ Multilingual