Slide 1

Slide 1 text

How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models Phillip Rust, Jonas Pfeiffer, Ivan Vulić, Sebastian Ruder, Iryna Gurevych ACL2021 Presenter: 平岡 達也 (東⼯⼤岡崎研D3) 2021/9/17 最先端NLP(東⼯⼤:平岡) 1

Slide 2

Slide 2 text

2021/9/17 最先端NLP(東⼯⼤:平岡) 2 Multilingual BERT Monolingual BERT

Slide 3

Slide 3 text

どんな研究? 2021/9/17 最先端NLP(東⼯⼤:平岡) 3 Multilingual vs Monolingual BERT 本当に性能差があるのか? Multilingual vs Monolingual BERTの性能差は何に由来するのか? 複数⾔語・複数タスクで Monolingualが強い 事前学習のデータ量 Tokenizer ⾔語ごとに適切なTokenizerを使うと Multilingual BERTの性能向上が得られる Monolingualタスクにおいて

Slide 4

Slide 4 text

問題意識: Multi < Mono –lingual BERT? 2021/9/17 最先端NLP(東⼯⼤:平岡) 4 Monolingual BERTの⽅が Multilingual BERTよりも性能が良い Virtanen+ 2019, Antoun+ 2020, Martin+ 2020

Slide 5

Slide 5 text

問題意識: Multi < Mono –lingual BERT? 2021/9/17 最先端NLP(東⼯⼤:平岡) 5 Monolingual BERTの⽅が Multilingual BERTよりも性能が良い Virtanen+ 2019, Antoun+ 2020, Martin+ 2020 著者ら 語族やタスクが偏った実験 ばかりだからなんとも⾔えない

Slide 6

Slide 6 text

問題意識: Multi < Mono –lingual BERT? 2021/9/17 最先端NLP(東⼯⼤:平岡) 6 Monolingual BERTの⽅が Multilingual BERTよりも性能が良い Virtanen+ 2019, Antoun+ 2020, Martin+ 2020 著者ら 語族やタスクが偏った実験 ばかりだからなんとも⾔えない Monolingualが強い理由は何?

Slide 7

Slide 7 text

問題意識: Multi < Mono –lingual BERT? 2021/9/17 最先端NLP(東⼯⼤:平岡) 7 Monolingual BERTの⽅が Multilingual BERTよりも性能が良い Virtanen+ 2019, Antoun+ 2020, Martin+ 2020 著者ら 語族やタスクが偏った実験 ばかりだからなんとも⾔えない Monolingualが強い理由は何? →複数⾔語・タスクで実験

Slide 8

Slide 8 text

検証① Multi < Monoなのか? 2021/9/17 最先端NLP(東⼯⼤:平岡) 8 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT アフロアジア 印欧 印欧 チュルク ウラル オーストロ ネシア ⽇琉 朝鮮 シナ チベット • 語族・タスクに関わらずMonolingual BERTの性能が良い • IDはMonolingual BERTがそもそも弱いっぽい ←multilingual (例外)

Slide 9

Slide 9 text

検証① Multi < Monoなのか? 2021/9/17 最先端NLP(東⼯⼤:平岡) 9 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT アフロアジア 印欧 印欧 チュルク ウラル オーストロ ネシア ⽇琉 朝鮮 シナ チベット • 語族・タスクに関わらずMonolingual BERTの性能が良い • IDはMonolingual BERTがそもそも弱いっぽい ←multilingual (例外) Monolingual BERT Multilingual BERT

Slide 10

Slide 10 text

検証① Multi < Monoなのか? 2021/9/17 最先端NLP(東⼯⼤:平岡) 10 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT アフロアジア 印欧 印欧 チュルク ウラル オーストロ ネシア ⽇琉 朝鮮 シナ チベット • 語族・タスクに関わらずMonolingual BERTの性能が良い • IDはMonolingual BERTがそもそも弱いっぽい ←multilingual (例外) Monolingualが強い理由は何? 著者ら

Slide 11

Slide 11 text

検証② Multi/Monoの性能差の原因は何? 2021/9/17 最先端NLP(東⼯⼤:平岡) 11 著者ら 事前学習のデータ量 Tokenizer ⼆つの要因に着眼 Monolingualが強い理由は何?

Slide 12

Slide 12 text

82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizer 検証②’ 事前学習のデータ量の差が原因? 2021/9/17 最先端NLP(東⼯⼤:平岡) 12 事前学習のデータ量 • 仮説 • 事前学習のデータ量の差と 後段タスクの性能差に関係がある • 検証⽅法 • Multi/Mono BERTの学習に使⽤した データ量を⽐較 • 実際に⾒⽐べると • AR, FI, KO, RU, TRは関係がありそう

Slide 13

Slide 13 text

Tokenizer 検証②’ 事前学習のデータ量の差が原因? 2021/9/17 最先端NLP(東⼯⼤:平岡) 13 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT 事前学習のデータ量 データ量と性能に関係がありそう • 仮説 • 事前学習のデータ量の差と 後段タスクの性能差に関係がある • 検証⽅法 • Multi/Mono BERTの学習に使⽤した データ量を⽐較 • 実際に⾒⽐べると • AR, FI, KO, RU, TRは関係がありそう

Slide 14

Slide 14 text

事前学習のデータ量 検証②” Tokenizerが原因? 2021/9/17 最先端NLP(東⼯⼤:平岡) 14 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizer ※値が⼤きいほどOver Tokenizationが起きている • 仮説 • Multilingual BERTのトークナイザーは 対象⾔語に適していない →Over Tokenizationが起きている • 検証⽅法 • Subword Fertilityを⽐較 • 単語がいくつのサブワードに分割されるか • Hello → 1.0,He ##llo → 2.0 • 結果 • AR, EN, FI, KO, RU, TRは関係ありそう

Slide 15

Slide 15 text

事前学習のデータ量 検証②” Tokenizerが原因? 2021/9/17 最先端NLP(東⼯⼤:平岡) 15 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizer Tokenizerと性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている • 仮説 • Multilingual BERTのトークナイザーは 対象⾔語に適していない →Over Tokenizationが起きている • 検証⽅法 • Subword Fertilityを⽐較 • 単語がいくつのサブワードに分割されるか • Hello → 1.0,He ##llo → 2.0 • 結果 • AR, EN, FI, KO, RU, TRは関係ありそう

Slide 16

Slide 16 text

データ量とTokenizerの両方が性能に関係してそう 2021/9/17 最先端NLP(東⼯⼤:平岡) 16 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizerと性能に関係がありそう 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT データ量と性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている

Slide 17

Slide 17 text

データ量とTokenizerの両方が性能に関係してそう 2021/9/17 最先端NLP(東⼯⼤:平岡) 17 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizerと性能に関係がありそう 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT データ量と性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている Tokenizerの影響 だけを調べたいな

Slide 18

Slide 18 text

データ量とTokenizerの両方が性能に関係してそう 2021/9/17 最先端NLP(東⼯⼤:平岡) 18 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizerと性能に関係がありそう 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT データ量と性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている Tokenizerの影響 だけを調べたいな Mono/Multi Tokenizer でBERTを学習し直せば ええやん!

Slide 19

Slide 19 text

検証③ Tokenizerの影響 (Mono-BERT) • 同じデータで2つのMonolingual BERTを作り直す • Monolingual BERTのTokenizerを使ったもの • mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP(東⼯⼤:平岡) 19 Transformer Layers Embedding Monolingual Tokenizer Transformer Layers Embedding mBERTʼs Tokenizer Monolingual Wikipedia Corpus Tokenizerによって 性能が変わるはず BERT BERT

Slide 20

Slide 20 text

検証③ Tokenizerの影響 (Mono-BERT) • 同じデータで2つのMonolingual BERTを作り直す • Monolingual BERTのTokenizerを使ったもの • mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP(東⼯⼤:平岡) 20 Tokenizerによって 性能が変わるはず →Tokenizerの質が後段タスクの性能に影響 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 Mono (Original) Mono-Mono_tknzr Mono-mBERT_tknzr • Monolingual Tokenizer ( ) > mBERTʼs Tokenizer ( )

Slide 21

Slide 21 text

検証③ Tokenizerの影響 (Mono-BERT) • 同じデータで2つのMonolingual BERTを作り直す • Monolingual BERTのTokenizerを使ったもの • mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP(東⼯⼤:平岡) 21 Tokenizerによって 性能が変わるはず →Tokenizerの質が後段タスクの性能に影響 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 Mono (Original) Mono-Mono_tknzr Mono-mBERT_tknzr • Monolingual Tokenizer ( ) > mBERTʼs Tokenizer ( )

Slide 22

Slide 22 text

検証③ Tokenizerの影響 (Mono-BERT) • 同じデータで2つのMonolingual BERTを作り直す • Monolingual BERTのTokenizerを使ったもの • mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP(東⼯⼤:平岡) 22 Tokenizerによって 性能が変わるはず →Tokenizerの質が後段タスクの性能に影響 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 Mono (Original) Mono-Mono_tknzr Mono-mBERT_tknzr • Monolingual Tokenizer ( ) > mBERTʼs Tokenizer ( ) もしかしてmBERTも Tokenizerを挿げ替えれば 性能が向上する?

Slide 23

Slide 23 text

BERT BERT 検証③’ Tokenizerの影響 (mBERT) • 同じデータで2つのmBERTのEmbeddingを再学習 • Monolingual BERTのTokenizerを使ったもの • mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP(東⼯⼤:平岡) 23 mBERTʼs Transformer Layers New Embedding Monolingual Tokenizer mBERTʼs Transformer Layers New Embedding mBERTʼs Tokenizer Monolingual Wikipedia Corpus Tokenizerによって 性能が変わるはず Frozen Frozen

Slide 24

Slide 24 text

検証③’ Tokenizerの影響 (mBERT) • 同じデータで2つのmBERTのEmbeddingを再学習 • Monolingual BERTのTokenizerを使ったもの • mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP(東⼯⼤:平岡) 24 Tokenizerによって 性能が変わるはず 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 mBERT (Original) mBERT-Mono_tknzr mBERT-mBERT_tknzr • Mono-Tokenizer ( ) > mBERT-Tokenizer ( ) > Original mBERT ( ) →Monolingual Tokenizerを使うと既存のmBERTの性能向上が可能

Slide 25

Slide 25 text

検証③’ Tokenizerの影響 (mBERT) • 同じデータで2つのmBERTのEmbeddingを再学習 • Monolingual BERTのTokenizerを使ったもの • mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP(東⼯⼤:平岡) 25 Tokenizerによって 性能が変わるはず 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 mBERT (Original) mBERT-Mono_tknzr mBERT-mBERT_tknzr • Mono-Tokenizer ( ) > mBERT-Tokenizer ( ) > Original mBERT ( ) →Monolingual Tokenizerを使うと既存のmBERTの性能向上が可能

Slide 26

Slide 26 text

話をまとめると 2021/9/17 最先端NLP(東⼯⼤:平岡) 26 Multilingual vs Monolingual BERT 本当に性能差があるのか? Multilingual vs Monolingual BERTの性能差は何に由来するのか? 複数⾔語・複数タスクで 性能差あり 事前学習のデータ量 Tokenizer ひ ら お か TokenizerというよりVocab Sizeの問題では? →各⾔語の語彙の規模をバランスした 多⾔語BERTを作ると良い感じになる? ⾔語ごとに適切なTokenizerを使うと Multilingual BERTの性能向上が得られる Monolingualタスクにおいて