Save 37% off PRO during our Black Friday Sale! »

最先端NLP2021: How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models

6f881fac818f465f2b375ed7e335cf2a?s=47 tatHi
September 08, 2021

最先端NLP2021: How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models

The presentation slides for 最先端NLP2021.

6f881fac818f465f2b375ed7e335cf2a?s=128

tatHi

September 08, 2021
Tweet

Transcript

  1. How Good is Your Tokenizer? On the Monolingual Performance of

    Multilingual Language Models Phillip Rust, Jonas Pfeiffer, Ivan Vulić, Sebastian Ruder, Iryna Gurevych ACL2021 Presenter: 平岡 達也 (東⼯⼤岡崎研D3) 2021/9/17 最先端NLP(東⼯⼤:平岡) 1
  2. 2021/9/17 最先端NLP(東⼯⼤:平岡) 2 Multilingual BERT Monolingual BERT

  3. どんな研究? 2021/9/17 最先端NLP(東⼯⼤:平岡) 3 Multilingual vs Monolingual BERT 本当に性能差があるのか? Multilingual

    vs Monolingual BERTの性能差は何に由来するのか? 複数⾔語・複数タスクで Monolingualが強い 事前学習のデータ量 Tokenizer ⾔語ごとに適切なTokenizerを使うと Multilingual BERTの性能向上が得られる Monolingualタスクにおいて
  4. 問題意識: Multi < Mono –lingual BERT? 2021/9/17 最先端NLP(東⼯⼤:平岡) 4 Monolingual

    BERTの⽅が Multilingual BERTよりも性能が良い Virtanen+ 2019, Antoun+ 2020, Martin+ 2020
  5. 問題意識: Multi < Mono –lingual BERT? 2021/9/17 最先端NLP(東⼯⼤:平岡) 5 Monolingual

    BERTの⽅が Multilingual BERTよりも性能が良い Virtanen+ 2019, Antoun+ 2020, Martin+ 2020 著者ら 語族やタスクが偏った実験 ばかりだからなんとも⾔えない
  6. 問題意識: Multi < Mono –lingual BERT? 2021/9/17 最先端NLP(東⼯⼤:平岡) 6 Monolingual

    BERTの⽅が Multilingual BERTよりも性能が良い Virtanen+ 2019, Antoun+ 2020, Martin+ 2020 著者ら 語族やタスクが偏った実験 ばかりだからなんとも⾔えない Monolingualが強い理由は何?
  7. 問題意識: Multi < Mono –lingual BERT? 2021/9/17 最先端NLP(東⼯⼤:平岡) 7 Monolingual

    BERTの⽅が Multilingual BERTよりも性能が良い Virtanen+ 2019, Antoun+ 2020, Martin+ 2020 著者ら 語族やタスクが偏った実験 ばかりだからなんとも⾔えない Monolingualが強い理由は何? →複数⾔語・タスクで実験
  8. 検証① Multi < Monoなのか? 2021/9/17 最先端NLP(東⼯⼤:平岡) 8 82 84 86

    88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT アフロアジア 印欧 印欧 チュルク ウラル オーストロ ネシア ⽇琉 朝鮮 シナ チベット • 語族・タスクに関わらずMonolingual BERTの性能が良い • IDはMonolingual BERTがそもそも弱いっぽい ←multilingual (例外)
  9. 検証① Multi < Monoなのか? 2021/9/17 最先端NLP(東⼯⼤:平岡) 9 82 84 86

    88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT アフロアジア 印欧 印欧 チュルク ウラル オーストロ ネシア ⽇琉 朝鮮 シナ チベット • 語族・タスクに関わらずMonolingual BERTの性能が良い • IDはMonolingual BERTがそもそも弱いっぽい ←multilingual (例外) Monolingual BERT Multilingual BERT
  10. 検証① Multi < Monoなのか? 2021/9/17 最先端NLP(東⼯⼤:平岡) 10 82 84 86

    88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT アフロアジア 印欧 印欧 チュルク ウラル オーストロ ネシア ⽇琉 朝鮮 シナ チベット • 語族・タスクに関わらずMonolingual BERTの性能が良い • IDはMonolingual BERTがそもそも弱いっぽい ←multilingual (例外) Monolingualが強い理由は何? 著者ら
  11. 検証② Multi/Monoの性能差の原因は何? 2021/9/17 最先端NLP(東⼯⼤:平岡) 11 著者ら 事前学習のデータ量 Tokenizer ⼆つの要因に着眼 Monolingualが強い理由は何?

  12. 82 84 86 88 90 92 AR EN FI ID

    JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizer 検証②’ 事前学習のデータ量の差が原因? 2021/9/17 最先端NLP(東⼯⼤:平岡) 12 事前学習のデータ量 • 仮説 • 事前学習のデータ量の差と 後段タスクの性能差に関係がある • 検証⽅法 • Multi/Mono BERTの学習に使⽤した データ量を⽐較 • 実際に⾒⽐べると • AR, FI, KO, RU, TRは関係がありそう
  13. Tokenizer 検証②’ 事前学習のデータ量の差が原因? 2021/9/17 最先端NLP(東⼯⼤:平岡) 13 82 84 86 88

    90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT 事前学習のデータ量 データ量と性能に関係がありそう • 仮説 • 事前学習のデータ量の差と 後段タスクの性能差に関係がある • 検証⽅法 • Multi/Mono BERTの学習に使⽤した データ量を⽐較 • 実際に⾒⽐べると • AR, FI, KO, RU, TRは関係がありそう
  14. 事前学習のデータ量 検証②” Tokenizerが原因? 2021/9/17 最先端NLP(東⼯⼤:平岡) 14 82 84 86 88

    90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizer ※値が⼤きいほどOver Tokenizationが起きている • 仮説 • Multilingual BERTのトークナイザーは 対象⾔語に適していない →Over Tokenizationが起きている • 検証⽅法 • Subword Fertilityを⽐較 • 単語がいくつのサブワードに分割されるか • Hello → 1.0,He ##llo → 2.0 • 結果 • AR, EN, FI, KO, RU, TRは関係ありそう
  15. 事前学習のデータ量 検証②” Tokenizerが原因? 2021/9/17 最先端NLP(東⼯⼤:平岡) 15 82 84 86 88

    90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizer Tokenizerと性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている • 仮説 • Multilingual BERTのトークナイザーは 対象⾔語に適していない →Over Tokenizationが起きている • 検証⽅法 • Subword Fertilityを⽐較 • 単語がいくつのサブワードに分割されるか • Hello → 1.0,He ##llo → 2.0 • 結果 • AR, EN, FI, KO, RU, TRは関係ありそう
  16. データ量とTokenizerの両方が性能に関係してそう 2021/9/17 最先端NLP(東⼯⼤:平岡) 16 82 84 86 88 90 92

    AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizerと性能に関係がありそう 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT データ量と性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている
  17. データ量とTokenizerの両方が性能に関係してそう 2021/9/17 最先端NLP(東⼯⼤:平岡) 17 82 84 86 88 90 92

    AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizerと性能に関係がありそう 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT データ量と性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている Tokenizerの影響 だけを調べたいな
  18. データ量とTokenizerの両方が性能に関係してそう 2021/9/17 最先端NLP(東⼯⼤:平岡) 18 82 84 86 88 90 92

    AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT Tokenizerと性能に関係がありそう 82 84 86 88 90 92 AR EN FI ID JA KO RU TR ZH NER, SA, QA, UDP, POSのスコア平均 Monolingual mBERT データ量と性能に関係がありそう ※値が⼤きいほどOver Tokenizationが起きている Tokenizerの影響 だけを調べたいな Mono/Multi Tokenizer でBERTを学習し直せば ええやん!
  19. 検証③ Tokenizerの影響 (Mono-BERT) • 同じデータで2つのMonolingual BERTを作り直す • Monolingual BERTのTokenizerを使ったもの •

    mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP(東⼯⼤:平岡) 19 Transformer Layers Embedding Monolingual Tokenizer Transformer Layers Embedding mBERTʼs Tokenizer Monolingual Wikipedia Corpus Tokenizerによって 性能が変わるはず BERT BERT
  20. 検証③ Tokenizerの影響 (Mono-BERT) • 同じデータで2つのMonolingual BERTを作り直す • Monolingual BERTのTokenizerを使ったもの •

    mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP(東⼯⼤:平岡) 20 Tokenizerによって 性能が変わるはず →Tokenizerの質が後段タスクの性能に影響 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 Mono (Original) Mono-Mono_tknzr Mono-mBERT_tknzr • Monolingual Tokenizer ( ) > mBERTʼs Tokenizer ( )
  21. 検証③ Tokenizerの影響 (Mono-BERT) • 同じデータで2つのMonolingual BERTを作り直す • Monolingual BERTのTokenizerを使ったもの •

    mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP(東⼯⼤:平岡) 21 Tokenizerによって 性能が変わるはず →Tokenizerの質が後段タスクの性能に影響 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 Mono (Original) Mono-Mono_tknzr Mono-mBERT_tknzr • Monolingual Tokenizer ( ) > mBERTʼs Tokenizer ( )
  22. 検証③ Tokenizerの影響 (Mono-BERT) • 同じデータで2つのMonolingual BERTを作り直す • Monolingual BERTのTokenizerを使ったもの •

    mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP(東⼯⼤:平岡) 22 Tokenizerによって 性能が変わるはず →Tokenizerの質が後段タスクの性能に影響 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 Mono (Original) Mono-Mono_tknzr Mono-mBERT_tknzr • Monolingual Tokenizer ( ) > mBERTʼs Tokenizer ( ) もしかしてmBERTも Tokenizerを挿げ替えれば 性能が向上する?
  23. BERT BERT 検証③’ Tokenizerの影響 (mBERT) • 同じデータで2つのmBERTのEmbeddingを再学習 • Monolingual BERTのTokenizerを使ったもの

    • mBERTのTokenizerを使ったもの 2021/9/17 最先端NLP(東⼯⼤:平岡) 23 mBERTʼs Transformer Layers New Embedding Monolingual Tokenizer mBERTʼs Transformer Layers New Embedding mBERTʼs Tokenizer Monolingual Wikipedia Corpus Tokenizerによって 性能が変わるはず Frozen Frozen
  24. 検証③’ Tokenizerの影響 (mBERT) • 同じデータで2つのmBERTのEmbeddingを再学習 • Monolingual BERTのTokenizerを使ったもの • mBERTのTokenizerを使ったもの

    2021/9/17 最先端NLP(東⼯⼤:平岡) 24 Tokenizerによって 性能が変わるはず 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 mBERT (Original) mBERT-Mono_tknzr mBERT-mBERT_tknzr • Mono-Tokenizer ( ) > mBERT-Tokenizer ( ) > Original mBERT ( ) →Monolingual Tokenizerを使うと既存のmBERTの性能向上が可能
  25. 検証③’ Tokenizerの影響 (mBERT) • 同じデータで2つのmBERTのEmbeddingを再学習 • Monolingual BERTのTokenizerを使ったもの • mBERTのTokenizerを使ったもの

    2021/9/17 最先端NLP(東⼯⼤:平岡) 25 Tokenizerによって 性能が変わるはず 82 84 86 88 90 92 AR FI ID KO TR NER, SA, QA, UDP, POSのスコア平均 mBERT (Original) mBERT-Mono_tknzr mBERT-mBERT_tknzr • Mono-Tokenizer ( ) > mBERT-Tokenizer ( ) > Original mBERT ( ) →Monolingual Tokenizerを使うと既存のmBERTの性能向上が可能
  26. 話をまとめると 2021/9/17 最先端NLP(東⼯⼤:平岡) 26 Multilingual vs Monolingual BERT 本当に性能差があるのか? Multilingual

    vs Monolingual BERTの性能差は何に由来するのか? 複数⾔語・複数タスクで 性能差あり 事前学習のデータ量 Tokenizer ひ ら お か TokenizerというよりVocab Sizeの問題では? →各⾔語の語彙の規模をバランスした 多⾔語BERTを作ると良い感じになる? ⾔語ごとに適切なTokenizerを使うと Multilingual BERTの性能向上が得られる Monolingualタスクにおいて