Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最先端NLP2021: How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models

tatHi
September 08, 2021

最先端NLP2021: How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models

The presentation slides for 最先端NLP2021.

tatHi

September 08, 2021
Tweet

More Decks by tatHi

Other Decks in Research

Transcript

  1. How Good is Your Tokenizer?
    On the Monolingual Performance
    of Multilingual Language Models
    Phillip Rust, Jonas Pfeiffer, Ivan Vulić, Sebastian Ruder, Iryna Gurevych
    ACL2021
    Presenter: 平岡 達也 (東⼯⼤岡崎研D3)
    2021/9/17 最先端NLP(東⼯⼤:平岡) 1

    View full-size slide

  2. 2021/9/17 最先端NLP(東⼯⼤:平岡) 2
    Multilingual BERT
    Monolingual BERT

    View full-size slide

  3. どんな研究?
    2021/9/17 最先端NLP(東⼯⼤:平岡) 3
    Multilingual vs Monolingual BERT
    本当に性能差があるのか?
    Multilingual vs Monolingual
    BERTの性能差は何に由来するのか?
    複数⾔語・複数タスクで
    Monolingualが強い
    事前学習のデータ量
    Tokenizer
    ⾔語ごとに適切なTokenizerを使うと
    Multilingual BERTの性能向上が得られる
    Monolingualタスクにおいて

    View full-size slide

  4. 問題意識: Multi < Mono –lingual BERT?
    2021/9/17 最先端NLP(東⼯⼤:平岡) 4
    Monolingual BERTの⽅が
    Multilingual BERTよりも性能が良い
    Virtanen+ 2019, Antoun+ 2020, Martin+ 2020

    View full-size slide

  5. 問題意識: Multi < Mono –lingual BERT?
    2021/9/17 最先端NLP(東⼯⼤:平岡) 5
    Monolingual BERTの⽅が
    Multilingual BERTよりも性能が良い
    Virtanen+ 2019, Antoun+ 2020, Martin+ 2020
    著者ら
    語族やタスクが偏った実験
    ばかりだからなんとも⾔えない

    View full-size slide

  6. 問題意識: Multi < Mono –lingual BERT?
    2021/9/17 最先端NLP(東⼯⼤:平岡) 6
    Monolingual BERTの⽅が
    Multilingual BERTよりも性能が良い
    Virtanen+ 2019, Antoun+ 2020, Martin+ 2020
    著者ら
    語族やタスクが偏った実験
    ばかりだからなんとも⾔えない
    Monolingualが強い理由は何?

    View full-size slide

  7. 問題意識: Multi < Mono –lingual BERT?
    2021/9/17 最先端NLP(東⼯⼤:平岡) 7
    Monolingual BERTの⽅が
    Multilingual BERTよりも性能が良い
    Virtanen+ 2019, Antoun+ 2020, Martin+ 2020
    著者ら
    語族やタスクが偏った実験
    ばかりだからなんとも⾔えない
    Monolingualが強い理由は何?
    →複数⾔語・タスクで実験

    View full-size slide

  8. 検証① Multi < Monoなのか?
    2021/9/17 最先端NLP(東⼯⼤:平岡) 8
    82
    84
    86
    88
    90
    92
    AR EN FI ID JA KO RU TR ZH
    NER, SA, QA, UDP, POSのスコア平均
    Monolingual
    mBERT
    アフロアジア 印欧 印欧 チュルク
    ウラル
    オーストロ
    ネシア
    ⽇琉 朝鮮
    シナ
    チベット
    • 語族・タスクに関わらずMonolingual BERTの性能が良い
    • IDはMonolingual BERTがそもそも弱いっぽい
    ←multilingual
    (例外)

    View full-size slide

  9. 検証① Multi < Monoなのか?
    2021/9/17 最先端NLP(東⼯⼤:平岡) 9
    82
    84
    86
    88
    90
    92
    AR EN FI ID JA KO RU TR ZH
    NER, SA, QA, UDP, POSのスコア平均
    Monolingual
    mBERT
    アフロアジア 印欧 印欧 チュルク
    ウラル
    オーストロ
    ネシア
    ⽇琉 朝鮮
    シナ
    チベット
    • 語族・タスクに関わらずMonolingual BERTの性能が良い
    • IDはMonolingual BERTがそもそも弱いっぽい
    ←multilingual
    (例外)
    Monolingual BERT
    Multilingual BERT

    View full-size slide

  10. 検証① Multi < Monoなのか?
    2021/9/17 最先端NLP(東⼯⼤:平岡) 10
    82
    84
    86
    88
    90
    92
    AR EN FI ID JA KO RU TR ZH
    NER, SA, QA, UDP, POSのスコア平均
    Monolingual
    mBERT
    アフロアジア 印欧 印欧 チュルク
    ウラル
    オーストロ
    ネシア
    ⽇琉 朝鮮
    シナ
    チベット
    • 語族・タスクに関わらずMonolingual BERTの性能が良い
    • IDはMonolingual BERTがそもそも弱いっぽい
    ←multilingual
    (例外)
    Monolingualが強い理由は何?
    著者ら

    View full-size slide

  11. 検証② Multi/Monoの性能差の原因は何?
    2021/9/17 最先端NLP(東⼯⼤:平岡) 11
    著者ら
    事前学習のデータ量 Tokenizer
    ⼆つの要因に着眼
    Monolingualが強い理由は何?

    View full-size slide

  12. 82
    84
    86
    88
    90
    92
    AR EN FI ID JA KO RU TR ZH
    NER, SA, QA, UDP, POSのスコア平均
    Monolingual
    mBERT
    Tokenizer
    検証②’ 事前学習のデータ量の差が原因?
    2021/9/17 最先端NLP(東⼯⼤:平岡) 12
    事前学習のデータ量
    • 仮説
    • 事前学習のデータ量の差と
    後段タスクの性能差に関係がある
    • 検証⽅法
    • Multi/Mono BERTの学習に使⽤した
    データ量を⽐較
    • 実際に⾒⽐べると
    • AR, FI, KO, RU, TRは関係がありそう

    View full-size slide

  13. Tokenizer
    検証②’ 事前学習のデータ量の差が原因?
    2021/9/17 最先端NLP(東⼯⼤:平岡) 13
    82
    84
    86
    88
    90
    92
    AR EN FI ID JA KO RU TR ZH
    NER, SA, QA, UDP, POSのスコア平均
    Monolingual
    mBERT
    事前学習のデータ量
    データ量と性能に関係がありそう
    • 仮説
    • 事前学習のデータ量の差と
    後段タスクの性能差に関係がある
    • 検証⽅法
    • Multi/Mono BERTの学習に使⽤した
    データ量を⽐較
    • 実際に⾒⽐べると
    • AR, FI, KO, RU, TRは関係がありそう

    View full-size slide

  14. 事前学習のデータ量
    検証②” Tokenizerが原因?
    2021/9/17 最先端NLP(東⼯⼤:平岡) 14
    82
    84
    86
    88
    90
    92
    AR EN FI ID JA KO RU TR ZH
    NER, SA, QA, UDP, POSのスコア平均
    Monolingual
    mBERT
    Tokenizer
    ※値が⼤きいほどOver Tokenizationが起きている
    • 仮説
    • Multilingual BERTのトークナイザーは
    対象⾔語に適していない
    →Over Tokenizationが起きている
    • 検証⽅法
    • Subword Fertilityを⽐較
    • 単語がいくつのサブワードに分割されるか
    • Hello → 1.0,He ##llo → 2.0
    • 結果
    • AR, EN, FI, KO, RU, TRは関係ありそう

    View full-size slide

  15. 事前学習のデータ量
    検証②” Tokenizerが原因?
    2021/9/17 最先端NLP(東⼯⼤:平岡) 15
    82
    84
    86
    88
    90
    92
    AR EN FI ID JA KO RU TR ZH
    NER, SA, QA, UDP, POSのスコア平均
    Monolingual
    mBERT
    Tokenizer
    Tokenizerと性能に関係がありそう
    ※値が⼤きいほどOver Tokenizationが起きている
    • 仮説
    • Multilingual BERTのトークナイザーは
    対象⾔語に適していない
    →Over Tokenizationが起きている
    • 検証⽅法
    • Subword Fertilityを⽐較
    • 単語がいくつのサブワードに分割されるか
    • Hello → 1.0,He ##llo → 2.0
    • 結果
    • AR, EN, FI, KO, RU, TRは関係ありそう

    View full-size slide

  16. データ量とTokenizerの両方が性能に関係してそう
    2021/9/17 最先端NLP(東⼯⼤:平岡) 16
    82
    84
    86
    88
    90
    92
    AR EN FI ID JA KO RU TR ZH
    NER, SA, QA, UDP, POSのスコア平均
    Monolingual
    mBERT
    Tokenizerと性能に関係がありそう
    82
    84
    86
    88
    90
    92
    AR EN FI ID JA KO RU TR ZH
    NER, SA, QA, UDP, POSのスコア平均
    Monolingual
    mBERT
    データ量と性能に関係がありそう
    ※値が⼤きいほどOver Tokenizationが起きている

    View full-size slide

  17. データ量とTokenizerの両方が性能に関係してそう
    2021/9/17 最先端NLP(東⼯⼤:平岡) 17
    82
    84
    86
    88
    90
    92
    AR EN FI ID JA KO RU TR ZH
    NER, SA, QA, UDP, POSのスコア平均
    Monolingual
    mBERT
    Tokenizerと性能に関係がありそう
    82
    84
    86
    88
    90
    92
    AR EN FI ID JA KO RU TR ZH
    NER, SA, QA, UDP, POSのスコア平均
    Monolingual
    mBERT
    データ量と性能に関係がありそう
    ※値が⼤きいほどOver Tokenizationが起きている
    Tokenizerの影響
    だけを調べたいな

    View full-size slide

  18. データ量とTokenizerの両方が性能に関係してそう
    2021/9/17 最先端NLP(東⼯⼤:平岡) 18
    82
    84
    86
    88
    90
    92
    AR EN FI ID JA KO RU TR ZH
    NER, SA, QA, UDP, POSのスコア平均
    Monolingual
    mBERT
    Tokenizerと性能に関係がありそう
    82
    84
    86
    88
    90
    92
    AR EN FI ID JA KO RU TR ZH
    NER, SA, QA, UDP, POSのスコア平均
    Monolingual
    mBERT
    データ量と性能に関係がありそう
    ※値が⼤きいほどOver Tokenizationが起きている
    Tokenizerの影響
    だけを調べたいな
    Mono/Multi Tokenizer
    でBERTを学習し直せば
    ええやん!

    View full-size slide

  19. 検証③ Tokenizerの影響 (Mono-BERT)
    • 同じデータで2つのMonolingual BERTを作り直す
    • Monolingual BERTのTokenizerを使ったもの
    • mBERTのTokenizerを使ったもの
    2021/9/17 最先端NLP(東⼯⼤:平岡) 19
    Transformer
    Layers
    Embedding
    Monolingual
    Tokenizer
    Transformer
    Layers
    Embedding
    mBERTʼs
    Tokenizer
    Monolingual
    Wikipedia
    Corpus
    Tokenizerによって
    性能が変わるはず
    BERT BERT

    View full-size slide

  20. 検証③ Tokenizerの影響 (Mono-BERT)
    • 同じデータで2つのMonolingual BERTを作り直す
    • Monolingual BERTのTokenizerを使ったもの
    • mBERTのTokenizerを使ったもの
    2021/9/17 最先端NLP(東⼯⼤:平岡) 20
    Tokenizerによって
    性能が変わるはず
    →Tokenizerの質が後段タスクの性能に影響
    82
    84
    86
    88
    90
    92
    AR FI ID KO TR
    NER, SA, QA, UDP, POSのスコア平均
    Mono (Original)
    Mono-Mono_tknzr
    Mono-mBERT_tknzr
    • Monolingual Tokenizer ( ) > mBERTʼs Tokenizer ( )

    View full-size slide

  21. 検証③ Tokenizerの影響 (Mono-BERT)
    • 同じデータで2つのMonolingual BERTを作り直す
    • Monolingual BERTのTokenizerを使ったもの
    • mBERTのTokenizerを使ったもの
    2021/9/17 最先端NLP(東⼯⼤:平岡) 21
    Tokenizerによって
    性能が変わるはず
    →Tokenizerの質が後段タスクの性能に影響
    82
    84
    86
    88
    90
    92
    AR FI ID KO TR
    NER, SA, QA, UDP, POSのスコア平均
    Mono (Original)
    Mono-Mono_tknzr
    Mono-mBERT_tknzr
    • Monolingual Tokenizer ( ) > mBERTʼs Tokenizer ( )

    View full-size slide

  22. 検証③ Tokenizerの影響 (Mono-BERT)
    • 同じデータで2つのMonolingual BERTを作り直す
    • Monolingual BERTのTokenizerを使ったもの
    • mBERTのTokenizerを使ったもの
    2021/9/17 最先端NLP(東⼯⼤:平岡) 22
    Tokenizerによって
    性能が変わるはず
    →Tokenizerの質が後段タスクの性能に影響
    82
    84
    86
    88
    90
    92
    AR FI ID KO TR
    NER, SA, QA, UDP, POSのスコア平均
    Mono (Original)
    Mono-Mono_tknzr
    Mono-mBERT_tknzr
    • Monolingual Tokenizer ( ) > mBERTʼs Tokenizer ( )
    もしかしてmBERTも
    Tokenizerを挿げ替えれば
    性能が向上する?

    View full-size slide

  23. BERT BERT
    検証③’ Tokenizerの影響 (mBERT)
    • 同じデータで2つのmBERTのEmbeddingを再学習
    • Monolingual BERTのTokenizerを使ったもの
    • mBERTのTokenizerを使ったもの
    2021/9/17 最先端NLP(東⼯⼤:平岡) 23
    mBERTʼs
    Transformer
    Layers
    New Embedding
    Monolingual
    Tokenizer
    mBERTʼs
    Transformer
    Layers
    New Embedding
    mBERTʼs
    Tokenizer
    Monolingual
    Wikipedia
    Corpus
    Tokenizerによって
    性能が変わるはず
    Frozen
    Frozen

    View full-size slide

  24. 検証③’ Tokenizerの影響 (mBERT)
    • 同じデータで2つのmBERTのEmbeddingを再学習
    • Monolingual BERTのTokenizerを使ったもの
    • mBERTのTokenizerを使ったもの
    2021/9/17 最先端NLP(東⼯⼤:平岡) 24
    Tokenizerによって
    性能が変わるはず
    82
    84
    86
    88
    90
    92
    AR FI ID KO TR
    NER, SA, QA, UDP, POSのスコア平均
    mBERT (Original)
    mBERT-Mono_tknzr
    mBERT-mBERT_tknzr
    • Mono-Tokenizer ( ) > mBERT-Tokenizer ( ) > Original mBERT ( )
    →Monolingual Tokenizerを使うと既存のmBERTの性能向上が可能

    View full-size slide

  25. 検証③’ Tokenizerの影響 (mBERT)
    • 同じデータで2つのmBERTのEmbeddingを再学習
    • Monolingual BERTのTokenizerを使ったもの
    • mBERTのTokenizerを使ったもの
    2021/9/17 最先端NLP(東⼯⼤:平岡) 25
    Tokenizerによって
    性能が変わるはず
    82
    84
    86
    88
    90
    92
    AR FI ID KO TR
    NER, SA, QA, UDP, POSのスコア平均
    mBERT (Original)
    mBERT-Mono_tknzr
    mBERT-mBERT_tknzr
    • Mono-Tokenizer ( ) > mBERT-Tokenizer ( ) > Original mBERT ( )
    →Monolingual Tokenizerを使うと既存のmBERTの性能向上が可能

    View full-size slide

  26. 話をまとめると
    2021/9/17 最先端NLP(東⼯⼤:平岡) 26
    Multilingual vs Monolingual BERT
    本当に性能差があるのか?
    Multilingual vs Monolingual
    BERTの性能差は何に由来するのか?
    複数⾔語・複数タスクで
    性能差あり
    事前学習のデータ量
    Tokenizer




    TokenizerというよりVocab Sizeの問題では?
    →各⾔語の語彙の規模をバランスした
    多⾔語BERTを作ると良い感じになる?
    ⾔語ごとに適切なTokenizerを使うと
    Multilingual BERTの性能向上が得られる
    Monolingualタスクにおいて

    View full-size slide