Slide 8
Slide 8 text
1. どの語彙を追加すべきか
例えば, 通常のドメインの言語モデルである RoBERTa の Tokenizer は
"oboe" という単語を "ob" と "oe" の 2 つの subword に分解してしまう
これは, Tokenizer のアルゴリズムでは, 一定程度高頻度でないと 1
トークンにならないため
一方で, 例えばクラシック音楽に関するコーパスに Domain Adaptation
させたい場合は, "oboe" を 1 つのトークンとして語彙に追加させたい
8 / 20