2021論文紹介_CANINE:-Pre-training-an-Efficient-Tokenization-Free-Encoder-for-Language-Representation

紹介者：⼭下郁海 (TMU M2 ⼩町研究室) 2021/05/27 @ 論⽂紹介2021

Overview • Tokenization に依存しない事前学習⼿法・モデルを提案した研究 Ø 全⾔語対応 Ø 単語分割に付随する問題の解決 • ⽂字列をユニコード⽂字の系列として扱うことで実現
Ø ハッシュ関数による潜在表現への落とし込み，CNN による down sampling などの⼯夫多数 • mBERT と同等あるいはそれ以上の性能 Ø パラメータは 28% 減

Background • BPE (Byte Pair Encoding) Ø 元々は可逆圧縮のデータ圧縮法の⼀つ Ø 現在
NLP では語彙の圧縮・未知語問題解決のために使われている ü 単語分割では未知語が出る，⽂字分割では計算量の問題がある ü そこで，⽂字以上単語以下のサブワードで分割をしたい ü ただし闇雲にやるのではなく意味のある分割が望ましい Ø (ざっくりいうと) 全単語を⽂字に分割 → 頻度の⾼い 2-gram を結合，を繰り返して語彙を得る例: {[q, u, i, c, k, l, y], [a, c, c, u, r, a, t, e, l, y]} → {[q, u, i, c, k, ly], [a, c, c, r, a, t, e, ly]}

Motivation • BPE を代表とする subword tokenize が近年主流となっている • ⼀⽅で，subword 単位の分割では解決できない問題も存在している
Ø 英語とは異なる複雑な形態を持つ⾔語の分割問題 Ø イレギュラーな⾔語現象への弱さ Ø 事前学習の tokenize と下流タスクでの tokenize の不⼀致 • ⽂字単位での処理は計算量の問題があり，かつ性能もよくない

Approach: CANINE • 全体像 Ø ⼤まかに Down sampling, Encode, Upsampling
で構成されている

Approach: CANINE • input Ø ユニコードのコードポイントの系列 Ø トークナイザーとは異なり互換性の⼼配がない Ø 全⾔語対応かつ分割が不要

Approach: CANINE • Hash embedding Ø ⼊⼒にハッシュ関数をかけ圧縮 → ⾏列によって埋め込み表現を取得 Ø
上記を 𝐾 回異なるハッシュ関数と⾏列に対して繰り返し，得たベクトルを連結し，⽂字埋め込みとする

Approach: CANINE • Single Local Transformer Ø 1層のみの Transformer Ø
計算量の問題で局所的な範囲のみ attention を計算 Ø より単語に近い表現を得るためのもの

Approach: CANINE • Downsampling Ø strided convolution を⽤いた畳み込み Ø 既存の
mBERT と同じ次元数まで downsampling (2048 → 512, stride 𝑟 = 4)

Approach: CANINE • Deep Transformer stack Ø 既存の mBERT などのモデルと同じ
Ø 簡単に置き換えが可能

Approach: CANINE • Upsampling Ø 最初の contextualized characters と deep
Transformer の出⼒を concat Ø その後畳み込み → 1層 Transformer

Pretraining (1) • mBERT と同様のタスクで事前学習 Ø MLM (Masked Language Modeling)
Ø NSP (Next Sentence Prediction) • 2種類の Loss (⼀度に⽤いるのは1つ) Ø Autoregressive Character Loss ü 空⽩区切りのスパンで mask or replace → predict ü 予測の際の順序はシャッフル (left-to-right である必要はない) Ø Optional Subword Loss ü サブワード単位で mask → predict ü サブワードの語彙は存在しないため replace はなし

Pretraining (2) • Targeted upsampling Ø upsampling 後の最終的な出⼒には位置間の依存関係がない (upsampling 時に位置関係に依存した変換はない)
Ø そこで，事前学習の際にはその時点の MLM タスク p に必要な位置に対してのみ upsampling を⾏うことで計算量を削減する

Experimental setup • 評価するタスク Ø TyDi QA (多様な⾔語から構成された質問応答データセット) を⽤いた2つのタスク
ü Passage Selection Task：与えられた Wikipedia の節のリスト中から質問に対する回答の存在する節を選択するタスク ü Minimal Answer Span Task：与えられた Wikipedia の記事全⽂から質問の回答となる最⼩スパンを取得するタスク • データセット (事前学習) Ø mBERT と同じ 104⾔語の Wikipedia のデータ

Results • Character Loss, Subwords Loss のどちらを⽤いた場合でも mBERT の性能を CANINE
が上回っている (2⾏⽬ vs 5, 6⾏⽬) • ⽂字単位の通常の mBERT では性能が下がってしまっている (3, 4⾏⽬) • CANINE は特に形態の豊富な⾔語で mBERT よりも良い性能を⽰した

Ablations • Attending directory to h’down Ø upsampling 前の表現を key,
value として計算 • Number of hash buckets Ø hash buckets を 16k → 8k に削減

Ablations • Character vocab Ø hash embedding をやめ純粋に⽂字単位の語彙を⽤いる • Input
character dimension Ø 768 → 384, 192 に削減

Ablations • No initial Transfomer Ø Contextualized character を得るための local
Transformer の削除 • Increased downsampling Ø 4X の down sampling を 5X, 6X に変更

Ablations • No position limited MLM Ø 最後の character transformer
を MLM に必要な部分のみ計算する，という⼯夫をやめる Ø 計算速度が⼤きく落ちていることがわかる

Future work • CANINE の性能評価は最低限のものしか⾏われていないためより詳細な評価が必要である Ø その他の下流タスクでの評価 (MT のエンコーダーとして使うなど)
Ø 形態の豊富な⾔語に特化した評価 Ø ノイズの多いテキストに対する頑健性の⾼さの評価 • トークン境界の異なるデータソースを複数⽤いた学習への適応 Ø 事前学習時に複数の分割⽅法・語彙などを⽤いることが可能 Ø 下流タスクでは事前学習時にどのような⼿法を使っていたかにかかわらず常に同じ形で処理が可能

Conclusion • tokenizer に依存しない事前学習⼿法・モデルの CANINE を提案 • Down sampling や
Hash 関数を⽤いた embedding の取得などの⼯夫を⽤いて計算量の問題を解決しつつ性能向上，mBERT を上回る性能を得た • 特に形態が豊富な⾔語において CANINE の性能が⾼いことも⽰した • 今後詳細な分析や評価が進めば tokenize の必要のない時代になっていくかもしれない

2021論文紹介_CANINE:-Pre-training-an-Efficient-Toke...

2021論文紹介_CANINE:-Pre-training-an-Efficient-Tokenization-Free-Encoder-for-Language-Representation

Ikumi Yamashita

More Decks by Ikumi Yamashita

Other Decks in Research

Featured

Transcript

紹介者：⼭下郁海 (TMU M2 ⼩町研究室) 2021/05/27 @ 論⽂紹介2021

Overview • Tokenization に依存しない事前学習⼿法・モデルを提案した研究 Ø 全⾔語対応 Ø 単語分割に付随する問題の解決 • ⽂字列をユニコード⽂字の系列として扱うことで実現

Background • BPE (Byte Pair Encoding) Ø 元々は可逆圧縮のデータ圧縮法の⼀つ Ø 現在

Motivation • BPE を代表とする subword tokenize が近年主流となっている • ⼀⽅で，subword 単位の分割では解決できない問題も存在している

Approach: CANINE • 全体像 Ø ⼤まかに Down sampling, Encode, Upsampling

Approach: CANINE • input Ø ユニコードのコードポイントの系列 Ø トークナイザーとは異なり互換性の⼼配がない Ø 全⾔語対応かつ分割が不要

Approach: CANINE • Hash embedding Ø ⼊⼒にハッシュ関数をかけ圧縮 → ⾏列によって埋め込み表現を取得 Ø

Approach: CANINE • Single Local Transformer Ø 1層のみの Transformer Ø

Approach: CANINE • Downsampling Ø strided convolution を⽤いた畳み込み Ø 既存の

Approach: CANINE • Deep Transformer stack Ø 既存の mBERT などのモデルと同じ

Approach: CANINE • Upsampling Ø 最初の contextualized characters と deep

Pretraining (1) • mBERT と同様のタスクで事前学習 Ø MLM (Masked Language Modeling)

Pretraining (2) • Targeted upsampling Ø upsampling 後の最終的な出⼒には位置間の依存関係がない (upsampling 時に位置関係に依存した変換はない)

Experimental setup • 評価するタスク Ø TyDi QA (多様な⾔語から構成された質問応答データセット) を⽤いた2つのタスク

Results • Character Loss, Subwords Loss のどちらを⽤いた場合でも mBERT の性能を CANINE

Ablations • Attending directory to h’down Ø upsampling 前の表現を key,

Ablations • Character vocab Ø hash embedding をやめ純粋に⽂字単位の語彙を⽤いる • Input

Ablations • No initial Transfomer Ø Contextualized character を得るための local

Ablations • No position limited MLM Ø 最後の character transformer

Future work • CANINE の性能評価は最低限のものしか⾏われていないためより詳細な評価が必要である Ø その他の下流タスクでの評価 (MT のエンコーダーとして使うなど)

Conclusion • tokenizer に依存しない事前学習⼿法・モデルの CANINE を提案 • Down sampling や