Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2021論文紹介_CANINE:-Pre-training-an-Efficient-Tokenization-Free-Encoder-for-Language-Representation

 2021論文紹介_CANINE:-Pre-training-an-Efficient-Tokenization-Free-Encoder-for-Language-Representation

論文紹介 : 2021/05/27 @ komachi-lab

0e0827af3bb7bc58fc1db4c215f579d9?s=128

Ikumi Yamashita

May 27, 2021
Tweet

Transcript

  1. 紹介者:⼭下郁海 (TMU M2 ⼩町研究室) 2021/05/27 @ 論⽂紹介2021

  2. Overview • Tokenization に依存しない事前学習⼿法・モデルを提案した研究 Ø 全⾔語対応 Ø 単語分割に付随する問題の解決 • ⽂字列をユニコード⽂字の系列として扱うことで実現

    Ø ハッシュ関数による潜在表現への落とし込み,CNN による down sampling などの⼯夫多数 • mBERT と同等あるいはそれ以上の性能 Ø パラメータは 28% 減
  3. Background • BPE (Byte Pair Encoding) Ø 元々は可逆圧縮のデータ圧縮法の⼀つ Ø 現在

    NLP では語彙の圧縮・未知語問題解決のために使われている ü 単語分割では未知語が出る,⽂字分割では計算量の問題がある ü そこで,⽂字以上単語以下のサブワードで分割をしたい ü ただし闇雲にやるのではなく意味のある分割が望ましい Ø (ざっくりいうと) 全単語を⽂字に分割 → 頻度の⾼い 2-gram を結合,を 繰り返して語彙を得る 例: {[q, u, i, c, k, l, y], [a, c, c, u, r, a, t, e, l, y]} → {[q, u, i, c, k, ly], [a, c, c, r, a, t, e, ly]}
  4. Motivation • BPE を代表とする subword tokenize が近年主流となっている • ⼀⽅で,subword 単位の分割では解決できない問題も存在している

    Ø 英語とは異なる複雑な形態を持つ⾔語の分割問題 Ø イレギュラーな⾔語現象への弱さ Ø 事前学習の tokenize と下流タスクでの tokenize の不⼀致 • ⽂字単位での処理は計算量の問題があり,かつ性能もよくない
  5. Approach: CANINE • 全体像 Ø ⼤まかに Down sampling, Encode, Upsampling

    で構成されている
  6. Approach: CANINE • input Ø ユニコードのコードポイントの系列 Ø トークナイザーとは異なり互換性の⼼配がない Ø 全⾔語対応かつ分割が不要

  7. Approach: CANINE • Hash embedding Ø ⼊⼒にハッシュ関数をかけ圧縮 → ⾏列によって埋め込み表現を取得 Ø

    上記を 𝐾 回異なるハッシュ関数と⾏列に対して繰り返し,得たベクトル を連結し,⽂字埋め込みとする
  8. Approach: CANINE • Single Local Transformer Ø 1層のみの Transformer Ø

    計算量の問題で局所的な範囲のみ attention を計算 Ø より単語に近い表現を得るためのもの
  9. Approach: CANINE • Downsampling Ø strided convolution を⽤いた畳み込み Ø 既存の

    mBERT と同じ次元数まで downsampling (2048 → 512, stride 𝑟 = 4)
  10. Approach: CANINE • Deep Transformer stack Ø 既存の mBERT などのモデルと同じ

    Ø 簡単に置き換えが可能
  11. Approach: CANINE • Upsampling Ø 最初の contextualized characters と deep

    Transformer の出⼒を concat Ø その後畳み込み → 1層 Transformer
  12. Pretraining (1) • mBERT と同様のタスクで事前学習 Ø MLM (Masked Language Modeling)

    Ø NSP (Next Sentence Prediction) • 2種類の Loss (⼀度に⽤いるのは1つ) Ø Autoregressive Character Loss ü 空⽩区切りのスパンで mask or replace → predict ü 予測の際の順序はシャッフル (left-to-right である必要はない) Ø Optional Subword Loss ü サブワード単位で mask → predict ü サブワードの語彙は存在しないため replace はなし
  13. Pretraining (2) • Targeted upsampling Ø upsampling 後の最終的な出⼒には位置間の依存関係がない (upsampling 時に位置関係に依存した変換はない)

    Ø そこで,事前学習の際にはその時点の MLM タスク p に必要な位置に対し てのみ upsampling を⾏うことで計算量を削減する
  14. Experimental setup • 評価するタスク Ø TyDi QA (多様な⾔語から構成された質問応答データセット) を⽤いた2つ のタスク

    ü Passage Selection Task: 与えられた Wikipedia の節のリスト中から質問に対する回答の存在す る節を選択するタスク ü Minimal Answer Span Task: 与えられた Wikipedia の記事全⽂から質問の回答となる最⼩スパンを 取得するタスク • データセット (事前学習) Ø mBERT と同じ 104⾔語の Wikipedia のデータ
  15. Results • Character Loss, Subwords Loss のどちらを⽤いた場合でも mBERT の性能を CANINE

    が上回っている (2⾏⽬ vs 5, 6⾏⽬) • ⽂字単位の通常の mBERT では性能が下がってしまっている (3, 4⾏⽬) • CANINE は特に形態の豊富な⾔語で mBERT よりも良い性能を⽰した
  16. Ablations • Attending directory to h’down Ø upsampling 前の表現を key,

    value として計算 • Number of hash buckets Ø hash buckets を 16k → 8k に削減
  17. Ablations • Character vocab Ø hash embedding をやめ純粋に⽂字単位の語彙を⽤いる • Input

    character dimension Ø 768 → 384, 192 に削減
  18. Ablations • No initial Transfomer Ø Contextualized character を得るための local

    Transformer の削除 • Increased downsampling Ø 4X の down sampling を 5X, 6X に変更
  19. Ablations • No position limited MLM Ø 最後の character transformer

    を MLM に必要な部分のみ計算する,とい う⼯夫をやめる Ø 計算速度が⼤きく落ちていることがわかる
  20. Future work • CANINE の性能評価は最低限のものしか⾏われていないためより詳細な評価 が必要である Ø その他の下流タスクでの評価 (MT のエンコーダーとして使うなど)

    Ø 形態の豊富な⾔語に特化した評価 Ø ノイズの多いテキストに対する頑健性の⾼さの評価 • トークン境界の異なるデータソースを複数⽤いた学習への適応 Ø 事前学習時に複数の分割⽅法・語彙などを⽤いることが可能 Ø 下流タスクでは事前学習時にどのような⼿法を使っていたかにかかわら ず常に同じ形で処理が可能
  21. Conclusion • tokenizer に依存しない事前学習⼿法・モデルの CANINE を提案 • Down sampling や

    Hash 関数を⽤いた embedding の取得などの⼯夫を⽤い て計算量の問題を解決しつつ性能向上,mBERT を上回る性能を得た • 特に形態が豊富な⾔語において CANINE の性能が⾼いことも⽰した • 今後詳細な分析や評価が進めば tokenize の必要のない時代になっていくか もしれない