Shaham and Levy, 2021. Neural Machine Translation without Embeddings. NAACL2021

Slide 1

Slide 1 text

Neural Machine Translation without Embeddings Uri Shaham♦, Omer Levy♦♠ ♦ The Blavatnik School of Computer Science, Tel Aviv University ♠ Facebook AI Research NAACL 2021 紹介者: Tosho Hirasawa (小町研D1) 2021/07/05 @小町研 EACL/NAACL 2021 論文読み会

Slide 2

Slide 2 text

1. どんなもの？ Byte-level tokenization と one-hot embedding matrix で用いることで、従来のルールやヒューリスティックな（サブ）ワード分割手法に頼らない、ユニバーサルな Transformer モデルを提案した。

Slide 3

Slide 3 text

Byte-level tokenization ルールベースやヒューリスティックなサブワード分割に比べ、byte-level tokenization を用いることで、256 types だけで語彙を表現できる。 ● Pros: 語彙が少ないため、モデルを小さくできる ● Pros: 言語に依存しない ● Cons: サブワード分割を使うモデルに比べて、性能が悪い 2. 先行研究と比べてどこがすごい？

Slide 4

Slide 4 text

提案手法単語埋め込みを使わないことで、byte-level tokenization の簡潔さと汎用性を維持しつつ、サブワード分割を使ったモデルに匹敵する性能を達成した。 2. 先行研究と比べてどこがすごい？

Slide 5

Slide 5 text

Byte-level Tokenization Unicode な文字列をバイトに分割する ● 語彙サイズを 256 になる ● 言語によって変換率が異なる ○ 1 byte/char: 英語 ○ 2 byte/char: アラビア語 ○ 3 byte/char: 中国語 ○ 4 byte/char: 絵文字 3. 技術や手法のキモはどこ？

Slide 6

Slide 6 text

単語埋め込み層を削除し、単語の埋め込み表現に one-hot ベクトルを使う ● 語彙が小さいので sparse でよい ● パラメータの削減になる ● より多くのメモリー空間が必要になる Space complexity: その他の工夫 ● one-hot embedding と output layer の重みは sqrt(d) で初期化 ● encoder input と decoder output で dropout は使わない One-hot embedding matrix 3. 技術や手法のキモはどこ？

Slide 7

Slide 7 text

実験設定 Dataset: IWSLT（TED talks のサブスクリプトと翻訳のデータ）言語対: en-x and x-en (x = zh, es, ar, ru, de, ja, tr, vi, fa, he) ベースライン: 3 Transformer models (Fairseq, 6 layers, 4 heads, 512d, 1024d ffn) ● BPE-based model (10k merge operations) ● character-based model ● byte-based model w/ embedding Training: Adam, 4k warmup steps, 5e-4 lr, (0.2 or 0.3 dropout?,) batch of 64k byte average top 5 checkpoints in 50k steps Evaluation: SacreBLEU (case-sensitive), use the raw text as the reference 4. どうやって有効だと検証した？

Slide 8

Slide 8 text

実験結果 ● tokenization の違いによる性能差は相対的に小さい ● Embed-less byte model は embed-based char/byte models より性能が良い 4. どうやって有効だと検証した？

Slide 9

Slide 9 text

議論 x-en だと BPE-based model の性能が最もよい ● Moses tokenizer は英語には良いが、他の言語では良くないため Dropout of decoder input の効果 ● Embed-less byte model に有効 ● Validation データ 160 件のうち、 153 件で性能が向上した ● Exposure bias が軽減されたためだと考えられる 5. 議論はある？

Slide 10

Slide 10 text

Decoder Token Dropout (0.2) の効果 ● Embed-less byte model にはほぼ効果なし（ja-en が 1 BLEU 低下） 5. 議論はある？