Shaham and Levy, 2021. Neural Machine Translation without Embeddings. NAACL2021

Neural Machine Translation without Embeddings Uri Shaham♦, Omer Levy♦♠ ♦
The Blavatnik School of Computer Science, Tel Aviv University ♠ Facebook AI Research NAACL 2021 紹介者: Tosho Hirasawa (小町研D1) 2021/07/05 @小町研 EACL/NAACL 2021 論文読み会

1. どんなもの？ Byte-level tokenization と one-hot embedding matrix で用いることで、従来のルールやヒューリスティックな（サブ）ワード分割手法に頼らない、
ユニバーサルな Transformer モデルを提案した。

Byte-level tokenization ルールベースやヒューリスティックなサブワード分割に比べ、byte-level tokenization を用いることで、256 types だけで語彙を表現できる。 • Pros:
語彙が少ないため、モデルを小さくできる • Pros: 言語に依存しない • Cons: サブワード分割を使うモデルに比べて、性能が悪い 2. 先行研究と比べてどこがすごい？

提案手法単語埋め込みを使わないことで、byte-level tokenization の簡潔さと汎用性を維持しつつ、サブワード分割を使ったモデルに匹敵する性能を達成した。 2. 先行研究と比べてどこがすごい？

Byte-level Tokenization Unicode な文字列をバイトに分割する • 語彙サイズを 256 になる • 言語によって変換率が異なる
◦ 1 byte/char: 英語 ◦ 2 byte/char: アラビア語 ◦ 3 byte/char: 中国語 ◦ 4 byte/char: 絵文字 3. 技術や手法のキモはどこ？

単語埋め込み層を削除し、単語の埋め込み表現に one-hot ベクトルを使う • 語彙が小さいので sparse でよい • パラメータの削減になる •
より多くのメモリー空間が必要になる Space complexity: その他の工夫 • one-hot embedding と output layer の重みは sqrt(d) で初期化 • encoder input と decoder output で dropout は使わない One-hot embedding matrix 3. 技術や手法のキモはどこ？

実験設定 Dataset: IWSLT（TED talks のサブスクリプトと翻訳のデータ）言語対: en-x and x-en (x
= zh, es, ar, ru, de, ja, tr, vi, fa, he) ベースライン: 3 Transformer models (Fairseq, 6 layers, 4 heads, 512d, 1024d ffn) • BPE-based model (10k merge operations) • character-based model • byte-based model w/ embedding Training: Adam, 4k warmup steps, 5e-4 lr, (0.2 or 0.3 dropout?,) batch of 64k byte average top 5 checkpoints in 50k steps Evaluation: SacreBLEU (case-sensitive), use the raw text as the reference 4. どうやって有効だと検証した？

実験結果 • tokenization の違いによる性能差は相対的に小さい • Embed-less byte model は embed-based
char/byte models より性能が良い 4. どうやって有効だと検証した？

議論 x-en だと BPE-based model の性能が最もよい • Moses tokenizer は英語には良いが、他の言語では良くないため
Dropout of decoder input の効果 • Embed-less byte model に有効 • Validation データ 160 件のうち、 153 件で性能が向上した • Exposure bias が軽減されたためだと考えられる 5. 議論はある？

Decoder Token Dropout (0.2) の効果 • Embed-less byte model にはほぼ効果なし（ja-en
が 1 BLEU 低下） 5. 議論はある？

Shaham and Levy, 2021. Neural Machine Translati...

Shaham and Levy, 2021. Neural Machine Translation without Embeddings. NAACL2021

tosho

More Decks by tosho

Other Decks in Research

Featured

Transcript

Neural Machine Translation without Embeddings Uri Shaham♦, Omer Levy♦♠ ♦

1. どんなもの？ Byte-level tokenization と one-hot embedding matrix で用いることで、従来のルールやヒューリスティックな（サブ）ワード分割手法に頼らない、

Byte-level tokenization ルールベースやヒューリスティックなサブワード分割に比べ、byte-level tokenization を用いることで、256 types だけで語彙を表現できる。 • Pros:

提案手法単語埋め込みを使わないことで、byte-level tokenization の簡潔さと汎用性を維持しつつ、サブワード分割を使ったモデルに匹敵する性能を達成した。 2. 先行研究と比べてどこがすごい？

Byte-level Tokenization Unicode な文字列をバイトに分割する • 語彙サイズを 256 になる • 言語によって変換率が異なる

単語埋め込み層を削除し、単語の埋め込み表現に one-hot ベクトルを使う • 語彙が小さいので sparse でよい • パラメータの削減になる •

実験設定 Dataset: IWSLT（TED talks のサブスクリプトと翻訳のデータ）言語対: en-x and x-en (x

実験結果 • tokenization の違いによる性能差は相対的に小さい • Embed-less byte model は embed-based

議論 x-en だと BPE-based model の性能が最もよい • Moses tokenizer は英語には良いが、他の言語では良くないため

Decoder Token Dropout (0.2) の効果 • Embed-less byte model にはほぼ効果なし（ja-en